paint-brush
UAEko ikertzaileek diote AI eredu berriak bideoak ikusi eta audioa ulertu ditzakeelaarabera@autoencoder
Historia berria

UAEko ikertzaileek diote AI eredu berriak bideoak ikusi eta audioa ulertu ditzakeela

Luzeegia; Irakurri

EAEko ikertzaileek AI eredu bat garatu dute, bideoetan objektuak aurkitu eta bideratu ditzakeena, eta, horretarako, beste eredu batzuk gainditzen ditu.
featured image - UAEko ikertzaileek diote AI eredu berriak bideoak ikusi eta audioa ulertu ditzakeela
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Egileak:

(1) Shehan Munasinghe, Mohamed bin Zayed University of AI and Equal Contribution;

(2) Rusiru Thushara, Mohamed bin Zayed Unibertsitateko AI eta Equal Contribution;

(3) Muhammad Maaz, Mohamed bin Zayed AI Unibertsitatea;

(4) Hanoona Abdul Rasheed, Mohamed bin Zayed AI Unibertsitatea;

(5) Salman Khan, Mohamed bin Zayed AI Unibertsitatea eta Australiako Unibertsitate Nazionala;

(6) Mubarak Shah, Florida Erdialdeko Unibertsitatea;

(7) Fahad Khan, Mohamed bin Zayed AI Unibertsitatea eta Linköping Unibertsitatea.

Editorearen oharra: hau bideoetarako AI eredu adimendun baten garapena zehazten duen ikerketa baten 1. zatia da. Irakurri gainerakoak behean.

Esteken taula


Material osagarria

Abstraktua

Irudietan oinarritutako Eredu Multimodal Handiak (LMM) bideoetara zabaltzea zaila da bideo-datuen berezko konplexutasuna dela eta. Irudietan oinarritutako LMMak bideoetara hedatzeko azken planteamenduek ez dute oinarri-gaitasunik (adibidez, VideoChat, Video-ChatGPT, Video-LLaMA) edo ez dute audio-seinaleak erabiltzen bideoa hobeto ulertzeko (adibidez, Video-ChatGPT). Hutsune horiei aurre egiteko, PG-Video-LLaVA proposatzen dugu, pixel-mailako oinarri-gaitasuna duen lehen LMMa, audio-seinaleak testura transkribatuz bideo-testuinguruaren ulermena aberasteko. Gure markoak apalategiko jarraitzaile bat eta lurrerako modulu berri bat erabiltzen ditu, bideoetan objektuak espazioan lokalizatu ahal izateko erabiltzailearen argibideak jarraituz. PG-Video-LLaVA ebaluatzen dugu bideoetan oinarritutako sorkuntza eta galdera-erantzunen erreferenteak erabiliz eta bideoetan gonbita-oinarritutako objektuen oinarriaren errendimendua neurtzeko bereziki diseinatutako erreferentzia berriak sartzen ditugu. Gainera, Vicuna GPT-3.5-en erabiltzea proposatzen dugu, VideoChatGPT-en erabiltzen den moduan, bideoetan oinarritutako elkarrizketen erreferentziarako, emaitzen erreproduzigarritasuna bermatuz, GPT-3.5-ren jabedun izaerarekin kezkatzen dena. Gure esparrua SoTA irudietan oinarritutako LLaVA ereduan oinarritzen da eta bere abantailak bideo-domeinura zabaltzen ditu, bideoan oinarritutako elkarrizketa eta oinarri-zereginetan irabazi itxaropentsuak emanez.

1. Sarrera

Eredu Multimodal Handietan (LMM) egindako azken ahaleginak, GPT-4V-k [25]-k zuzenduta, irudiei buruzko elkarrizketa zehatzak ahalbidetzen ditu, baina, oro har, ez dira ondo eskalatzen bideoetara. Bideo-datuen magnitudea beste modalitate batzuetatik haratago doa, sare sozialetan eta Interneteko sareetan duen bolumen handiagatik. Gainera, LMMak bideoetara hedatzea erronka da, zehaztasunez ulertu beharreko denborazko testuinguru luzea duten dinamika konplexuagatik. Duela gutxi izan arren


1. Irudia. Bideoaren oinarri espaziala VidSTG [48] (goian) eta HC-STVG [34] (behean) datu-multzoetako adibideetako bideoetan. PGVideo LLaVAk testu-erantzunak sor ditzake bideo-edukian oinarrituriko objektu erreferentzialekin (tenisa eta gizona goiko eta beheko adibideetan kokatzen dira, hurrenez hurren).


Bideo-LMMen inguruko planteamenduek, hala nola, VideoChat [15], Video-LLaMA [45] eta Video-ChatGPT [22] bideoen ulermenean eta elkarrizketan gaitasunak erakutsi dituzte, ez dute oinarri bisualaren ezaugarri erabakigarria. Bideoetan oinarritu bisualak LMM erantzunak bideo sarrerako objektu zehatzekin lotzea du helburu. Hutsune horri aurre egiteko, PG-Video-LLaVA aurkezten dugu, LMM erantzunetan agertzen diren objektuak lokalizatzeko gai den lehen bideo-LMMa. Zeregin honek konponezintasuna hobetzen du eta bideo-edukien ulermen sakona erakusten du.


PG-Video-LLaVAn, bideo-datuek planteatzen dituzten erronka bereziei aurre egiten diegu. Eredua kameraren ikuspegi koherenteak mantentzen dituzten bideoklip laburretan objektuak jarraitzeko diseinatuta dago, eszena eta mugimenduetan zehar ikusmen-lurramendu zehatza ahalbidetuz. Jarraipen honek espazio-denborazko segmentuak elkarrizketa-elementuekin zuzenean lotzen ditu, ereduaren testuinguruaren ulermena hobetuz. PG-VideoLLaVA-ren ezaugarri nabarmen bat bere diseinu modularra da, lehendik dauden lurrerako moduluekin integratzeko erraztasuna eta etorkizuneko hobekuntzetara egokitzeko malgutasuna ahalbidetzen baitu lurreratze bisualen teknologian. Gainera, PG-Video-LLaVA-k bere gaitasunak aberasten ditu audio-testuingurua sartuz. Hori lortzen du bideo-audioa LLMrentzat ulergarria den moduan aprobetxatuz, eta hori bereziki erabilgarria da entzumen-informazioa elkarrizketarako ezinbestekoa den egoeretan. Sartze horrek ereduaren ulermena zabaltzen du, bideo-edukiak interpretatzeko polifazetikoago bihurtuz.


Gainera, lan honek bideoetan oinarritutako elkarrizketa-ereduen benchmarkak egiteko esparru hobetu bat aurkezten du, ebaluaziorako nagusiki GPT-3.5-Turbo eredu jabeduna erabiltzen zuten aurreko planteamenduetatik abiatuz [22]. GPT-3.5-Turbo-k edozein unetan aldaketak jasan ditzakeela kontuan hartuta eta gardentasunik ez duela kode itxiko izaeragatik, erronkak dakartza fidagarritasunari eta erreproduzigarritasunari dagokionez. Horri aurre egiteko, Vicuna erabiltzea proposatzen dugu, kode irekiko LLM bat benchmarking egiteko. Aldaketa honek erreproduzigarritasuna hobetzeaz gain, ebaluazio-prozesuaren gardentasuna hobetzen du. PG-Video-LLaVA ebaluatzen dugu gure erreferentzia hobetuak erabiliz eta hobekuntza nabarmenak erakusten ditugu lehendik dauden bideo-elkarrizketa-ereduetan, VideoChatGPT [22] eta Video-LLaMA [45] bezalako bideo-elkarrizketetan oinarritu gabeko elkarrizketetan, puntako (SoTA) errendimendua lortuz.


Lan honen ekarpen nagusiak hauek dira:


• PG-Video-LLaVA proposatzen dugu, pixel-mailako lurrerako gaitasunak dituen bideoan oinarritutako lehen LMMa, malgutasun handiagoa lortzeko diseinu modularra duena.


• Audio-testuingurua txertatuz, PG-Video-LLaVA-k nabarmen hobetzen du bideo-edukien ulermena, zabalagoa eta egokiago bihurtuz audio-seinalea bideoa ulertzeko funtsezkoa den eszenatokietarako (adibidez, elkarrizketak eta elkarrizketak, albisteen bideoak, etab.) .


• Erreferentzia kuantitatibo hobetuak sartzen ditugu bideoetan oinarritutako elkarrizketa ereduetarako. Gure erreferentziek kode irekiko Vicuna LLM erabiltzen dute erreproduzigarritasun eta gardentasun hobea bermatzeko. Bideoan oinarritutako elkarrizketa-ereduen oinarri-gaitasunak ebaluatzeko erreferenteak ere proposatzen ditugu.


Paper hau arxiv-en dago eskuragarri CC BY 4.0 DEED lizentziapean.