Egileak:
(1) Shehan Munasinghe, Mohamed bin Zayed University of AI and Equal Contribution;
(2) Rusiru Thushara, Mohamed bin Zayed Unibertsitateko AI eta Equal Contribution;
(3) Muhammad Maaz, Mohamed bin Zayed AI Unibertsitatea;
(4) Hanoona Abdul Rasheed, Mohamed bin Zayed AI Unibertsitatea;
(5) Salman Khan, Mohamed bin Zayed AI Unibertsitatea eta Australiako Unibertsitate Nazionala;
(6) Mubarak Shah, Florida Erdialdeko Unibertsitatea;
(7) Fahad Khan, Mohamed bin Zayed AI Unibertsitatea eta Linköping Unibertsitatea.
Editorearen oharra: hau bideoetarako AI eredu adimendun baten garapena zehazten duen ikerketa baten 1. zatia da. Irakurri gainerakoak behean.
Material osagarria
Irudietan oinarritutako Eredu Multimodal Handiak (LMM) bideoetara zabaltzea zaila da bideo-datuen berezko konplexutasuna dela eta. Irudietan oinarritutako LMMak bideoetara hedatzeko azken planteamenduek ez dute oinarri-gaitasunik (adibidez, VideoChat, Video-ChatGPT, Video-LLaMA) edo ez dute audio-seinaleak erabiltzen bideoa hobeto ulertzeko (adibidez, Video-ChatGPT). Hutsune horiei aurre egiteko, PG-Video-LLaVA proposatzen dugu, pixel-mailako oinarri-gaitasuna duen lehen LMMa, audio-seinaleak testura transkribatuz bideo-testuinguruaren ulermena aberasteko. Gure markoak apalategiko jarraitzaile bat eta lurrerako modulu berri bat erabiltzen ditu, bideoetan objektuak espazioan lokalizatu ahal izateko erabiltzailearen argibideak jarraituz. PG-Video-LLaVA ebaluatzen dugu bideoetan oinarritutako sorkuntza eta galdera-erantzunen erreferenteak erabiliz eta bideoetan gonbita-oinarritutako objektuen oinarriaren errendimendua neurtzeko bereziki diseinatutako erreferentzia berriak sartzen ditugu. Gainera, Vicuna GPT-3.5-en erabiltzea proposatzen dugu, VideoChatGPT-en erabiltzen den moduan, bideoetan oinarritutako elkarrizketen erreferentziarako, emaitzen erreproduzigarritasuna bermatuz, GPT-3.5-ren jabedun izaerarekin kezkatzen dena. Gure esparrua SoTA irudietan oinarritutako LLaVA ereduan oinarritzen da eta bere abantailak bideo-domeinura zabaltzen ditu, bideoan oinarritutako elkarrizketa eta oinarri-zereginetan irabazi itxaropentsuak emanez.
Eredu Multimodal Handietan (LMM) egindako azken ahaleginak, GPT-4V-k [25]-k zuzenduta, irudiei buruzko elkarrizketa zehatzak ahalbidetzen ditu, baina, oro har, ez dira ondo eskalatzen bideoetara. Bideo-datuen magnitudea beste modalitate batzuetatik haratago doa, sare sozialetan eta Interneteko sareetan duen bolumen handiagatik. Gainera, LMMak bideoetara hedatzea erronka da, zehaztasunez ulertu beharreko denborazko testuinguru luzea duten dinamika konplexuagatik. Duela gutxi izan arren
Bideo-LMMen inguruko planteamenduek, hala nola, VideoChat [15], Video-LLaMA [45] eta Video-ChatGPT [22] bideoen ulermenean eta elkarrizketan gaitasunak erakutsi dituzte, ez dute oinarri bisualaren ezaugarri erabakigarria. Bideoetan oinarritu bisualak LMM erantzunak bideo sarrerako objektu zehatzekin lotzea du helburu. Hutsune horri aurre egiteko, PG-Video-LLaVA aurkezten dugu, LMM erantzunetan agertzen diren objektuak lokalizatzeko gai den lehen bideo-LMMa. Zeregin honek konponezintasuna hobetzen du eta bideo-edukien ulermen sakona erakusten du.
PG-Video-LLaVAn, bideo-datuek planteatzen dituzten erronka bereziei aurre egiten diegu. Eredua kameraren ikuspegi koherenteak mantentzen dituzten bideoklip laburretan objektuak jarraitzeko diseinatuta dago, eszena eta mugimenduetan zehar ikusmen-lurramendu zehatza ahalbidetuz. Jarraipen honek espazio-denborazko segmentuak elkarrizketa-elementuekin zuzenean lotzen ditu, ereduaren testuinguruaren ulermena hobetuz. PG-VideoLLaVA-ren ezaugarri nabarmen bat bere diseinu modularra da, lehendik dauden lurrerako moduluekin integratzeko erraztasuna eta etorkizuneko hobekuntzetara egokitzeko malgutasuna ahalbidetzen baitu lurreratze bisualen teknologian. Gainera, PG-Video-LLaVA-k bere gaitasunak aberasten ditu audio-testuingurua sartuz. Hori lortzen du bideo-audioa LLMrentzat ulergarria den moduan aprobetxatuz, eta hori bereziki erabilgarria da entzumen-informazioa elkarrizketarako ezinbestekoa den egoeretan. Sartze horrek ereduaren ulermena zabaltzen du, bideo-edukiak interpretatzeko polifazetikoago bihurtuz.
Gainera, lan honek bideoetan oinarritutako elkarrizketa-ereduen benchmarkak egiteko esparru hobetu bat aurkezten du, ebaluaziorako nagusiki GPT-3.5-Turbo eredu jabeduna erabiltzen zuten aurreko planteamenduetatik abiatuz [22]. GPT-3.5-Turbo-k edozein unetan aldaketak jasan ditzakeela kontuan hartuta eta gardentasunik ez duela kode itxiko izaeragatik, erronkak dakartza fidagarritasunari eta erreproduzigarritasunari dagokionez. Horri aurre egiteko, Vicuna erabiltzea proposatzen dugu, kode irekiko LLM bat benchmarking egiteko. Aldaketa honek erreproduzigarritasuna hobetzeaz gain, ebaluazio-prozesuaren gardentasuna hobetzen du. PG-Video-LLaVA ebaluatzen dugu gure erreferentzia hobetuak erabiliz eta hobekuntza nabarmenak erakusten ditugu lehendik dauden bideo-elkarrizketa-ereduetan, VideoChatGPT [22] eta Video-LLaMA [45] bezalako bideo-elkarrizketetan oinarritu gabeko elkarrizketetan, puntako (SoTA) errendimendua lortuz.
Lan honen ekarpen nagusiak hauek dira:
• PG-Video-LLaVA proposatzen dugu, pixel-mailako lurrerako gaitasunak dituen bideoan oinarritutako lehen LMMa, malgutasun handiagoa lortzeko diseinu modularra duena.
• Audio-testuingurua txertatuz, PG-Video-LLaVA-k nabarmen hobetzen du bideo-edukien ulermena, zabalagoa eta egokiago bihurtuz audio-seinalea bideoa ulertzeko funtsezkoa den eszenatokietarako (adibidez, elkarrizketak eta elkarrizketak, albisteen bideoak, etab.) .
• Erreferentzia kuantitatibo hobetuak sartzen ditugu bideoetan oinarritutako elkarrizketa ereduetarako. Gure erreferentziek kode irekiko Vicuna LLM erabiltzen dute erreproduzigarritasun eta gardentasun hobea bermatzeko. Bideoan oinarritutako elkarrizketa-ereduen oinarri-gaitasunak ebaluatzeko erreferenteak ere proposatzen ditugu.
Paper hau arxiv-en dago eskuragarri CC BY 4.0 DEED lizentziapean.