Qillqaqkuna:
(1) Shehan Munasinghe, Mohamed bin Zayed Universidad de AI hinaspa Igual Yanapakuy;
(2) Rusiru Thushara, Mohamed bin Zayed Universidad de AI y Igual Contribución;
(3) Muhammad Maaz, Mohamed bin Zayed AI Yachay Sunturnin;
(4) Hanoona Abdul Rasheed, Mohamed bin Zayed AI hatun yachay wasimanta;
(5) Salman Khan, Mohamed bin Zayed AI Hatun Yachay Suntur, Australia Mamallaqta Hatun Yachay Suntur;
(6) Mubarak Shah, Central Florida hatun yachay wasimanta;
(7) Fahad Khan, Mohamed bin Zayed AI Hatun Yachay Suntur, Linköping Hatun Yachay Suntur.
Editorpa willakuynin: Kayqa 1 kaq rakin 10 kaqmanta huk yachaymanta, videokunapaq aswan yachaysapa AI modelo ruwaymanta sut'inchaspa. Puchuqninta uraypi ñawinchay.
Material Suplementario nisqa
Imahinapi ruwasqa Hatun Multimodal Modelokuna (LMMs) videokunaman mastariyqa sasachakuymi video willakuypa inherente complejidadninrayku. Kay qhipa ruwaykuna siq'ipi ruwasqa LMMs videokunaman mast'ariyqa icha mana allpa ruway atiyniyuqchu (kayhina, VideoChat, Video-ChatGPT, Video-LLaMA) utaq mana uyarina-señalkunata aswan video hamut'anapaq llamk'achinkuchu (kayhina, Video-ChatGPT). Kay ch'usaq kaqkunata allichaspa, PG-Video-LLaVA kaqmanta yuyaychayku, ñawpaq LMM pixellevel allpachay atiyniyuq, uyarina señalkunata tinkispa qillqaman transcribispa video-contexto hamut'ayta qhapaqyachinapaq. Marcoyku huk qatiq mana estante kaqmanta chaymanta huk musuq allpachay módulo llamk'achin, chaymanta videokunapi objetokuna espacialmente localizayta atichin user kamachiykunata qatispa. PG-Video-LLaVA chaninchayku video-pi ruwasqa generativo chaymanta tapuy-kutichiy benchmarks kaqwan chaymanta musuq benchmarks riqsichiyku específicamente ruwasqa videokunapi prompt-based objeto allpa ruway ruwayta tupunapaq. Astawan, Vicuna llamk'achiyta GPT-3.5 kaqmanta yuyaychayku, VideoChatGPT kaqpi llamk'achisqa hina, video-nisqa rimanakuy benchmarking kaqpaq, ruwasqakuna mirachiy atiyta qhawaspa mayqinchus huk llakikuy GPT-3.5 kaqpa propiedad kaqninwan. Marcoyku SoTA siq'ipi ruwasqa LLaVA modelo kaqpi ruwan chaymanta ventajankunata video dominio kaqman mast'arikun, video kaqpi rimanakuypi chaymanta allpapi ruwanakunapi prometedor gananciakuna quypi.
Kay qhipa kallpachakuykuna Hatun Modelos Multimodales (LMMs) kaqpi, GPT-4V kaqwan umallisqa [25], siq’ikunamanta sut’i rimaykunata saqin ichaqa generalmente mana allintachu videokunaman escalanku. Video datokuna hatun kayninqa huk modalidadkunamanta aswan karuman escalan hatun volúmen kaqninrayku social chaymanta internet medios kaqpi. Chaymantapas, LMMkuna videokunaman mastariyqa sasachakuymi, sasachakuyniyuq dinámica nisqa kasqanrayku, unay contexto temporal nisqawan, chaymi allinta entiendena. Chayllaraq kaptinpas
enfoques video-LMMs kaqman kayhina VideoChat [15], Video-LLaMA [45], chaymanta Video-ChatGPT [22] rikuchirqanku atiykunata video hamut’aypi chaymanta rimanakuypi, paykuna mana kankuchu chay crucial ruwayta rikuy allpaman churaymanta. Videokunapi rikuy allpachayqa LMM kutichiykunata video yaykuy ukhupi específico objetokunaman tinkiyta munan. Kay ch'usaq kaqta allichaspa, PG-Video-LLaVA riqsichiyku, ñawpaq video-LMM atiq localizacionta objetokuna rikuriq LMM kutichiykunapi. Kay ruwayqa aswan allin mana allichay atiyman pusakun chaymanta video contenidomanta ukhu hamut'ayta rikuchin.
PG-Video-LLaVA kaqpi, video willakuypa sapalla sasachakuyninkunata allichayku. Modelo ruwasqa kachkan aswan pisi video clips ukhupi imakuna qatinanpaq chaymanta sapa kuti cámara qhawaykunata waqaychan, chiqan rikuy allpaman churayta atikun escenakuna chaymanta kuyuykunapi. Kay qatipayqa segmentos espacio-temporal nisqakunatam chiqapmanta rimanapaq elementokunawan tinkuchin, chaywanmi modelopa contextual entiendeyninta kallpanchan. PG-VideoLLaVA kaqmanta huk riqsisqa ruwayqa modular ruwayninmi, kunan kaq allpachay módulos kaqwan mana sasa tinkiyta atikun chaymanta flexibilidad hamuq allinchaykunaman rikuy allpachay tecnologia kaqpi tupachiypaq. Astawan, PG-Video-LLaVA atiyninkunata qhapaqyachin uyarina contextota churaspa. Kayta aypan video audiota aprovechaspa huk formapi LLM entiendenapaq, chaymi aswan allin situacionkunapi maypichus uyariy willakuy rimanakuypaq ancha chaniyuq. Kay churayqa modelop hamut'ayninta mast'arichin, aswan versatil video contenidota t'ikraypi.
Chaymanta, kay llamk’ayqa huk allinchasqa marcota riqsichin videopi ruwasqa rimanakuy modelokuna benchmarking kaqpaq, ñawpaq enfoques kaqmanta pivotaspa [22] mayqinkunachus aswanta chaninchaypaq propiedad GPT-3.5-Turbo modelota llamk’achirqanku. GPT-3.5-Turbo nisqa mayk’aqllapas tikrakuykuna atikusqanmanta, chaymanta mana sut’i kayniyuq kasqanrayku, wisq’asqa fuente kasqanrayku, sasachakuykunata rikuchin confiabilidad nisqamanta, mirachiy atiymanta ima. Kayta allichanapaq, Vicuna llamk'achiyta yuyaychayku, huk LLM kichasqa qullqiyuq benchmarking kaqpaq. Kay tikrayqa manam mirachiy atiyllatachu kallpanchan, aswanqa chaninchay ruwaypipas chuya kaynintam allinta ruwan. Chaninchayku PG-Video-LLaVA allinchasqa benchmarksniykuwan chaymanta rikuchiyku reparaypaq allinchakuykunata kunan kaq video rimanakuy modelokunamanta VideoChatGPT [22] chaymanta Video-LLaMA [45] hina mana allpayuq rimanakuykunapi, estado-de-arte (SoTA) ruwayta aypaspa.
Kay llamkaypa hatun yanapakuyninkunaqa kaykunam:
• PG-Video-LLaVA, ñawpaq video-based LMM pixel-nivel allpaman churay atiyniyuq, huk modular diseño kaqwan aswan allin flexibilidad kaqpaq yuyaychayku.
• Audio contexto nisqa churaspa, PG-Video-LLaVA anchata kallpachan video contenidomanta hamut’ayninta, aswan tukuypaq hinallataq allinta tupan escenariokunapaq maypichus uyarinapaq señal video hamut’anapaq ancha chaniyuq (kayhina, rimanakuykuna chaymanta rimanakuykuna, willakuy videokuna, hukkunapas) .
• Videopi rimanakuy modelokunapaq allinchasqa benchmarks cuantitativos nisqakunata riqsichiyku. Benchmarksniykuqa kichasqa qullqiyuq Vicuna LLM kaqwan llamk'anku, aswan allin mirachiy atiy chaymanta sut'i kananpaq. Hinallataq, videopi ruwasqa rimanakuy modelokuna allpaman churay atiyninkunata chaninchanapaq benchmarks nisqakunata yuyaychayku.
Kay qillqasqaqa arxiv nisqapim kachkan CC BY 4.0 DEED nisqa licenciawan.