Mga may-akda:
(1) Shehan Munasinghe, Mohamed bin Zayed University of AI at Pantay na Kontribusyon;
(2) Rusiru Thushara, Mohamed bin Zayed University of AI at Pantay na Kontribusyon;
(3) Muhammad Maaz, Mohamed bin Zayed University of AI;
(4) Hanoona Abdul Rasheed, Mohamed bin Zayed University of AI;
(5) Salman Khan, Mohamed bin Zayed University of AI at Australian National University;
(6) Mubarak Shah, Unibersidad ng Central Florida;
(7) Fahad Khan, Mohamed bin Zayed University of AI at Linköping University.
Tala ng Editor: Ito ang Bahagi 1 ng 10 ng isang pag-aaral na nagdedetalye ng pagbuo ng isang mas matalinong modelo ng AI para sa mga video. Basahin ang natitira sa ibaba.
Karagdagang Materyal
Ang pagpapalawak ng Large Multimodal Models (LMM) na nakabatay sa imahe sa mga video ay mahirap dahil sa likas na kumplikado ng data ng video. Ang mga kamakailang diskarte sa pagpapalawak ng mga LMM na nakabatay sa imahe sa mga video ay maaaring kulang sa mga kakayahan sa saligan (hal., VideoChat, Video-ChatGPT, Video-LLaMA) o hindi ginagamit ang mga audio-signal para sa mas mahusay na pag-unawa sa video (hal., Video-ChatGPT). Sa pagtugon sa mga puwang na ito, iminumungkahi namin ang PG-Video-LLaVA, ang unang LMM na may kakayahan sa grounding sa antas ng pixel, na isinasama ang mga audio cue sa pamamagitan ng pag-transcribe sa mga ito sa text para pagbutihin ang pag-unawa sa konteksto ng video. Gumagamit ang aming framework ng isang off-the-shelf tracker at isang nobelang grounding module, na nagbibigay-daan dito na spatially na ma-localize ang mga bagay sa mga video na sumusunod sa mga tagubilin ng user. Sinusuri namin ang PG-Video-LLaVA gamit ang video-based generative at question-answering benchmark at nagpapakilala ng mga bagong benchmark na partikular na idinisenyo upang sukatin ang prompt-based na object grounding performance sa mga video. Dagdag pa, iminumungkahi namin ang paggamit ng Vicuna sa GPT-3.5, gaya ng ginamit sa VideoChatGPT, para sa pag-benchmark ng pag-uusap na nakabatay sa video, na tinitiyak ang muling paggawa ng mga resulta na may kinalaman sa pagmamay-ari ng GPT-3.5. Bumubuo ang aming framework sa modelong LLaVA na nakabatay sa imahe ng SoTA at pinalawak ang mga pakinabang nito sa domain ng video, na naghahatid ng mga magagandang tagumpay sa pag-uusap na nakabatay sa video at mga gawaing saligan.
Ang mga kamakailang pagsusumikap sa Large Multimodal Models (LMMs), na pinangunahan ng GPT-4V [25], ay nagbibigay-daan sa mga detalyadong pag-uusap tungkol sa mga larawan ngunit sa pangkalahatan ay hindi nababagay sa mga video. Ang laki ng data ng video ay lumampas sa iba pang mga modalidad dahil sa napakalaking volume nito sa social at internet media. Higit pa rito, ang pagpapalawak ng mga LMM sa mga video ay mahirap dahil sa kanilang kumplikadong dynamics na may mahabang temporal na konteksto na kailangang maunawaan nang tumpak. Bagama't kamakailan lamang
Ang mga diskarte patungo sa mga video-LMM tulad ng VideoChat [15], Video-LLaMA [45], at Video-ChatGPT [22] ay nagpakita ng mga kakayahan sa pag-unawa at pag-uusap ng video, kulang ang mga ito sa mahalagang tampok ng visual na saligan. Nilalayon ng visual na saligan sa mga video na iugnay ang mga tugon ng LMM sa mga partikular na bagay sa loob ng input ng video. Sa pagtugon sa puwang na ito, ipinakilala namin ang PG-Video-LLaVA, ang unang video-LMM na may kakayahang mag-localize ng mga bagay na lumalabas sa mga tugon ng LMM. Ang gawaing ito ay humahantong sa pinahusay na intractability at nagpapakita ng malalim na pag-unawa sa nilalamang video.
Sa PG-Video-LLaVA, tinutugunan namin ang mga natatanging hamon na dulot ng data ng video. Ang modelo ay idinisenyo upang subaybayan ang mga bagay sa loob ng mas maiikling mga video clip na nagpapanatili ng pare-parehong mga view ng camera, na nagbibigay-daan sa tumpak na visual na saligan sa mga eksena at galaw. Ang pagsubaybay na ito ay direktang nagli-link ng mga spatio-temporal na segment sa mga elemento ng pakikipag-usap, na nagpapahusay sa pang-unawa sa konteksto ng modelo. Ang isang kapansin-pansing tampok ng PG-VideoLLaVA ay ang modular na disenyo nito, na nagbibigay-daan para sa madaling pagsasama sa mga umiiral nang grounding module at ang flexibility na umangkop sa mga pagpapahusay sa hinaharap sa visual grounding technology. Bukod dito, pinayaman ng PG-Video-LLaVA ang mga kakayahan nito sa pamamagitan ng pagsasama ng konteksto ng audio. Nakakamit ito sa pamamagitan ng paggamit ng video audio sa isang form na naiintindihan ng LLM, na partikular na kapaki-pakinabang sa mga sitwasyon kung saan ang impormasyon sa pandinig ay mahalaga sa pag-uusap. Ang pagsasama na ito ay nagpapalawak ng pang-unawa ng modelo, na ginagawa itong mas maraming nalalaman sa pagbibigay-kahulugan sa nilalamang video.
Higit pa rito, ang gawaing ito ay nagpapakilala ng isang pinahusay na balangkas para sa pag-benchmark ng mga modelo ng pakikipag-usap na nakabatay sa video, na nag-pivot mula sa mga nakaraang diskarte [22] na higit na ginagamit ang pagmamay-ari na modelong GPT-3.5-Turbo para sa pagsusuri. Dahil ang GPT-3.5-Turbo ay napapailalim sa mga pagbabago anumang oras at walang transparency dahil sa pagiging closed-source nito, naghaharap ito ng mga hamon sa mga tuntunin ng pagiging maaasahan at reproducibility. Upang matugunan ito, iminumungkahi namin ang paggamit ng Vicuna, isang open-source na LLM para sa benchmarking. Ang paglilipat na ito ay hindi lamang nagpapahusay sa muling paggawa ngunit nagpapabuti din ng transparency sa proseso ng pagsusuri. Sinusuri namin ang PG-Video-LLaVA gamit ang aming mga pinahusay na benchmark at nagpapakita ng mga kapansin-pansing pagpapabuti sa mga kasalukuyang modelo ng pakikipag-usap sa video tulad ng VideoChatGPT [22] at Video-LLaMA [45] sa mga hindi pinagbabatayan na diyalogo, na nakakamit ng makabagong pagganap (SoTA).
Ang mga pangunahing kontribusyon ng gawaing ito ay:
• Iminumungkahi namin ang PG-Video-LLaVA, ang unang video-based na LMM na may mga kakayahan sa grounding sa antas ng pixel, na nagtatampok ng modular na disenyo para sa pinahusay na flexibility.
• Sa pamamagitan ng pagsasama ng konteksto ng audio, makabuluhang pinahusay ng PG-Video-LLaVA ang pag-unawa nito sa nilalamang video, ginagawa itong mas komprehensibo at angkop na angkop para sa mga sitwasyon kung saan ang signal ng audio ay mahalaga para sa pag-unawa sa video (hal., mga diyalogo at pag-uusap, mga video ng balita, atbp.) .
• Ipinakilala namin ang mga pinahusay na quantitative benchmark para sa mga modelo ng pakikipag-usap na nakabatay sa video. Ginagamit ng aming mga benchmark ang open-source na Vicuna LLM para matiyak ang mas mahusay na reproducibility at transparency. Nagmumungkahi din kami ng mga benchmark upang suriin ang mga kakayahan sa saligan ng mga modelo ng pakikipag-usap na nakabatay sa video.
Ang papel na ito ay makukuha sa arxiv sa ilalim ng CC BY 4.0 DEED na lisensya.