Mualliflar:
(1) Shexan Munasinghe, Muhammad bin Zayed AI universiteti va teng hissa;
(2) Rusiru Tuxara, Muhammad bin Zayed AI universiteti va teng hissa;
(3) Muhammad Maaz, Muhammad bin Zayed AI universiteti;
(4) Hanoona Abdul Rashid, Muhammad bin Zayed AI universiteti;
(5) Salmon Xon, Muhammad bin Zayed AI universiteti va Avstraliya Milliy universiteti;
(6) Muborak Shoh, Markaziy Florida universiteti;
(7) Fahad Xon, Muhammad bin Zayed AI universiteti va Linkoping universiteti.
Tahrirlovchining eslatmasi: Bu videolar uchun aqlli AI modelini ishlab chiqish haqida batafsil tadqiqotning 10-qismi. Qolganini quyida o'qing.
Qo'shimcha material
Tasvirga asoslangan katta multimodal modellarni (LMM) videolarga kengaytirish video ma'lumotlarining o'ziga xos murakkabligi tufayli qiyin. Tasvirga asoslangan LMM-larni videolarga kengaytiradigan so'nggi yondashuvlar yerga ulash imkoniyatlariga ega emas (masalan, VideoChat, Video-ChatGPT, Video-LLaMA) yoki videoni yaxshiroq tushunish uchun audio signallardan foydalanmaydi (masalan, Video-ChatGPT). Ushbu bo'shliqlarni bartaraf etib, biz PG-Video-LLaVA ni taklif qilamiz, piksel darajasida topraklama qobiliyatiga ega bo'lgan birinchi LMM, video kontekstni tushunishni boyitish uchun ularni matnga transkripsiya qilish orqali audio signallarni birlashtiradi. Bizning ramkamiz tayyor treker va yangi yerga ulash modulidan foydalanadi, bu esa foydalanuvchi ko'rsatmalariga rioya qilgan holda videolardagi ob'ektlarni fazoviy lokalizatsiya qilish imkonini beradi. Biz PG-Video-LLaVA-ni videoga asoslangan generativ va savol-javob mezonlari yordamida baholaymiz va videolarda tezkor asoslangan ob'ektni yerga ulash samaradorligini o'lchash uchun maxsus ishlab chiqilgan yangi mezonlarni joriy qilamiz. Bundan tashqari, biz VideoChatGPT da qoʻllanilganidek, GPT-3.5 ning mulkiy tabiati bilan bogʻliq boʻlgan natijalarning takrorlanishini taʼminlovchi videoga asoslangan suhbatni taqqoslash uchun Vicuna’dan foydalanishni taklif qilamiz. Bizning tizimimiz SoTA tasvirga asoslangan LLaVA modeliga asoslanadi va o‘zining afzalliklarini video domeniga kengaytiradi, bu esa videoga asoslangan suhbat va asoslash vazifalarida istiqbolli yutuqlarni beradi.
GPT-4V [25] boshchiligidagi Katta Multimodal Modellar (LMMs) boʻyicha soʻnggi saʼy-harakatlar tasvirlar haqida batafsil suhbatlashish imkonini beradi, lekin odatda videolarni oʻz ichiga olmaydi. Ijtimoiy va internet tarmoqlaridagi katta hajmlari tufayli video ma'lumotlarning kattaligi boshqa usullardan ancha yuqori. Bundan tashqari, LMM-larni videolarga kengaytirish ularning aniq tushunilishi kerak bo'lgan uzoq vaqtinchalik kontekstli murakkab dinamikasi tufayli qiyin. Yaqinda bo'lsa-da
VideoChat [15], Video-LLaMA [45] va Video-ChatGPT [22] kabi video-LMMlarga yondashuvlar videoni tushunish va muloqot qilish imkoniyatlarini namoyish etdi, ular vizual asoslashning muhim xususiyatiga ega emas. Videolardagi vizual asoslash LMM javoblarini video kiritish ichidagi muayyan ob'ektlar bilan bog'lashga qaratilgan. Ushbu bo'shliqni bartaraf etib, biz LMM javoblarida paydo bo'ladigan ob'ektlarni mahalliylashtirishga qodir bo'lgan birinchi video-LMM bo'lgan PG-Video-LLaVA-ni taqdim etamiz. Bu vazifa murakkablikni oshirishga olib keladi va video mazmunini chuqur tushunishni namoyish etadi.
PG-Video-LLaVA-da biz video ma'lumotlardan kelib chiqadigan noyob muammolarni hal qilamiz. Model qisqaroq videokliplardagi ob'ektlarni kuzatish uchun mo'ljallangan bo'lib, ular izchil kamera ko'rinishini ta'minlaydi, bu esa sahnalar va harakatlar bo'ylab aniq vizual asoslashni ta'minlaydi. Ushbu kuzatuv fazoviy-vaqt segmentlarini to'g'ridan-to'g'ri suhbat elementlari bilan bog'laydi, bu esa modelning kontekstual tushunchasini kuchaytiradi. PG-VideoLLaVA-ning muhim xususiyati uning modulli dizayni bo'lib, mavjud topraklama modullari bilan oson integratsiyalashuv va vizual topraklama texnologiyasining kelajakdagi yaxshilanishlariga moslashish uchun moslashuvchanlikdir. Bundan tashqari, PG-Video-LLaVA audio kontekstni o'z ichiga olgan holda o'z imkoniyatlarini boyitadi. Bu LLM uchun tushunarli shaklda video audiodan foydalanish orqali erishadi, bu ayniqsa eshitish ma'lumotlari suhbat uchun muhim bo'lgan holatlarda foydalidir. Ushbu inklyuziya model haqidagi tushunchani kengaytiradi va uni video mazmunini talqin qilishda ko'p qirrali qiladi.
Bundan tashqari, ushbu ish baholash uchun asosan xususiy GPT-3.5-Turbo modelidan foydalangan oldingi yondashuvlardan [22] aylanib, videoga asoslangan suhbat modellarini taqqoslash uchun takomillashtirilgan asosni taqdim etadi. GPT-3.5-Turbo har qanday vaqtda o'zgarishlarga duchor bo'lishini va yopiq manba tabiati tufayli shaffoflikka ega emasligini hisobga olsak, u ishonchlilik va takror ishlab chiqarish nuqtai nazaridan qiyinchiliklarni keltirib chiqaradi. Buni hal qilish uchun biz taqqoslash uchun ochiq manbali LLM Vicuna dan foydalanishni taklif qilamiz. Ushbu siljish nafaqat takrorlanuvchanlikni oshiradi, balki baholash jarayonida shaffoflikni ham yaxshilaydi. Biz PG-Video-LLaVA-ni takomillashtirilgan mezonlarimizdan foydalanib baholaymiz va VideoChatGPT [22] va Video-LLaMA [45] kabi mavjud video suhbat modellariga nisbatan sezilarli yaxshilanishlarni koʻrsatamiz va soʻnggi (SoTA) unumdorligiga erishamiz.
Ushbu ishning asosiy hissasi:
• Biz PG-Video-LLaVA ni taklif qilamiz, bu piksel-darajali yerga ulash imkoniyatlariga ega birinchi videoga asoslangan LMM, kengaytirilgan moslashuvchanlik uchun modulli dizaynga ega.
• Audio kontekstni o‘z ichiga olgan PG-Video-LLaVA o‘zining video mazmunini tushunishini sezilarli darajada yaxshilaydi va uni yanada kengroq qiladi va audio signali videoni tushunish uchun muhim bo‘lgan stsenariylarga mos keladi (masalan, dialoglar va suhbatlar, yangiliklar videolari va boshqalar). .
• Biz videoga asoslangan suhbat modellari uchun yaxshilangan miqdoriy mezonlarni joriy qilamiz. Bizning ko'rsatkichlarimiz yaxshi takrorlanuvchanlik va shaffoflikni ta'minlash uchun ochiq manbali Vicuna LLM dan foydalanadi. Shuningdek, biz videoga asoslangan suhbat modellarining yerga ulash imkoniyatlarini baholash uchun benchmarklarni taklif qilamiz.
Ushbu hujjat arxivda CC BY 4.0 DEED litsenziyasi ostida mavjud .