Müəlliflər:
(1) Shehan Munasinghe, Mohamed bin Zayed AI və Bərabər Töhfə Universiteti;
(2) Rusiru Tushhara, Mohamed bin Zayed AI və Bərabər Töhfə Universiteti;
(3) Muhammad Maaz, Mohamed bin Zayed University of AI;
(4) Hanoona Abdul Rasheed, Mohamed bin Zayed University of AI;
(5) Salman Xan, Mohamed bin Zayed AI Universiteti və Avstraliya Milli Universiteti;
(6) Mübarək Şah, Mərkəzi Florida Universiteti;
(7) Fahad Khan, Mohamed bin Zayed University of AI və Linköping University.
Redaktorun qeydi: Bu, videolar üçün daha ağıllı süni intellekt modelinin işlənməsini təfərrüatlandıran araşdırmanın 10-cu hissəsinin 1-ci hissəsidir. Qalanını aşağıda oxuyun.
Əlavə material
Şəkil əsaslı Böyük Multimodal Modelləri (LMM) videolara genişləndirmək video məlumatlarının xas mürəkkəbliyinə görə çətin olur. Şəkil əsaslı LMM-ləri videolara genişləndirən son yanaşmalar ya əsaslandırma imkanlarından məhrumdur (məsələn, VideoChat, Video-ChatGPT, Video-LLaMA) və ya videonun daha yaxşı başa düşülməsi üçün audio siqnallardan istifadə etmir (məsələn, Video-ChatGPT). Bu boşluqları aradan qaldıraraq, video kontekst anlayışını zənginləşdirmək üçün səs siqnallarını mətnə köçürməklə inteqrasiya edən piksel səviyyəli əsaslandırma qabiliyyətinə malik ilk LMM olan PG-Video-LLaVA-nı təklif edirik. Çərçivəmiz hazır izləyicidən və yeni torpaqlama modulundan istifadə edir ki, bu da ona istifadəçi təlimatlarına uyğun olaraq videolardakı obyektləri məkan olaraq lokallaşdırmağa imkan verir. Biz video əsaslı generativ və sual-cavab meyarlarından istifadə edərək PG-Video-LLaVA-nı qiymətləndiririk və videolarda operativ əsaslı obyekt əsaslandırma performansını ölçmək üçün xüsusi olaraq hazırlanmış yeni etalonları təqdim edirik. Bundan əlavə, biz VideoChatGPT-də istifadə edildiyi kimi GPT-3.5 üzərində Vicuna-nın istifadəsini, GPT-3.5-in mülkiyyət xarakteri ilə əlaqədar olan nəticələrin təkrar istehsalını təmin edən video-əsaslı söhbət müqayisəsi üçün istifadə etməyi təklif edirik. Çərçivəmiz SoTA təsvirə əsaslanan LLaVA modelinə əsaslanır və onun üstünlüklərini video domeninə genişləndirərək, video əsaslı söhbət və əsaslandırma tapşırıqlarında perspektivli gəlirlər təqdim edir.
GPT-4V [25] tərəfindən idarə olunan Böyük Multimodal Modellər (LMM) üzrə son səylər şəkillər haqqında ətraflı söhbətlərə imkan verir, lakin ümumiyyətlə videolar üçün yaxşı ölçüdə deyil. Video məlumatların miqyası sosial və internet mediada böyük həcminə görə digər üsullardan çox-çox kənara çıxır. Bundan əlavə, LMM-lərin videolara genişlənməsi onların dəqiq başa düşülməsi lazım olan uzun zaman konteksti ilə mürəkkəb dinamikalarına görə çətin olur. Bu yaxınlarda olsa da
VideoChat [15], Video-LLaMA [45] və Video-ChatGPT [22] kimi video-LMM-lərə yanaşmalar videonu anlama və dialoqda imkanlar nümayiş etdirdi, onlar vizual əsaslandırmanın mühüm xüsusiyyətinə malik deyillər. Videolarda vizual əsaslandırma LMM cavablarını video girişindəki xüsusi obyektlərlə əlaqələndirmək məqsədi daşıyır. Bu boşluğu aradan qaldıraraq, LMM cavablarında görünən obyektləri lokallaşdıra bilən ilk video-LMM olan PG-Video-LLaVA təqdim edirik. Bu tapşırığın həlli çətinliyə səbəb olur və video məzmunun dərindən başa düşülməsini nümayiş etdirir.
PG-Video-LLaVA-da biz video datanın yaratdığı unikal problemləri həll edirik. Model, ardıcıl kamera görünüşlərini saxlayan, səhnələr və hərəkətlər arasında dəqiq vizual əsaslanmağa imkan verən daha qısa video kliplər daxilində obyektləri izləmək üçün nəzərdə tutulmuşdur. Bu izləmə məkan-zaman seqmentlərini birbaşa danışıq elementləri ilə əlaqələndirir, modelin kontekstual anlayışını artırır. PG-VideoLLaVA-nın əsas xüsusiyyəti onun modul dizaynıdır, mövcud torpaqlama modulları ilə asan inteqrasiyaya və vizual torpaqlama texnologiyasında gələcək təkmilləşdirmələrə uyğunlaşmaq üçün çevikliyə imkan verir. Bundan əlavə, PG-Video-LLaVA audio kontekstini daxil etməklə öz imkanlarını zənginləşdirir. O, buna LLM üçün başa düşülən formada video audiodan istifadə etməklə nail olur ki, bu da eşitmə məlumatının söhbət üçün vacib olduğu vəziyyətlərdə xüsusilə faydalıdır. Bu daxiletmə modelin anlayışını genişləndirir, onu video məzmunu şərh etməkdə daha çox yönlü edir.
Bundan əlavə, bu iş, qiymətləndirmə üçün əsasən xüsusi GPT-3.5-Turbo modelindən istifadə edən əvvəlki yanaşmalardan [22] döndərərək video əsaslı danışıq modellərinin müqayisəsi üçün təkmilləşdirilmiş çərçivə təqdim edir. Nəzərə alsaq ki, GPT-3.5-Turbo istənilən vaxt dəyişikliyə məruz qalır və qapalı mənbə xarakterinə görə şəffaflıqdan məhrumdur, o, etibarlılıq və təkrar istehsal baxımından çətinliklər yaradır. Bunu həll etmək üçün biz müqayisə üçün açıq mənbəli LLM olan Vicuna-dan istifadə etməyi təklif edirik. Bu dəyişiklik təkcə təkrarlanma qabiliyyətini gücləndirmir, həm də qiymətləndirmə prosesində şəffaflığı artırır. Biz təkmilləşdirilmiş meyarlarımızdan istifadə edərək PG-Video-LLaVA-nı qiymətləndiririk və əsassız dialoqlarda VideoChatGPT [22] və Video-LLaMA [45] kimi mövcud video danışıq modelləri üzərində nəzərəçarpacaq təkmilləşdirmələr göstəririk və ən müasir (SoTA) performansa nail oluruq.
Bu işin əsas töhfələri bunlardır:
• Biz PG-Video-LLaVA, təkmilləşdirilmiş çeviklik üçün modul dizaynı özündə əks etdirən, piksel səviyyəli torpaqlama imkanlarına malik ilk video əsaslı LMM təklif edirik.
• Audio kontekstini daxil etməklə, PG-Video-LLaVA video məzmunu başa düşməsini əhəmiyyətli dərəcədə artırır, onu daha əhatəli edir və audio siqnalın videonun başa düşülməsi üçün vacib olduğu ssenarilər üçün (məsələn, dialoqlar və söhbətlər, xəbər videoları və s.) .
• Biz video əsaslı danışıq modelləri üçün təkmilləşdirilmiş kəmiyyət göstəricilərini təqdim edirik. Testlərimiz daha yaxşı təkrarlanma və şəffaflığı təmin etmək üçün açıq mənbəli Vicuna LLM-dən istifadə edir. Biz həmçinin video əsaslı danışıq modellərinin əsaslandırma imkanlarını qiymətləndirmək üçün meyarlar təklif edirik.