Müəlliflər:  (1) Shehan Munasinghe, Mohamed bin Zayed AI və Bərabər Töhfə Universiteti;  (2) Rusiru Tushhara, Mohamed bin Zayed AI və Bərabər Töhfə Universiteti;  (3) Muhammad Maaz, Mohamed bin Zayed University of AI;  (4) Hanoona Abdul Rasheed, Mohamed bin Zayed University of AI;  (5) Salman Xan, Mohamed bin Zayed AI Universiteti və Avstraliya Milli Universiteti;  (6) Mübarək Şah, Mərkəzi Florida Universiteti;  (7) Fahad Khan, Mohamed bin Zayed University of AI və Linköping University.   Redaktorun qeydi: Bu, videolar üçün daha ağıllı süni intellekt modelinin işlənməsini təfərrüatlandıran araşdırmanın 10-cu hissəsinin 1-ci hissəsidir. Qalanını aşağıda oxuyun.  Bağlantılar Cədvəli   Abstrakt və 1 Giriş   2. Əlaqədar Əsərlər  PG-Video-LLaVA   3.1. Ümumi baxış   3.2. Memarlıq  Təcrübələr   4.1. İcra təfərrüatları   4.2. Daha güclü baza   4.3. Videolarda Məkan Topraklama   4.4. Sıfır Atış Vizual Sualın Cavablandırılması   5. Nəticə və İstinadlar   Əlavə material   A. Audio Modal İnteqrasiyası   B. Vizual əsaslandırma: Kəmiyyət Qiymətləndirmə   C. Vizual Torpaqlama üçün Keyfiyyətli Nəticələr   D. Video əsaslı Söhbət Performansının Kəmiyyət Qiymətləndirilməsi  mücərrəd   Şəkil əsaslı Böyük Multimodal Modelləri (LMM) videolara genişləndirmək video məlumatlarının xas mürəkkəbliyinə görə çətin olur. Şəkil əsaslı LMM-ləri videolara genişləndirən son yanaşmalar ya əsaslandırma imkanlarından məhrumdur (məsələn, VideoChat, Video-ChatGPT, Video-LLaMA) və ya videonun daha yaxşı başa düşülməsi üçün audio siqnallardan istifadə etmir (məsələn, Video-ChatGPT). Bu boşluqları aradan qaldıraraq, video kontekst anlayışını zənginləşdirmək üçün səs siqnallarını mətnə köçürməklə inteqrasiya edən piksel səviyyəli əsaslandırma qabiliyyətinə malik ilk LMM olan PG-Video-LLaVA-nı təklif edirik. Çərçivəmiz hazır izləyicidən və yeni torpaqlama modulundan istifadə edir ki, bu da ona istifadəçi təlimatlarına uyğun olaraq videolardakı obyektləri məkan olaraq lokallaşdırmağa imkan verir. Biz video əsaslı generativ və sual-cavab meyarlarından istifadə edərək PG-Video-LLaVA-nı qiymətləndiririk və videolarda operativ əsaslı obyekt əsaslandırma performansını ölçmək üçün xüsusi olaraq hazırlanmış yeni etalonları təqdim edirik. Bundan əlavə, biz VideoChatGPT-də istifadə edildiyi kimi GPT-3.5 üzərində Vicuna-nın istifadəsini, GPT-3.5-in mülkiyyət xarakteri ilə əlaqədar olan nəticələrin təkrar istehsalını təmin edən video-əsaslı söhbət müqayisəsi üçün istifadə etməyi təklif edirik. Çərçivəmiz SoTA təsvirə əsaslanan LLaVA modelinə əsaslanır və onun üstünlüklərini video domeninə genişləndirərək, video əsaslı söhbət və əsaslandırma tapşırıqlarında perspektivli gəlirlər təqdim edir.  1. Giriş  GPT-4V [25] tərəfindən idarə olunan Böyük Multimodal Modellər (LMM) üzrə son səylər şəkillər haqqında ətraflı söhbətlərə imkan verir, lakin ümumiyyətlə videolar üçün yaxşı ölçüdə deyil. Video məlumatların miqyası sosial və internet mediada böyük həcminə görə digər üsullardan çox-çox kənara çıxır. Bundan əlavə, LMM-lərin videolara genişlənməsi onların dəqiq başa düşülməsi lazım olan uzun zaman konteksti ilə mürəkkəb dinamikalarına görə çətin olur. Bu yaxınlarda olsa da   VideoChat [15], Video-LLaMA [45] və Video-ChatGPT [22] kimi video-LMM-lərə yanaşmalar videonu anlama və dialoqda imkanlar nümayiş etdirdi, onlar vizual əsaslandırmanın mühüm xüsusiyyətinə malik deyillər. Videolarda vizual əsaslandırma LMM cavablarını video girişindəki xüsusi obyektlərlə əlaqələndirmək məqsədi daşıyır. Bu boşluğu aradan qaldıraraq, LMM cavablarında görünən obyektləri lokallaşdıra bilən ilk video-LMM olan PG-Video-LLaVA təqdim edirik. Bu tapşırığın həlli çətinliyə səbəb olur və video məzmunun dərindən başa düşülməsini nümayiş etdirir.  PG-Video-LLaVA-da biz video datanın yaratdığı unikal problemləri həll edirik. Model, ardıcıl kamera görünüşlərini saxlayan, səhnələr və hərəkətlər arasında dəqiq vizual əsaslanmağa imkan verən daha qısa video kliplər daxilində obyektləri izləmək üçün nəzərdə tutulmuşdur. Bu izləmə məkan-zaman seqmentlərini birbaşa danışıq elementləri ilə əlaqələndirir, modelin kontekstual anlayışını artırır. PG-VideoLLaVA-nın əsas xüsusiyyəti onun modul dizaynıdır, mövcud torpaqlama modulları ilə asan inteqrasiyaya və vizual torpaqlama texnologiyasında gələcək təkmilləşdirmələrə uyğunlaşmaq üçün çevikliyə imkan verir. Bundan əlavə, PG-Video-LLaVA audio kontekstini daxil etməklə öz imkanlarını zənginləşdirir. O, buna LLM üçün başa düşülən formada video audiodan istifadə etməklə nail olur ki, bu da eşitmə məlumatının söhbət üçün vacib olduğu vəziyyətlərdə xüsusilə faydalıdır. Bu daxiletmə modelin anlayışını genişləndirir, onu video məzmunu şərh etməkdə daha çox yönlü edir.  Bundan əlavə, bu iş, qiymətləndirmə üçün əsasən xüsusi GPT-3.5-Turbo modelindən istifadə edən əvvəlki yanaşmalardan [22] döndərərək video əsaslı danışıq modellərinin müqayisəsi üçün təkmilləşdirilmiş çərçivə təqdim edir. Nəzərə alsaq ki, GPT-3.5-Turbo istənilən vaxt dəyişikliyə məruz qalır və qapalı mənbə xarakterinə görə şəffaflıqdan məhrumdur, o, etibarlılıq və təkrar istehsal baxımından çətinliklər yaradır. Bunu həll etmək üçün biz müqayisə üçün açıq mənbəli LLM olan Vicuna-dan istifadə etməyi təklif edirik. Bu dəyişiklik təkcə təkrarlanma qabiliyyətini gücləndirmir, həm də qiymətləndirmə prosesində şəffaflığı artırır. Biz təkmilləşdirilmiş meyarlarımızdan istifadə edərək PG-Video-LLaVA-nı qiymətləndiririk və əsassız dialoqlarda VideoChatGPT [22] və Video-LLaMA [45] kimi mövcud video danışıq modelləri üzərində nəzərəçarpacaq təkmilləşdirmələr göstəririk və ən müasir (SoTA) performansa nail oluruq.  Bu işin əsas töhfələri bunlardır:  • Biz PG-Video-LLaVA, təkmilləşdirilmiş çeviklik üçün modul dizaynı özündə əks etdirən, piksel səviyyəli torpaqlama imkanlarına malik ilk video əsaslı LMM təklif edirik.  • Audio kontekstini daxil etməklə, PG-Video-LLaVA video məzmunu başa düşməsini əhəmiyyətli dərəcədə artırır, onu daha əhatəli edir və audio siqnalın videonun başa düşülməsi üçün vacib olduğu ssenarilər üçün (məsələn, dialoqlar və söhbətlər, xəbər videoları və s.) .  • Biz video əsaslı danışıq modelləri üçün təkmilləşdirilmiş kəmiyyət göstəricilərini təqdim edirik. Testlərimiz daha yaxşı təkrarlanma və şəffaflığı təmin etmək üçün açıq mənbəli Vicuna LLM-dən istifadə edir. Biz həmçinin video əsaslı danışıq modellərinin əsaslandırma imkanlarını qiymətləndirmək üçün meyarlar təklif edirik.  Bu sənəd   . arxivdə CC BY 4.0 DEED lisenziyası altında mövcuddur

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AutoEncoder.tech

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Auto Encoder's blog

Bu audio hekayənin orijinal dilində hazırlanmışdır!

BƏƏ tədqiqatçıları deyirlər ki, yeni süni intellekt modeli videolara baxa, səsi anlaya bilər

About Author

ŞƏRHLƏR

ETİKET ASIN

BU MƏQALƏ TƏQDİM EDİLMİŞDİR

Related Stories

Optimizing Operations for Real Estate Investors - Interview with Startups of the Year Nominee, Azibo

Women in Tech: Azize Sultan Shares Her Inspiring Journey from Architecture to Tech Leadership

How Azarus's Technology is Transforming Viewer Engagement on Stream

Optimizing Operations for Real Estate Investors - Interview with Startups of the Year Nominee, Azibo

Women in Tech: Azize Sultan Shares Her Inspiring Journey from Architecture to Tech Leadership

How Azarus's Technology is Transforming Viewer Engagement on Stream

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps