Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).
GPT-3 gibi büyük dil modelleri, göreve özel eğitim verileri gerektirmeden yeni görevlere uyum sağlama konusunda etkileyici bir yetenek sergilemiştir. Bu yetenek, görev çeşitliliğinin çok fazla olduğu ancak mevcut denetim verilerinin küçük olduğu, anlatısal soru yanıtlama gibi ortamlarda özellikle etkili olmuştur. Bu çalışmada, bu tür dil modellerinin, sıfır atış akıl yürütme yeteneklerini, hikayenin önemli bir rol oynadığı drama, film ve animasyon gibi multimedya içeriklerindeki uzun, çok modlu anlatılara genişletip genişletemeyeceğini araştırıyoruz. Önce videonun anlatımını kısa bir olay örgüsüyle özetleyen ve ardından videonun soruyla ilgili bölümlerini araştıran, anlatımlı video QA'sı için bir çerçeve olan Uzun Hikâye Kısa'yı öneriyoruz. Ayrıca CLIPCheck ile görsel eşleşmeyi geliştirmeyi de öneriyoruz. Modelimiz, en son teknolojiye sahip denetimli modellerden büyük bir farkla daha iyi performans göstererek, uzun videolar için sıfır atışlı QA potansiyelini vurgulamaktadır.
Yeni video QA modelleri, veri ve ek açıklamalardaki sınırlama nedeniyle uzun video anlatımlı QA görevlerini [2, 13, 27] (yani filmler, dramalar ve YouTube web videoları) gerçekleştirmede zorluklarla karşı karşıyadır. Bu durum kısa video klipte ağırlıklı olarak görsel soruların yanıtlanmasının ötesinde uzun video anlatımlarının anlaşılamamasına neden olmaktadır [16, 17, 30]. Bu kadar uzun video QA'larının boyutları, modelleri bir video içindeki karmaşık anlatı yapılarını tam olarak kavrayacak şekilde eğitmek için yetersizdir ve bu da optimumun altında performanslara neden olur. [10], denetlenen modellerin anlatı bağlamından çok sorudaki dil önyargılarına dayandığını göstermektedir: herhangi bir video bağlamını görmeden bile benzer performans elde edebilirler. Bu, küçük göreve özel denetimin ötesinde çok modlu muhakeme yeteneğinin gerekliliğini vurgulamaktadır.
Düşük genellemenin neden olduğu zorluğun üstesinden gelmek için, önceden eğitilmiş Büyük Dil Modellerini (LLM'ler) kullanan sıfır atış yaklaşımı, karmaşık QA görevlerini [32] ve metin bağlamı özetlemeyi [8, 37] ele almak için etkili bir alternatif olabilir. Ancak bu tür yüksek lisansların anlatı kalite güvencesi yeteneği video alanına aktarılabilir mi?
Şekil 1'de gösterilen, video klipleri Sokratik Modelden esinlenerek metin senaryo formatına çeviren Uzun Hikâye Kısa'yı (LSS) öneriyoruz [35]. GPT-3'ü [1] kullanarak, önce uzun videoyu bir grafik listesi halinde özetliyoruz ve ardından verilen soruyu çözmek için hem oluşturulan özette hem de ham video bağlamında geziniyoruz. Sıfır atış yöntemimiz, MovieQA ve DramaQA veri setinde en son teknolojiye sahip denetimli yöntemlerden daha iyi sonuçlar verir. Ayrıca, GPT-3 tarafından sağlanan akıl yürütme sonuçlarının görsel hizalamasını geliştirmek için bir görsel metin eşleştirme yöntemi olan CLIPCheck'i öneriyoruz. Özetlemek gerekirse, ana katkılarımız üç yönlüdür:
Uzun bir video anlatımını bir olay örgüsü listesiyle özetleyen ve soruyla ilgili alt konuyu getiren bir çerçeve olan LSS'yi sunuyoruz.
Görsel yönlendirmede CLIP tabanlı eşleştirme yoluyla görsel hizalama gücünü dikkate almanın önemini gösteriyoruz.
Sıfır atış yaklaşımımız, MovieQA [27] ve DramaQA [2]'de denetlenen temel çizgilerden daha iyi performans gösteren son teknoloji ürünü performansa ulaşıyor.