Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).
Tüm deneyler için omurga dil modeli olarak GPT-3 [1] (text-davinci-003) kullanıyoruz. Aksi belirtilmediği sürece videoları bölümlere ayırmak için temel gerçeklik klip sınırını kullanırız. Tüm LSS varyantları herhangi bir eğitim verisi kullanmaz ve dolayısıyla sıfır atış yöntemleridir.
MovieQA [27], 408 filmden elde edilen büyük ölçekli bir QA veri kümesidir. Veri kümesinde birden fazla bilgi kaynağı vardır; altyazılar, komut dosyaları, DVS, video klipler ve grafikler. Son teknoloji ürünü, denetimli dört temel çizgiyi rapor ediyoruz; A2A [20], PAMN [11], UniversalQA [10] ve DHTCN [21].
Tablo 1, sıfır atışlı LSS'nin önceki denetimli yaklaşımlara göre iyileşmesini göstermektedir. Ayrıca Ours-search, temel gerçek segment indeks etiketi olmadan bile güçlü bir performans gösteriyor. CLIPCheck, video bölmesindeki doğruluğu biraz artırır. Ancak MovieQA genellikle genel görsel eşleştirme yerine karakter bazlı temellendirme gerektirdiğinden fark çok azdır. Son olarak boş hipotezi deneyiyoruz: Bağlam Yok, GPT-3'ün MovieQA'yı her gerçeği basitçe ezberleyerek çözüp çözmediğini test ediyor. Hiçbir Bağlam LSS'den daha kötü performans göstermez ve boş hipotezi reddeder.
PororoQA [13] bir çizgi film serisinden oluşturulmuş bir video hikayesi QA veri kümesidir. Denetlenen taban çizgisi, insan tarafından oluşturulan olay örgüsünü ve gerçek video segmenti indeksini alırken, LSS +Plot+Search ikisini de almaz.
Tablo 2, PororoQA veri kümesindeki sonucumuzu özetlemektedir. Hem temel gerçeklik bölümünü hem de grafikleri kullanırken GPT-3, denetlenen taban çizgisiyle neredeyse aynı performansı gösterir. İnsanlar tarafından oluşturulan bir özeti model tarafından oluşturulan bir özetle değiştirmek, yalnızca marjinal bir performans düşüşüne neden olur. Belki ilgi çekici bir şekilde, model tarafından oluşturulan grafikleri kullanırken arama süreci daha iyi çalışır. Bu sonucu, insan ek açıklamalarının bölüm ayırt edilebilirliği için tasarlanmadığı gerçeğine bağlıyoruz.
DramaQA [3] hikayeyi anlamaya odaklanan video QA veri kümesidir. Veri seti, insanın bilişsel gelişim aşamalarını takip eden dört hiyerarşik zorluk düzeyiyle düzenlenmiştir. Olay örgüsünün anlaşılmasını test etmek için LSS'yi iki yüksek DramaQA düzeyinde değerlendiriyoruz. Düzey bazında DramaQA'da en son iki temel çizgiyi rapor ediyoruz; CharacterAttention ve Kim ve ark. [14].
BLIP'ten [18] çıkarılan görüntü çerçevesi açıklamalarını GPT-3'e girdi olarak dahil eden istem tabanlı bir yöntem olan CLIPCheck ve Caption'ın etkisini karşılaştırıyoruz. Tablo 3, CLIPCheck'in resim açıklamalarından daha fazla gelişme sunduğunu göstermektedir. Ayrıca resim yazıları eklemek LSS'yi iyileştirirken, CLIPCheck ile birlikte kullanıldığında kazanç ortadan kalkar. Bunun, çerçeve başlıklarının çok daha gürültülü olmasına rağmen CLIPCheck'e benzer bilgiler sağlamasından kaynaklandığını düşünüyoruz. Buradaki otomatik Altyazıların LSS'nin ayrılmaz bir bileşeni olmadığını unutmayın. DramaQA zaten görsel olarak temellendirilmiş ek açıklamalara sahip olduğundan, bunun üzerine otomatik görüntü Altyazıları eklemek, model performansını mutlaka iyileştirmeyecektir. Bunun yerine, erken ve geç görsel hizalama yöntemlerini açıkça karşılaştırmak için Başlıkları kullanırız.
Son olarak CLIPCheck'in görsel bağlamı anlamak yerine veri kümesi önyargısından yararlanıp yararlanmadığını kontrol ediyoruz. Bu amaçla CLIPCheck'in rastgele görsel bağlamlı bir çeşidini (CLIPCheck-Shuffle) tasarladık. CLIPCheck-Shuffle, CLIPCheck olmadan LSS'ye göre gelişme göstermez, bu da önyargı hipotezini reddeder.
Anlatıyı anlamak için hem özetleme hem de araştırma önemli midir? Burada, LSS varyantlarını anlatı araması olmadan (LSS-Tam) tam bağlamla veya girdi olarak olay örgüsü özeti ve rastgele bölümle (LSS-Rastgele) değerlendiriyoruz. Tablo 4, hem LSS-Tam hem de LSS-Rastgele'nin, LSS-Arama'nın gerisinde kaldığını göstererek, geri almanın önemini göstermektedir. Belirteç uzunluğu sınırlaması nedeniyle LSS-Full'da tam bağlamı kullanamadığımızı unutmayın. Bunun yerine, GPT3'ün kabul ettiği tam bağlamın en uzun önekini kullanırız (4000 belirteç eksi talimatın uzunluğu).
Şekil 3, LSS çerçevesindeki dil modeli kullanılarak uzun video QA'nın bir ara bağlamı olarak oluşturulan otomatik çizim özetini göstermektedir. Niteliksel örnekte gösterildiği gibi, oluşturulan grafikler Wikipedia'daki insanlar tarafından yazılan grafiklerle iyi uyum sağlıyor. Örneğin, "Harry Potter ve Ölüm Yadigarları" filminin ilk sahnesinde LSS özeti, Harry Potter'ın şu anda 17 yaşında olduğunu ve ölüm yiyenlerin kahramana saldırdığı ana olayı doğru bir şekilde yazıyor.
Şekil 4, aranan arsa parçası ile cevap olasılığı arasındaki bağlantıyı göstermektedir. Soldaki örnekte, alınan özet, Trench'in bir suç işlediğini ve dolayısıyla kaçmakta olduğunu anlatıyor ve onunla ilgilenen başka bir karakterin onu kovalayacağını öne sürüyor. Dil modeli, cevap olasılığını doğru şekilde değiştirmek için bu bağlamı anlar. Doğru örnekte, LSS olay örgüsü parçası Edward'ın kararına güvendiğini gösteriyor. Bu bağlam soruya doğrudan bir ipucu sunmasa da dil modeli bunu yanıtı değiştirecek kadar güçlü bir bilgi olarak görüyor.