paint-brush
Uzun Video Soru Cevaplama İçin Özetle-Sonra-Arama Yöntemi: İlgili Çalışmaile@kinetograph

Uzun Video Soru Cevaplama İçin Özetle-Sonra-Arama Yöntemi: İlgili Çalışma

Çok uzun; Okumak

Bu makalede araştırmacılar, GPT-3'ü kullanarak sıfır çekimli video QA'yı, denetlenen modellerden daha iyi performans göstermeyi, anlatı özetlerinden ve görsel eşleştirmeden yararlanmayı araştırıyor.
featured image - Uzun Video Soru Cevaplama İçin Özetle-Sonra-Arama Yöntemi: İlgili Çalışma
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).

Bağlantı Tablosu

4. İlgili Çalışma

Film Özetleme Filmler, net anlatım yapılarına sahip uzun videoların tipik örnekleridir. Gorinski ve ark. [7]bir film sahnesinin optimal grafik zincirini bulma görevi olarak senaryonun daha kısa versiyonunu oluşturmak. TRIPOD [23] dönüm noktası açıklamalarını içeren bir senaryo veri kümesidir. Aynı çalışmada film anlatılarından dönüm noktalarının belirlenmesine yönelik otomatik bir model önerilmektedir. Papalampidi ve ark. [24] daha sonra otomatik film özetlemede dönüm noktalarının kullanışlılığını göstermek için CSI TV dizisini kullanır. Lee ve ark. [15] diyalog özellikleri ve transformatör mimarisiyle dönüm noktası tanımlamasını daha da geliştirir.


Uzun Videolu QA Videolu soru yanıtlama görevi, literatürde hem Açık Uçlu QA [9] hem de Çoktan Seçmeli Problemler [28, 29] şeklinde kapsamlı bir şekilde incelenmiştir. Bu görevi ele almak için RNN tabanlı dikkat ağlarından [9, 30, 36, 38] başlayarak bellek ağlarına [12, 22, 27] ve transformatörlere [4, 6] kadar çeşitli yaklaşımlar önerilmiştir. Son zamanlarda, büyük ölçekli video veri kümeleri (VideoQA [31], VIOLET [5] ve MERLOT [33] ve MERLOT-Reserve [34]) üzerinde önceden eğitilmiş çok modlu modeller, video soru yanıtlamada da umut verici bir performans göstermektedir.


Ancak uzun video QA, önemine rağmen nispeten daha az ilgi gördü. MovieQA [27], genellikle iki uzun saate yayılan filmlerin tamamına ilişkin QA'ları formüle eder. DramaQA [3] görsel bağlam olarak tek bir TV dizisini kullanıyor ve bir çözücüye bir ila yirmi dakika uzunluğundaki video klipleri anlaması için görev veriyor.