Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).
Film Özetleme Filmler, net anlatım yapılarına sahip uzun videoların tipik örnekleridir. Gorinski ve ark. [7]bir film sahnesinin optimal grafik zincirini bulma görevi olarak senaryonun daha kısa versiyonunu oluşturmak. TRIPOD [23] dönüm noktası açıklamalarını içeren bir senaryo veri kümesidir. Aynı çalışmada film anlatılarından dönüm noktalarının belirlenmesine yönelik otomatik bir model önerilmektedir. Papalampidi ve ark. [24] daha sonra otomatik film özetlemede dönüm noktalarının kullanışlılığını göstermek için CSI TV dizisini kullanır. Lee ve ark. [15] diyalog özellikleri ve transformatör mimarisiyle dönüm noktası tanımlamasını daha da geliştirir.
Uzun Videolu QA Videolu soru yanıtlama görevi, literatürde hem Açık Uçlu QA [9] hem de Çoktan Seçmeli Problemler [28, 29] şeklinde kapsamlı bir şekilde incelenmiştir. Bu görevi ele almak için RNN tabanlı dikkat ağlarından [9, 30, 36, 38] başlayarak bellek ağlarına [12, 22, 27] ve transformatörlere [4, 6] kadar çeşitli yaklaşımlar önerilmiştir. Son zamanlarda, büyük ölçekli video veri kümeleri (VideoQA [31], VIOLET [5] ve MERLOT [33] ve MERLOT-Reserve [34]) üzerinde önceden eğitilmiş çok modlu modeller, video soru yanıtlamada da umut verici bir performans göstermektedir.
Ancak uzun video QA, önemine rağmen nispeten daha az ilgi gördü. MovieQA [27], genellikle iki uzun saate yayılan filmlerin tamamına ilişkin QA'ları formüle eder. DramaQA [3] görsel bağlam olarak tek bir TV dizisini kullanıyor ve bir çözücüye bir ila yirmi dakika uzunluğundaki video klipleri anlaması için görev veriyor.