Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Filmzusammenfassung Filme sind typische Beispiele für lange Videos mit klaren Erzählstrukturen. Gorinski et al. [7] erstellen die kürzere Version eines Drehbuchs als Aufgabe, eine optimale Graphenkette einer Filmszene zu finden. TRIPOD [23] ist ein Drehbuch-Datensatz, der Wendepunktanmerkungen enthält. In derselben Arbeit wird ein automatisches Modell zur Erkennung des Wendepunkts aus Filmerzählungen vorgeschlagen. Papalampidi et al. [24] verwenden später die Fernsehserie CSI, um die Nützlichkeit von Wendepunkten bei der automatischen Filmzusammenfassung zu demonstrieren. Lee et al. [15] verbessern die Wendepunkterkennung weiter mit Dialogfunktionen und Transformer-Architektur.
Lange Video-QA Die Aufgabe der Beantwortung von Videofragen wurde in der Literatur ausführlich in Form von offenen QA-Aufgaben [9] und Multiple-Choice-Problemen [28, 29] untersucht. Zur Lösung dieser Aufgabe wurden verschiedene Ansätze vorgeschlagen, angefangen von RNN-basierten Aufmerksamkeitsnetzwerken [9, 30, 36, 38] über Gedächtnisnetzwerke [12, 22, 27] bis hin zu Transformatoren [4, 6]. In jüngster Zeit zeigen multimodale Modelle, die anhand großer Videodatensätze vorab trainiert wurden (VideoQA [31], VIOLET [5] und MERLOT [33] und MERLOT-Reserve [34]), auch bei der Beantwortung von Videofragen vielversprechende Ergebnisse.
Trotz ihrer Bedeutung hat die Qualitätssicherung bei langen Videos relativ wenig Beachtung gefunden. MovieQA [27] formuliert Qualitätssicherungen für ganze Filme, die sich normalerweise über zwei lange Stunden erstrecken. DramaQA [3] verwendet eine einzelne Fernsehserie als visuellen Kontext und beauftragt einen Löser, Videoclips von einer bis zwanzig Minuten Länge zu verstehen.