paint-brush
Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchenvon@kinetograph

Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchen

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.
featured image - Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchen
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Linktabelle

4. Verwandte Arbeiten

Filmzusammenfassung Filme sind typische Beispiele für lange Videos mit klaren Erzählstrukturen. Gorinski et al. [7] erstellen die kürzere Version eines Drehbuchs als Aufgabe, eine optimale Graphenkette einer Filmszene zu finden. TRIPOD [23] ist ein Drehbuch-Datensatz, der Wendepunktanmerkungen enthält. In derselben Arbeit wird ein automatisches Modell zur Erkennung des Wendepunkts aus Filmerzählungen vorgeschlagen. Papalampidi et al. [24] verwenden später die Fernsehserie CSI, um die Nützlichkeit von Wendepunkten bei der automatischen Filmzusammenfassung zu demonstrieren. Lee et al. [15] verbessern die Wendepunkterkennung weiter mit Dialogfunktionen und Transformer-Architektur.


Lange Video-QA Die Aufgabe der Beantwortung von Videofragen wurde in der Literatur ausführlich in Form von offenen QA-Aufgaben [9] und Multiple-Choice-Problemen [28, 29] untersucht. Zur Lösung dieser Aufgabe wurden verschiedene Ansätze vorgeschlagen, angefangen von RNN-basierten Aufmerksamkeitsnetzwerken [9, 30, 36, 38] über Gedächtnisnetzwerke [12, 22, 27] bis hin zu Transformatoren [4, 6]. In jüngster Zeit zeigen multimodale Modelle, die anhand großer Videodatensätze vorab trainiert wurden (VideoQA [31], VIOLET [5] und MERLOT [33] und MERLOT-Reserve [34]), auch bei der Beantwortung von Videofragen vielversprechende Ergebnisse.


Trotz ihrer Bedeutung hat die Qualitätssicherung bei langen Videos relativ wenig Beachtung gefunden. MovieQA [27] formuliert Qualitätssicherungen für ganze Filme, die sich normalerweise über zwei lange Stunden erstrecken. DramaQA [3] verwendet eine einzelne Fernsehserie als visuellen Kontext und beauftragt einen Löser, Videoclips von einer bis zwanzig Minuten Länge zu verstehen.