Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.   Autoren:  (1) Jiwan Chung, MIR Lab Yonsei University (   ); https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei University (   ). https://jiwanchung.github.io/  Linktabelle   Zusammenfassung und Einleitung   Methode   Experimente   Ähnliche Projekte   Abschluss   Einschränkungen und Referenzen   A. Einzelheiten zum Experiment   B. Schnelle Beispiele  4. Verwandte Arbeiten    Filme sind typische Beispiele für lange Videos mit klaren Erzählstrukturen. Gorinski et al. [7] erstellen die kürzere Version eines Drehbuchs als Aufgabe, eine optimale Graphenkette einer Filmszene zu finden. TRIPOD [23] ist ein Drehbuch-Datensatz, der Wendepunktanmerkungen enthält. In derselben Arbeit wird ein automatisches Modell zur Erkennung des Wendepunkts aus Filmerzählungen vorgeschlagen. Papalampidi et al. [24] verwenden später die Fernsehserie CSI, um die Nützlichkeit von Wendepunkten bei der automatischen Filmzusammenfassung zu demonstrieren. Lee et al. [15] verbessern die Wendepunkterkennung weiter mit Dialogfunktionen und Transformer-Architektur. Filmzusammenfassung    Die Aufgabe der Beantwortung von Videofragen wurde in der Literatur ausführlich in Form von offenen QA-Aufgaben [9] und Multiple-Choice-Problemen [28, 29] untersucht. Zur Lösung dieser Aufgabe wurden verschiedene Ansätze vorgeschlagen, angefangen von RNN-basierten Aufmerksamkeitsnetzwerken [9, 30, 36, 38] über Gedächtnisnetzwerke [12, 22, 27] bis hin zu Transformatoren [4, 6]. In jüngster Zeit zeigen multimodale Modelle, die anhand großer Videodatensätze vorab trainiert wurden (VideoQA [31], VIOLET [5] und MERLOT [33] und MERLOT-Reserve [34]), auch bei der Beantwortung von Videofragen vielversprechende Ergebnisse. Lange Video-QA  Trotz ihrer Bedeutung hat die Qualitätssicherung bei langen Videos relativ wenig Beachtung gefunden. MovieQA [27] formuliert Qualitätssicherungen für ganze Filme, die sich normalerweise über zwei lange Stunden erstrecken. DramaQA [3] verwendet eine einzelne Fernsehserie als visuellen Kontext und beauftragt einen Löser, Videoclips von einer bis zwanzig Minuten Länge zu verstehen.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchen

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Wir feiern unsere Gaming-Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Wir feiern unsere Gaming-Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps