Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Große Sprachmodelle wie GPT-3 haben eine beeindruckende Fähigkeit gezeigt, sich an neue Aufgaben anzupassen, ohne dass aufgabenspezifische Trainingsdaten erforderlich sind. Diese Fähigkeit hat sich besonders in Situationen wie der Beantwortung narrativer Fragen bewährt, in denen die Aufgabenvielfalt immens ist, aber nur wenige Überwachungsdaten verfügbar sind. In dieser Arbeit untersuchen wir, ob solche Sprachmodelle ihre Zero-Shot-Reasoning-Fähigkeiten auf lange multimodale Erzählungen in Multimedia-Inhalten wie Dramen, Filmen und Animationen ausweiten können, in denen die Geschichte eine wesentliche Rolle spielt. Wir schlagen Long Story Short vor, ein Framework für narrative Video-QA, das zunächst die Erzählung des Videos zu einer kurzen Handlung zusammenfasst und dann nach Teilen des Videos sucht, die für die Frage relevant sind. Wir schlagen außerdem vor, das visuelle Matching mit CLIPCheck zu verbessern. Unser Modell übertrifft modernste überwachte Modelle bei weitem und unterstreicht das Potenzial der Zero-Shot-QA für lange Videos.
Neuere Video-QA-Modelle haben mit der Verarbeitung langer Video-QA-Aufgaben [2, 13, 27] (z. B. Filme, Dramen und YouTube-Webvideos) aufgrund begrenzter Daten und Anmerkungen zu kämpfen. Dies führt dazu, dass lange Video-Erzählungen nicht verstanden werden können und nur hauptsächlich visuelle Fragen zu kurzen Videoclips beantwortet werden können [16, 17, 30]. Die Länge solcher langer Video-QAs reicht nicht aus, um die Modelle zu trainieren, die komplexen Erzählstrukturen innerhalb eines Videos vollständig zu verstehen, was zu suboptimalen Leistungen führt. [10] zeigt, dass die überwachten Modelle sich mehr auf sprachliche Verzerrungen in den Fragen als auf den Erzählkontext verlassen: Sie können ähnliche Leistungen erzielen, auch ohne einen Videokontext zu sehen. Dies unterstreicht die Notwendigkeit multimodaler Denkfähigkeiten, die über eine kleine aufgabenspezifische Überwachung hinausgehen.
Um die Herausforderung der geringen Generalisierung zu bewältigen, kann ein Zero-Shot-Ansatz mit vorab trainierten Large Language Models (LLMs) eine effiziente Alternative für die Bewältigung komplexer QA-Aufgaben [32] und der Zusammenfassung von Textkontexten [8, 37] sein. Doch ist die narrative QA-Fähigkeit solcher LLMs auf den Videobereich übertragbar?
Wir schlagen Long Story Short (LSS) vor, dargestellt in Abbildung 1, das Videoclips in ein Textdrehbuchformat übersetzt, das vom sokratischen Modell [35] inspiriert ist. Unter Verwendung von GPT-3 [1] fassen wir zunächst das lange Video in einer Liste von Handlungssträngen zusammen und navigieren dann sowohl durch die generierte Zusammenfassung als auch durch den Rohvideokontext, um die gegebene Frage zu lösen. Unsere Zero-Shot-Methode zeigt bessere Ergebnisse als hochmoderne überwachte Methoden im MovieQA- und DramaQA-Datensatz. Darüber hinaus schlagen wir CLIPCheck vor, eine Methode zum visuellen Textabgleich, um die visuelle Ausrichtung der von GPT-3 bereitgestellten Argumentationsergebnisse zu verbessern. Zusammenfassend sind unsere Hauptbeiträge dreifach:
Wir präsentieren LSS, ein Framework, das eine lange Videoerzählung in einer Liste von Handlungssträngen zusammenfasst und die für die Frage relevante Nebenhandlung abruft.
Wir zeigen, wie wichtig es ist, die Stärke der visuellen Ausrichtung anhand des CLIP-basierten Matchings bei visuellen Eingabeaufforderungen zu berücksichtigen.
Unser Zero-Shot-Ansatz erreicht in MovieQA [27] und DramaQA [2] eine Leistung auf dem neuesten Stand der Technik und übertrifft überwachte Baselines.