Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Für alle Experimente verwenden wir GPT-3 [1] (text-davinci-003) als Backbone-Sprachmodell. Sofern nicht anders angegeben, verwenden wir die Ground-Truth-Clip-Grenze, um die Videos zu segmentieren. Alle LSS-Varianten verwenden keine Trainingsdaten und sind daher Zero-Shot-Methoden.
MovieQA [27] ist ein umfangreicher QA-Datensatz, der aus 408 Filmen besteht. Der Datensatz enthält mehrere Informationsquellen: Untertitel, Drehbücher, DVS, Videoclips und Plots. Wir berichten über vier hochmoderne überwachte Baselines: A2A [20], PAMN [11], UniversalQA [10] und DHTCN [21].
Tabelle 1 zeigt, dass Zero-Shot-LSS gegenüber früheren überwachten Ansätzen besser abschneidet. Außerdem zeigt Ours-search eine starke Leistung, sogar ohne das Ground-Truth-Segmentindex-Label. CLIPCheck verbessert die Genauigkeit bei der Videoaufteilung leicht. Der Unterschied ist jedoch marginal, da MovieQA oft eine zeichenbasierte Erdung statt allgemeiner visueller Übereinstimmung erfordert. Schließlich experimentieren wir mit der Nullhypothese: „No Context“ testet, ob GPT-3 MovieQA löst, indem es einfach alle Fakten auswendig lernt. „No Context“ schneidet schlechter ab als LSS und lehnt die Nullhypothese ab.
PororoQA [13] ist ein Datensatz zur Qualitätssicherung von Videogeschichten, der auf einer Zeichentrickserie basiert. Die überwachte Basislinie verwendet den vom Menschen erstellten Plot und den Ground-Truth-Videosegmentindex, während LSS +Plot+Search keinen von beiden verwendet.
Tabelle 2 fasst unsere Ergebnisse zum PororoQA-Datensatz zusammen. Bei Verwendung sowohl der Ground-Truth-Episode als auch der Diagramme ist die Leistung von GPT-3 fast gleichauf mit der überwachten Baseline. Das Ersetzen einer vom Menschen erstellten Zusammenfassung durch eine vom Modell erstellte führt nur zu einem geringfügigen Leistungsabfall. Interessanterweise funktioniert der Suchvorgang besser, wenn vom Modell erstellte Diagramme verwendet werden. Wir führen dieses Ergebnis darauf zurück, dass die menschlichen Anmerkungen nicht auf Episodenunterscheidbarkeit ausgelegt sind.
DramaQA [3] ist ein Video-QA-Datensatz, der sich auf das Verständnis von Geschichten konzentriert. Der Datensatz ist in vier hierarchische Schwierigkeitsstufen unterteilt, die den kognitiven Entwicklungsstufen des Menschen folgen. Wir evaluieren LSS auf den beiden hohen Ebenen von DramaQA, um das Verständnis der Handlung zu testen. Wir berichten über zwei aktuelle Basislinien in DramaQA auf verschiedenen Ebenen: CharacterAttention und Kim et al. [14].
Wir vergleichen die Wirkung von CLIPCheck und Caption, einer promptbasierten Methode zur Einbindung von Bildrahmenbeschreibungen, die aus BLIP [18] als Eingaben in GPT-3 extrahiert wurden. Tabelle 3 zeigt, dass CLIPCheck eine größere Verbesserung bietet als Bildbeschreibungen. Auch wenn das Hinzufügen von Bildunterschriften die LSS verbessert, verschwindet der Gewinn, wenn sie gemeinsam mit CLIPCheck verwendet werden. Wir vermuten, dass dies daran liegt, dass Bildunterschriften ähnliche Informationen wie CLIPCheck liefern, aber viel mehr Rauschen aufweisen. Beachten Sie, dass die automatischen Bildunterschriften hier kein integraler Bestandteil von LSS sind. Da DramaQA bereits visuell fundierte Anmerkungen hat, würde das Hinzufügen automatischer Bildunterschriften zusätzlich dazu die Modellleistung nicht unbedingt verbessern. Vielmehr verwenden wir die Bildunterschriften, um frühe und späte Methoden der visuellen Ausrichtung explizit zu vergleichen.
Abschließend prüfen wir, ob CLIPCheck die Verzerrung des Datensatzes ausnutzt, anstatt den visuellen Kontext zu verstehen. Zu diesem Zweck entwickeln wir eine Variante von CLIPCheck mit zufälligem visuellem Kontext (CLIPCheck-Shuffle). CLIPCheck-Shuffle ist gegenüber LSS ohne CLIPCheck keine Verbesserung, was die Verzerrungshypothese widerlegt.
Sind sowohl die Zusammenfassung als auch die Suche wichtig für das narrative Verständnis? Hier bewerten wir LSS-Varianten mit vollständigem Kontext ohne narrative Suche (LSS-Full) oder mit der Handlungszusammenfassung und dem zufälligen Segment als Eingaben (LSS-Random). Tabelle 4 zeigt, dass sowohl LSS-Full als auch LSS-Random hinter LSS-Search zurückbleiben, was auf die Bedeutung des Abrufs hinweist. Beachten Sie, dass wir aufgrund der Tokenlängenbeschränkung nicht den vollständigen Kontext in LSS-Full verwenden konnten. Stattdessen verwenden wir das längste Präfix des vollständigen Kontexts, das GPT3 akzeptiert (4000 Token minus der Länge der Anweisung).
Abbildung 3 zeigt die automatische Handlungszusammenfassung, die als Zwischenkontext der langen Video-QA mithilfe des Sprachmodells im LSS-Framework generiert wurde. Wie in der qualitativen Stichprobe gezeigt, stimmen die generierten Handlungen gut mit den von Menschen geschriebenen Handlungen aus Wikipedia überein. Beispielsweise schreibt die LSS-Zusammenfassung in der ersten Szene des Films „Harry Potter und die Heiligtümer des Todes“ korrekt, dass Harry Potter derzeit 17 Jahre alt ist und dass das Hauptereignis darin besteht, dass die Todesser den Protagonisten angreifen.
Abbildung 4 zeigt die Verbindung zwischen dem gesuchten Handlungsstück und der Antwortwahrscheinlichkeit. Im Beispiel links sagt die abgerufene Zusammenfassung, dass Trench ein Verbrechen begangen hat und deshalb auf der Flucht ist, was darauf schließen lässt, dass eine andere Person, die an ihm interessiert ist, ihn verfolgen würde. Das Sprachmodell versteht diesen Kontext, um die Antwortwahrscheinlichkeit auf die richtige Weise zu ändern. Im rechten Beispiel deutet das LSS-Handlungsstück darauf hin, dass Edward von seiner Entscheidung überzeugt ist. Obwohl dieser Kontext keinen direkten Hinweis auf die Frage bietet, betrachtet das Sprachmodell ihn als Information, die stark genug ist, um die Antwort zu ändern.