paint-brush
Eine Methode zum Zusammenfassen und Suchen für Antworten auf lange Videofragen im Experiment Detailsvon@kinetograph

Eine Methode zum Zusammenfassen und Suchen für Antworten auf lange Videofragen im Experiment Details

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.
featured image - Eine Methode zum Zusammenfassen und Suchen für Antworten auf lange Videofragen im Experiment Details
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Linktabelle

A. Einzelheiten zum Experiment

Rechenbudget. Long Story Short verwendet GPT-3 (175 Milliarden Parameter) über die OpenAI-API als Backbone. Eine durchschnittliche Eingabeaufforderung zum Zusammenfassen eines Videosegments verarbeitet ca. 3000 Token, während eine QA-Eingabeaufforderung normalerweise ca. 4000 Token benötigt. Für CLIPCheck extrahieren wir CLIP-Funktionen und berechnen die Kosinus-Ähnlichkeit mit einer einzelnen NVIDIA A6000-GPU: Die Verarbeitung der Videobilder für die MovieQA-Validierungsaufteilung dauert 0,5 Stunden.


Hyperparameter . Alle Hyperparameter werden durch die Analyse einer einzelnen Trainingsprobe vordefiniert. Für die narrative Suche verwenden wir den Satzähnlichkeitsschwellenwert α ≥ 0,5, um Handlungsstücke zu finden, wenn GPT-3 keinen einzelnen Index ausgibt. Wir verwenden den binären Entropieschwellenwert E ′ ≥ 0,4 in CLIPCheck. Wir führen jedes Experiment nur einmal durch, da unsere Methode deterministisch ist und bei der Initialisierung nicht anfällig für Zufälligkeiten ist.


Videosegmentierungsschema. Für alle Datensätze, die wir in diesem Dokument verwenden, gibt es vordefinierte Segmentgrenzanmerkungen. Außerdem haben alle Handlungsteile wiederum ausgerichtete Clipsegmente, da wir für jeden mit den vordefinierten Grenzen segmentierten Clip eine Zusammenfassung durchführen. Außerdem filtern wir vor der Anwendung von LSS Clipsegmente heraus, die 1. zu kurz sind, 2. keinen ausgerichteten Bildrahmen haben oder 3. keinen Textkontext haben, um sicherzustellen, dass wir die Clipsegmente mithilfe von Handlungszusammenfassungen abrufen können.


Externe Bibliotheken. Wir verwenden die OpenAI-API, um auf das GPT-3-Sprachmodell zuzugreifen. Die CLIP-Funktionen werden mit den Huggingface-Implementierungen berechnet (https://huggingface.co/docs/transformers/main/en/model_doc/clip).