Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Rechenbudget. Long Story Short verwendet GPT-3 (175 Milliarden Parameter) über die OpenAI-API als Backbone. Eine durchschnittliche Eingabeaufforderung zum Zusammenfassen eines Videosegments verarbeitet ca. 3000 Token, während eine QA-Eingabeaufforderung normalerweise ca. 4000 Token benötigt. Für CLIPCheck extrahieren wir CLIP-Funktionen und berechnen die Kosinus-Ähnlichkeit mit einer einzelnen NVIDIA A6000-GPU: Die Verarbeitung der Videobilder für die MovieQA-Validierungsaufteilung dauert 0,5 Stunden.
Hyperparameter . Alle Hyperparameter werden durch die Analyse einer einzelnen Trainingsprobe vordefiniert. Für die narrative Suche verwenden wir den Satzähnlichkeitsschwellenwert α ≥ 0,5, um Handlungsstücke zu finden, wenn GPT-3 keinen einzelnen Index ausgibt. Wir verwenden den binären Entropieschwellenwert E ′ ≥ 0,4 in CLIPCheck. Wir führen jedes Experiment nur einmal durch, da unsere Methode deterministisch ist und bei der Initialisierung nicht anfällig für Zufälligkeiten ist.
Videosegmentierungsschema. Für alle Datensätze, die wir in diesem Dokument verwenden, gibt es vordefinierte Segmentgrenzanmerkungen. Außerdem haben alle Handlungsteile wiederum ausgerichtete Clipsegmente, da wir für jeden mit den vordefinierten Grenzen segmentierten Clip eine Zusammenfassung durchführen. Außerdem filtern wir vor der Anwendung von LSS Clipsegmente heraus, die 1. zu kurz sind, 2. keinen ausgerichteten Bildrahmen haben oder 3. keinen Textkontext haben, um sicherzustellen, dass wir die Clipsegmente mithilfe von Handlungszusammenfassungen abrufen können.
Externe Bibliotheken. Wir verwenden die OpenAI-API, um auf das GPT-3-Sprachmodell zuzugreifen. Die CLIP-Funktionen werden mit den Huggingface-Implementierungen berechnet (https://huggingface.co/docs/transformers/main/en/model_doc/clip).