paint-brush
Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methodevon@kinetograph

Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methode

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.
featured image - Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methode
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Linktabelle

2. Methode


Abbildung 2: Das qualitative Ergebnis zeigt unser vorgeschlagenes Long Story Short (LSS)-Modell, das den Index des Rohvideomaterials generiert und abruft. Wenn das Modell die endgültige Antwort aus (i) der generierten Zusammenfassung und (ii) dem abgerufenen Textkontext vorhersagt, validiert CLIPCheck die Antworten jedes Kandidaten, um die endgültige Antwort auf die Frage zu überarbeiten.

2.1. Plotgenerierung

2.2. Narrative Suche

Angesichts der zusammengefassten Erzählung und der Frage möchten wir aus dem langen Video den relativ kurzen Clip abrufen, der für die Frage relevant ist. Sprachmodelle generieren offenen Text, der unregelmäßig und oft verrauscht ist. Um den genauen Teil des Videos abzurufen, veranlassen wir das Modell, Indizes der Handlung und nicht der Textform auszugeben.



Aufgrund der Offenheit der Sprachmodelle können die generierten Indizes immer noch verrauscht sein. Wenn das Modell eine Antwort in Textform ausgibt, verwenden wir den Rouge-L-Score [19], um Plot-Stück-Kandidaten zu finden, deren Ähnlichkeit mit dem generierten Satz über dem angegebenen Schwellenwert α ≥ 0,5 liegt.


2.3. Visuelle Prüfung