Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methode

von Kinetograph: The Video Editing Technology Publication2m2024/05/26

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.

featured image - Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methode

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Linktabelle

2. Methode

2.1. Plotgenerierung

2.2. Narrative Suche

Angesichts der zusammengefassten Erzählung und der Frage möchten wir aus dem langen Video den relativ kurzen Clip abrufen, der für die Frage relevant ist. Sprachmodelle generieren offenen Text, der unregelmäßig und oft verrauscht ist. Um den genauen Teil des Videos abzurufen, veranlassen wir das Modell, Indizes der Handlung und nicht der Textform auszugeben.

Aufgrund der Offenheit der Sprachmodelle können die generierten Indizes immer noch verrauscht sein. Wenn das Modell eine Antwort in Textform ausgibt, verwenden wir den Rouge-L-Score [19], um Plot-Stück-Kandidaten zu finden, deren Ähnlichkeit mit dem generierten Satz über dem angegebenen Schwellenwert α ≥ 0,5 liegt.

2.3. Visuelle Prüfung

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

Eine „Zusammenfassen-und-suchen“-Methode zum Beantworten langer Videofragen: Methode

Zu lang; Lesen

Linktabelle

2. Methode

2.1. Plotgenerierung

2.2. Narrative Suche

2.3. Visuelle Prüfung

About Author

Hängeetiketten

Languages

DIESER ARTIKEL WURDE VORGESTELLT IN...

ÄHNLICHE BEITRÄGE