Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Angesichts der zusammengefassten Erzählung und der Frage möchten wir aus dem langen Video den relativ kurzen Clip abrufen, der für die Frage relevant ist. Sprachmodelle generieren offenen Text, der unregelmäßig und oft verrauscht ist. Um den genauen Teil des Videos abzurufen, veranlassen wir das Modell, Indizes der Handlung und nicht der Textform auszugeben.
Aufgrund der Offenheit der Sprachmodelle können die generierten Indizes immer noch verrauscht sein. Wenn das Modell eine Antwort in Textform ausgibt, verwenden wir den Rouge-L-Score [19], um Plot-Stück-Kandidaten zu finden, deren Ähnlichkeit mit dem generierten Satz über dem angegebenen Schwellenwert α ≥ 0,5 liegt.