Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Wir haben Long Story Short eingeführt, eine Methode, bei der zunächst zusammengefasst und dann gesucht wird, um sowohl die globale Erzählung als auch die relevanten Details für die Qualitätssicherung von Videoerzählungen zu verstehen. Unser Ansatz ist effektiv, wenn der Kontext der Qualitätssicherung umfangreich ist und eine hochrangige Interaktion mit diesem Kontext erforderlich ist, um die besagte Qualitätssicherung zu lösen, was bei langen Video-Qualitätssicherungen der Fall ist. Außerdem schlagen wir vor, die visuelle Verankerung der vom Modell generierten Antwort weiter zu verbessern, indem wir die visuelle Ausrichtung nachträglich mit CLIPCheck überprüfen. Unsere Zero-Shot-Methode verbessert überwachte State-of-Art-Ansätze in MovieQA- und DramaQA-Benchmarks. Wir planen, den Code und die generierten Handlungsdaten öffentlich zugänglich zu machen.
Über diese Arbeit hinaus gibt es zwei mögliche Forschungsrichtungen: Erstens kann die Bereitstellung visueller Beschreibungen, die besser auf die Geschichte abgestimmt sind, mit Charakter-Neuidentifizierung und Koreferenzauflösung die Eingabequalität für GPT-3 verbessern. Zweitens kann man eine dynamischere Multi-Hop-Suche entwickeln, die globale und lokale Informationen auf hierarchische Weise kombiniert.