Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.   Autoren:  (1) Jiwan Chung, MIR Lab Yonsei University (   ); https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei University (   ). https://jiwanchung.github.io/  Linktabelle   Zusammenfassung und Einleitung   Methode   Experimente   Ähnliche Projekte   Abschluss   Einschränkungen und Referenzen   A. Einzelheiten zum Experiment   B. Schnelle Beispiele  5. Schlussfolgerung  Wir haben Long Story Short eingeführt, eine Methode, bei der zunächst zusammengefasst und dann gesucht wird, um sowohl die globale Erzählung als auch die relevanten Details für die Qualitätssicherung von Videoerzählungen zu verstehen. Unser Ansatz ist effektiv, wenn der Kontext der Qualitätssicherung umfangreich ist und eine hochrangige Interaktion mit diesem Kontext erforderlich ist, um die besagte Qualitätssicherung zu lösen, was bei langen Video-Qualitätssicherungen der Fall ist. Außerdem schlagen wir vor, die visuelle Verankerung der vom Modell generierten Antwort weiter zu verbessern, indem wir die visuelle Ausrichtung nachträglich mit CLIPCheck überprüfen. Unsere Zero-Shot-Methode verbessert überwachte State-of-Art-Ansätze in MovieQA- und DramaQA-Benchmarks. Wir planen, den Code und die generierten Handlungsdaten öffentlich zugänglich zu machen.  Über diese Arbeit hinaus gibt es zwei mögliche Forschungsrichtungen: Erstens kann die Bereitstellung visueller Beschreibungen, die besser auf die Geschichte abgestimmt sind, mit Charakter-Neuidentifizierung und Koreferenzauflösung die Eingabequalität für GPT-3 verbessern. Zweitens kann man eine dynamischere Multi-Hop-Suche entwickeln, die globale und lokale Informationen auf hierarchische Weise kombiniert.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Eine „Zusammenfassen-dann-Suchen“-Methode zum Beantworten langer Videofragen: Fazit

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Wir feiern unsere Gaming-Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Wir feiern unsere Gaming-Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps