paint-brush
Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : méthodepar@kinetograph

Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : méthode

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.
featured image - Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : méthode
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tableau des liens

2. Méthode


Figure 2 : Le résultat qualitatif montrant notre modèle Long Story Short (LSS) proposé qui génère et récupère l'index des séquences vidéo brutes. Lorsque le modèle prédit la réponse finale à partir de (i) le résumé généré et (ii) le contexte du texte récupéré, CLIPCheck valide les réponses de chaque candidat pour réviser la réponse finale à la question.

2.1. Génération de tracé

2.2. Recherche narrative

Compte tenu du récit résumé et de la question, nous souhaitons récupérer le clip relativement court pertinent à la question de la longue vidéo. Les modèles linguistiques génèrent du texte ouvert, irrégulier et souvent bruyant. Pour récupérer la partie exacte de la vidéo, nous conduisons le modèle à générer des indices de l'intrigue plutôt que la forme texte.



Les indices générés peuvent encore être bruyants en raison de la nature ouverte des modèles de langage. Lorsque le modèle génère une réponse sous forme de texte, nous utilisons le score rouge-l [19] pour trouver les candidats aux éléments d'intrigue dont la similarité avec la phrase générée est supérieure au seuil spécifié α ≥ 0,5.


2.3. Vérification visuelle