Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Compte tenu du récit résumé et de la question, nous souhaitons récupérer le clip relativement court pertinent à la question de la longue vidéo. Les modèles linguistiques génèrent du texte ouvert, irrégulier et souvent bruyant. Pour récupérer la partie exacte de la vidéo, nous conduisons le modèle à générer des indices de l'intrigue plutôt que la forme texte.
Les indices générés peuvent encore être bruyants en raison de la nature ouverte des modèles de langage. Lorsque le modèle génère une réponse sous forme de texte, nous utilisons le score rouge-l [19] pour trouver les candidats aux éléments d'intrigue dont la similarité avec la phrase générée est supérieure au seuil spécifié α ≥ 0,5.