paint-brush
Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexespar@kinetograph

Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexes

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.
featured image - Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexes
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tableau des liens

4. Travaux connexes

Résumé du film Les films sont des exemples typiques de longues vidéos avec des structures narratives claires. Gorinski et coll. [7] générer la version plus courte d'un scénario pour trouver une chaîne graphique optimale d'une scène de film. TRIPOD [23] est un ensemble de données de scénario contenant des annotations de tournants. Dans le même ouvrage, un modèle automatique pour identifier le tournant des récits cinématographiques est proposé. Papalampidi et coll. [24] utilise plus tard la série télévisée CSI pour démontrer l'utilité des tournants dans le résumé automatique de films. Lee et coll. [15] améliore encore l'identification des points tournants avec des fonctionnalités de dialogue et une architecture de transformateur.


Assurance qualité vidéo longue La tâche de réponse aux questions vidéo a été largement étudiée dans la littérature sous la forme à la fois d'assurance qualité ouverte [9] et de problèmes à choix multiples [28, 29]. Plusieurs approches ont été proposées pour résoudre cette tâche, à partir des réseaux d'attention basés sur RNN [9, 30, 36, 38], jusqu'aux réseaux de mémoire [12, 22, 27] et aux transformateurs [4, 6]. Récemment, des modèles multimodaux pré-entraînés sur des ensembles de données vidéo à grande échelle (VideoQA [31], VIOLET [5], MERLOT [33] et MERLOT-Reserve [34]) montrent également des performances prometteuses en matière de réponse aux questions vidéo.


Cependant, le contrôle qualité des vidéos longues a reçu relativement moins d’attention malgré son importance. MovieQA [27] formule des QA sur l'ensemble des films, qui s'étendent généralement sur deux longues heures. DramaQA [3] utilise une seule série télévisée comme contexte visuel et charge un solveur de comprendre des clips vidéo d'une durée d'une à vingt minutes.