Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Résumé du film Les films sont des exemples typiques de longues vidéos avec des structures narratives claires. Gorinski et coll. [7] générer la version plus courte d'un scénario pour trouver une chaîne graphique optimale d'une scène de film. TRIPOD [23] est un ensemble de données de scénario contenant des annotations de tournants. Dans le même ouvrage, un modèle automatique pour identifier le tournant des récits cinématographiques est proposé. Papalampidi et coll. [24] utilise plus tard la série télévisée CSI pour démontrer l'utilité des tournants dans le résumé automatique de films. Lee et coll. [15] améliore encore l'identification des points tournants avec des fonctionnalités de dialogue et une architecture de transformateur.
Assurance qualité vidéo longue La tâche de réponse aux questions vidéo a été largement étudiée dans la littérature sous la forme à la fois d'assurance qualité ouverte [9] et de problèmes à choix multiples [28, 29]. Plusieurs approches ont été proposées pour résoudre cette tâche, à partir des réseaux d'attention basés sur RNN [9, 30, 36, 38], jusqu'aux réseaux de mémoire [12, 22, 27] et aux transformateurs [4, 6]. Récemment, des modèles multimodaux pré-entraînés sur des ensembles de données vidéo à grande échelle (VideoQA [31], VIOLET [5], MERLOT [33] et MERLOT-Reserve [34]) montrent également des performances prometteuses en matière de réponse aux questions vidéo.
Cependant, le contrôle qualité des vidéos longues a reçu relativement moins d’attention malgré son importance. MovieQA [27] formule des QA sur l'ensemble des films, qui s'étendent généralement sur deux longues heures. DramaQA [3] utilise une seule série télévisée comme contexte visuel et charge un solveur de comprendre des clips vidéo d'une durée d'une à vingt minutes.