Cet article est disponible sur arxiv sous licence CC 4.0.   Auteurs:  (1) Jiwan Chung, MIR Lab Yonsei University (   ) ; https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei University (   ). https://jiwanchung.github.io/  Tableau des liens   Résumé et introduction   Méthode   Expériences   Travaux connexes   Conclusion   Limites et références   A. Détails de l'expérience   B. Échantillons rapides  4. Travaux connexes    Les films sont des exemples typiques de longues vidéos avec des structures narratives claires. Gorinski et coll. [7] générer la version plus courte d'un scénario pour trouver une chaîne graphique optimale d'une scène de film. TRIPOD [23] est un ensemble de données de scénario contenant des annotations de tournants. Dans le même ouvrage, un modèle automatique pour identifier le tournant des récits cinématographiques est proposé. Papalampidi et coll. [24] utilise plus tard la série télévisée CSI pour démontrer l'utilité des tournants dans le résumé automatique de films. Lee et coll. [15] améliore encore l'identification des points tournants avec des fonctionnalités de dialogue et une architecture de transformateur. Résumé du film    La tâche de réponse aux questions vidéo a été largement étudiée dans la littérature sous la forme à la fois d'assurance qualité ouverte [9] et de problèmes à choix multiples [28, 29]. Plusieurs approches ont été proposées pour résoudre cette tâche, à partir des réseaux d'attention basés sur RNN [9, 30, 36, 38], jusqu'aux réseaux de mémoire [12, 22, 27] et aux transformateurs [4, 6]. Récemment, des modèles multimodaux pré-entraînés sur des ensembles de données vidéo à grande échelle (VideoQA [31], VIOLET [5], MERLOT [33] et MERLOT-Reserve [34]) montrent également des performances prometteuses en matière de réponse aux questions vidéo. Assurance qualité vidéo longue  Cependant, le contrôle qualité des vidéos longues a reçu relativement moins d’attention malgré son importance. MovieQA [27] formule des QA sur l'ensemble des films, qui s'étendent généralement sur deux longues heures. DramaQA [3] utilise une seule série télévisée comme contexte visuel et charge un solveur de comprendre des clips vidéo d'une durée d'une à vingt minutes.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Cet audio est produit dans la langue originale de l'histoire !

Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexes

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps