paint-brush
Génération de bandes-annonces de films via la décomposition de tâches : travaux connexespar@kinetograph

Génération de bandes-annonces de films via la décomposition de tâches : travaux connexes

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de films via la décomposition de tâches : travaux connexes
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

2. Travaux connexes

Les approches précédentes de compréhension de films se sont principalement concentrées sur des clips vidéo isolés et sur des tâches telles que l'alignement entre les scènes de films et les chapitres de livres [49], les réponses aux questions [50], le sous-titrage vidéo pour les plans de film [44] et la conversion texte-vidéo. récupération [5]. Des travaux récents [40–42] tentent d'identifier une structure narrative de haut niveau et de résumer des épisodes télévisés et des films entiers en se concentrant exclusivement sur la modalité textuelle (c'est-à-dire les scénarios).


Les approches existantes de génération de bandes-annonces exploitent des fonctionnalités audiovisuelles superficielles, telles que la musique de fond ou les changements visuels entre les plans séquentiels [24, 46]. D’autres travaux créent des bandes-annonces « attrayantes » avec un modèle basé sur des graphiques pour la sélection des plans [57] ou utilisent un humain dans la boucle en conjonction avec un modèle formé aux films d’horreur via une analyse des sentiments audiovisuels [47]. L'ensemble de données de détection des moments de bande-annonce [53] se compose de longs métrages associés à des bandes-annonces officielles et des annotations pour les moments clés, mais il n'est pas accessible au public et n'inclut pas de scénarios.


La distillation des connaissances [3, 23] a été initialement proposée pour distiller les informations d'un modèle d'enseignant plus large vers un modèle d'élève plus petit. La distillation généralisée [30] fournit un cadre pour utiliser des informations privilégiées, c'est-à-dire des informations disponibles uniquement au moment de l'entraînement. Le plus lié à notre travail est l'utilisation de différentes modalités ou vues du même contenu [33, 34], par exemple des narrations transcrites pour apprendre des représentations visuelles dans des vidéos pédagogiques. Nous exploitons les scénarios comme source d'informations privilégiées et distillons des connaissances sur les événements, les personnages et les scènes d'un film, que nous exploitons ensuite pour identifier les plans dignes d'une bande-annonce dans une vidéo.



Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.