paint-brush
Génération de bande-annonce de film via la décomposition de tâches : résumé et introductionpar@kinetograph

Génération de bande-annonce de film via la décomposition de tâches : résumé et introduction

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bande-annonce de film via la décomposition de tâches : résumé et introduction
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

Abstrait

Les bandes-annonces de films remplissent plusieurs fonctions : elles présentent aux spectateurs l'histoire, transmettent l'ambiance et le style artistique du film et encouragent le public à voir le film. Ces diverses fonctions font de la génération automatique de remorques une entreprise difficile. Nous le décomposons en deux sous-tâches : l'identification de la structure narrative et la prédiction des sentiments. Nous modélisons les films sous forme de graphiques, où les nœuds sont des plans et les bords dénotent les relations sémantiques entre eux. Nous apprenons ces relations à l'aide d'un entraînement contrastif commun qui exploite des informations textuelles privilégiées (par exemple, des personnages, des actions, des situations) provenant de scénarios. Un algorithme non supervisé parcourt ensuite le graphique et génère des bandes-annonces que les juges humains préfèrent à celles générées par des approches supervisées compétitives.

1. Introduction

Les bandes-annonces sont de courtes vidéos utilisées pour promouvoir des films et sont souvent essentielles au succès commercial. Bien que leur fonction principale soit de commercialiser le film auprès d'un large public, les bandes-annonces sont également une forme d'art persuasif et de récit promotionnel, conçu pour donner envie aux spectateurs de voir le film. Même si la réalisation de bandes-annonces est considérée comme une activité artistique, l’industrie cinématographique a développé des stratégies guidant la construction de bandes-annonces. Selon une école de pensée, les bandes-annonces doivent présenter une structure narrative, composée de trois actes[1]. Le premier acte établit les personnages et le déroulement de l'histoire, le deuxième acte introduit le conflit principal et le troisième acte fait monter les enjeux et fournit des aperçus de la fin. Une autre école de pensée s'intéresse davantage à l'ambiance de la bande-annonce telle que définie par les hauts et les bas de l'histoire[2]. Selon cette approche, les bandes-annonces devraient avoir une intensité moyenne au début afin de captiver les téléspectateurs, suivie d'une intensité faible pour fournir des informations clés sur l'histoire, puis d'une intensité progressivement croissante jusqu'à atteindre un point culminant à la fin de la bande-annonce.


Figure 1. Points tournants et leurs définitions.


Pour créer automatiquement des bandes-annonces, nous devons effectuer des tâches de bas niveau telles que l'identification des personnes, la reconnaissance des actions et la prédiction des sentiments, mais aussi des tâches de plus haut niveau telles que comprendre les liens entre les événements et leur causalité, ainsi que tirer des conclusions sur les personnages et leurs causes. Actions. Compte tenu de la complexité de la tâche, apprendre directement toutes ces connaissances à partir de paires de bandes-annonces de films nécessiterait plusieurs milliers d'exemples, dont le traitement et l'annotation constitueraient un défi. Il n'est donc pas surprenant que les approches précédentes de génération automatique de bandes-annonces [24, 46, 53] se soient uniquement concentrées sur les fonctionnalités audiovisuelles.


Inspirés par le processus créatif des monteurs humains, nous adoptons une approche ascendante de la génération de bandes-annonces, que nous décomposons en deux sous-tâches orthogonales, plus simples et bien définies. La première est l'identification de la structure narrative, c'est-à-dire la récupération des événements les plus importants du film. Une théorie communément adoptée en matière d'écriture de scénarios [13,22,51] suggère qu'il existe cinq types d'événements clés dans l'intrigue d'un film, appelés tournants (TP ; voir leurs définitions dans la figure 1). La deuxième sous-tâche est la prédiction des sentiments, que nous considérons comme une approximation du flux d'intensité entre les plans et les émotions évoquées.


Nous générons des bandes-annonces de propositions suivant une approche basée sur des graphiques non supervisés. Nous modélisons les films sous forme de graphiques dont les nœuds sont des plans et dont les bords dénotent des connexions sémantiques importantes entre les plans (voir Figure 2). De plus, les nœuds portent des étiquettes indiquant s'il s'agit d'événements clés (c'est-à-dire des TP) et des scores signalant l'intensité du sentiment (positive ou négative). Notre algorithme parcourt ce graphique de film pour créer des séquences de bande-annonce. Celles-ci pourraient être utilisées comme propositions devant être examinées et modifiées par un éditeur humain.


Les tâches d’identification des TP et de prédiction des sentiments devraient bénéficier d’une compréhension de niveau inférieur du contenu du film. En effet, nous pourrions utiliser des modules disponibles dans le commerce pour identifier des personnages et des lieux, reconnaître des actions et localiser des unités sémantiques. Cependant, de telles approches augmentent considérablement le temps de prétraitement et les besoins en mémoire pendant la formation et l'inférence et souffrent de propagation des erreurs. Nous proposons plutôt un régime d'apprentissage contrastif, dans lequel nous tirons parti des scénarios comme informations privilégiées, c'est-à-dire disponibles uniquement au moment de la formation. Les scénarios révèlent comment le film est segmenté en scènes, qui sont les personnages, quand et à qui ils parlent, où ils se trouvent et ce qu'ils font (c'est-à-dire que les « titres de scène » expliquent où se déroule l'action tandis que les « lignes d'action » décrivent ce que voit la caméra). Plus précisément, nous construisons deux réseaux individuels, un réseau textuel basé sur des scénarios et un réseau multimodal basé sur la vidéo, et les formons conjointement en utilisant des pertes contrastives auxiliaires. Le réseau textuel peut en outre être pré-entraîné sur de grandes collections de scénarios via un apprentissage auto-supervisé, sans avoir à collecter et traiter les films correspondants. Les résultats expérimentaux montrent que cette approche de formation contrastée est bénéfique, conduisant à des bandes-annonces jugées favorablement par les humains en termes de contenu et d'attractivité.


Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.


[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer


[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream