paint-brush
Génération de bandes-annonces de films via la décomposition de tâches : formulation du problèmepar@kinetograph
103 lectures

Génération de bandes-annonces de films via la décomposition de tâches : formulation du problème

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de films via la décomposition de tâches : formulation du problème
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

3. Formulation du problème

La génération de bandes-annonces nécessite la sélection de plans L à partir d'un long métrage de plans M (LM). Les films présentent des histoires complexes qui peuvent contenir des intrigues secondaires ou des événements distincts qui se déroulent de manière non linéaire, tandis que des événements redondants, appelés « éléments de remplissage », enrichissent l'histoire principale. Par conséquent, nous ne pouvons pas supposer que les plans consécutifs sont nécessairement sémantiquement liés. Pour mieux explorer les relations entre les événements, nous représentons les films sous forme de graphiques [42]. Soit G = (V, E) un graphe où les sommets V sont des plans et les arêtes E représentent leur similarité sémantique. Nous considérons en outre l'ordre temporel original des plans dans G en autorisant uniquement les bords dirigés des plans précédents vers les plans futurs. G est décrit par une matrice de transition triangulaire supérieure T , qui enregistre la probabilité de transition du plan i à chaque plan futur j.


Au sein de G, nous supposons que certains plans décrivent des événements clés du film (cercles épais sur la figure 2) tandis que tous les plans ont un sentiment (positif ou négatif), dont l'intensité est notée par une partition (nuances de vert/rouge sur la figure 2). . Nous proposons un algorithme pour parcourir G et sélectionner des séquences de plans de bande-annonce. Dans ce qui suit, nous décrivons d'abord cet algorithme (Section 3.1), puis discutons de la manière dont le graphe G est appris et les événements clés sont détectés via l'identification TP [41] (Section 3.2). Enfin, nous expliquons également comment les scores de sentiment basés sur les tirs sont prédits (Section 3.5).

3.1. Traversée du graphique de film




Nous sélectionnons L plans au total (en fonction de la longueur de la bande-annonce cible) et récupérons une séquence de bande-annonce de proposition, comme illustré dans la figure 2 (ligne en gras). À chaque étape, nous suivons le flux de sentiments créé et les TP identifiés jusqu'à présent (lignes 10 et 13-14 de l'algorithme 1, respectivement). Un événement TP a été sélectionné pour être présenté dans la bande-annonce si un plan ou ses voisins immédiats ont été ajoutés au parcours.

3.2. Identification TP





Le modèle basé sur la vidéo suppose l'accès aux étiquettes TP au niveau de la prise de vue. Cependant, le seul ensemble de données pour l'identification des TP dont nous disposons est TRIPOD [41], qui contient des étiquettes au niveau de la scène basées sur des scénarios. Pour obtenir des étiquettes plus fines, nous projetons des annotations basées sur la scène sur les plans en suivant un simple mappage un-à-plusieurs (voir la section 4 pour plus de détails). Notre signal d'entraînement étant inévitablement bruité, nous émettons l'hypothèse que l'accès aux scénarios encouragerait le modèle vidéo à sélectionner des plans plus représentatifs pour chaque TP. En d’autres termes, les scénarios représentent une connaissance privilégiée et un signal de supervision implicite, tout en supprimant le besoin de prétraitements supplémentaires lors de l’inférence. De plus, les scénarios fournissent une multitude d'informations supplémentaires, par exemple sur les personnages et leurs rôles dans une scène, ou sur leurs actions et émotions (transmises par des lignes décrivant ce que voit la caméra). Autrement, ces informations pourraient être difficiles à localiser avec précision dans une vidéo. De plus, les corpus de textes de scénarios non étiquetés sont relativement faciles à obtenir et peuvent être utilisés pour pré-former notre réseau.


Figure 2. GRAPHTRAILER : un film est un graphe dont les nœuds sont des plans et les bords dénotent les relations entre eux. Chaque plan est caractérisé par un score de sentiment (nuances vertes/rouges pour les valeurs positives/négatives) et des étiquettes décrivant les événements importants (cercles épais). Notre algorithme effectue des parcours dans le graphique (ligne grasse) pour générer des séquences de fin de proposition.

3.3. Distillation des connaissances

Nous décrivons maintenant notre régime de formation commun pour les deux réseaux qui encapsulent différentes vues du film en termes de flux de données (multimodaux ou texte uniquement) et leur segmentation en unités sémantiques (plans ou scènes).



Figure 3. Deux réseaux traitent différentes vues du film avec différents degrés de granularité. Le réseau vidéo prend en entrée des représentations de plans multimodales à granularité fine basées sur le flux vidéo du film. Le réseau basé sur le scénario traite des représentations textuelles de scènes à gros grain et basées sur le scénario du film. Les réseaux sont formés conjointement sur l’identification des TP avec des pertes, ce qui renforce la cohérence des prédictions et des représentations entre eux.


Perte de cohérence de représentation Nous proposons d'utiliser une deuxième perte de régularisation entre les deux réseaux afin de renforcer également la cohérence entre les deux représentations graphiques (c'est-à-dire sur les plans vidéo et les scènes de scénario). L'objectif de cette perte est double : améliorer les prédictions de TP pour les deux réseaux, comme montré dans des travaux antérieurs sur l'apprentissage des représentations contrastives [38, 39, 48], et également aider à apprendre des connexions plus précises entre les tirs (rappelons que le tir- (le graphe basé sur le graphique sert d'entrée à notre algorithme de génération de bande-annonce ; Section 3.1). En comparaison avec les scènes de scénario, qui décrivent des événements autonomes dans un film, les plans vidéo ne durent que quelques secondes et dépendent du contexte environnant pour leur signification. Nous émettons l'hypothèse qu'en appliquant le voisinage du graphe pour un plan afin de préserver une sémantique similaire à celle de la scène de scénario correspondante, nous encouragerons la sélection de voisins appropriés dans le graphe basé sur le plan.



3.4. Préformation auto-supervisée

Le pré-entraînement vise à apprendre de meilleures représentations de scènes à partir de scénarios qui sont plus accessibles que les vidéos de films (par exemple, moins de problèmes de droits d'auteur et moins de frais de calcul) dans l'espoir que ces connaissances seront transférées au réseau vidéo via nos pertes de cohérence.


3.5. Prédiction des sentiments

Enfin, notre modèle prend en compte la façon dont le sentiment circule d’un plan à l’autre. Nous prédisons les scores de sentiment par tir avec la même architecture commune (Section 3.3) et le même régime d'entraînement que nous utilisons pour l'identification des TP. Le réseau vidéo est formé sur des plans avec des étiquettes de sentiment (c'est-à-dire positif, négatif, neutre), tandis que le réseau basé sur un scénario est formé sur des scènes avec des étiquettes de sentiment (la section 4 explique comment les étiquettes sont obtenues). Après l'entraînement, nous prédisons une distribution de probabilité sur les étiquettes de sentiment par tir pour capturer le flux de sentiments et faire la distinction entre les tirs de haute et de faible intensité (voir l'annexe pour plus de détails).



Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.