paint-brush
Génération de bandes-annonces de films via la décomposition de tâches : configuration expérimentalepar@kinetograph
118 lectures

Génération de bandes-annonces de films via la décomposition de tâches : configuration expérimentale

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de films via la décomposition de tâches : configuration expérimentale
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

4. Configuration expérimentale

Ensembles de données Notre modèle a été formé sur TRIPODL, une version étendue de l'ensemble de données TRIPOD [41, 42] qui contient 122 scénarios avec des annotations TP de qualité argent (au niveau de la scène) [3] et les vidéos correspondantes. Pour chaque film, nous avons en outre collecté autant de bandes-annonces que possible sur YouTube, y compris des bandes-annonces officielles et (sérieuses) basées sur des fans, ou des bandes-annonces modernes pour des films plus anciens. Pour évaluer les bandes-annonces produites par notre algorithme, nous avons également collecté un nouvel ensemble de 41 films. Ces films ont été sélectionnés dans l'ensemble de données Moviescope[5] [11], qui contient les bandes-annonces officielles des films. L'ensemble retenu ne contient aucune information supplémentaire, telle que des scénarios ou des annotations TP. Les statistiques de TRIPODL sont présentées dans le tableau 1.


Traitement des films et des bandes-annonces L'approche de modélisation proposée dans les sections précédentes suppose que nous connaissions la correspondance entre les scènes du scénario et les plans du film. Nous obtenons ce mappage en alignant automatiquement les dialogues des scénarios avec les sous-titres en utilisant Dynamic Time Warping (DTW ; [36, 42]). Nous segmentons d'abord la vidéo en scènes basées sur ce mappage, puis segmentons chaque scène en plans à l'aide de PySceneDetect[6]. Les plans comportant moins de 100 images au total sont trop courts pour être traités et affichés dans le cadre de la bande-annonce et sont donc rejetés.


De plus, pour chaque plan, nous extrayons des caractéristiques visuelles et audio. Nous considérons trois types différents de caractéristiques visuelles :


(1) Nous échantillonnons une image clé par prise de vue et extrayons les caractéristiques en utilisant ResNeXt-101 [56] pré-entraîné pour la reconnaissance d'objets sur ImageNet [14]. (2) Nous échantillonnons des images avec une fréquence de 1 image sur 10 (nous augmentons cet intervalle de temps pour les prises de vue de plus grande durée car nous sommes confrontés à des problèmes de mémoire) et extrayons les caractéristiques de mouvement à l'aide du réseau I3D à deux flux pré-entraîné sur Kinetics [ dix]. (3) Nous utilisons Faster-RCNN [18] implémenté dans Detectron2 [54] pour détecter les instances de personne dans chaque image clé et conserver les quatre premières boîtes englobantes par plan qui ont la plus grande confiance ainsi que les représentations régionales respectives. Nous projetons d’abord toutes les représentations individuelles dans la même dimension inférieure et effectuons une normalisation L2. Ensuite, nous considérons la représentation visuelle du plan comme la somme des vecteurs individuels. Pour la modalité audio, nous utilisons YAMNet pré-entraîné sur le corpus AudioSet-YouTube [16] pour classer les segments audio en 521 classes audio (par exemple, outils, musique, explosion) ; pour chaque segment audio contenu dans la scène, nous extrayons les caractéristiques de l'avant-dernière couche. Enfin, nous extrayons les caractéristiques textuelles [42] des sous-titres et des scènes de scénario à l'aide de l'Universal Sentence Encoder (USE ; [12]).


À des fins d’évaluation, nous devons savoir quels plans du film méritent ou non une bande-annonce. Pour ce faire, nous segmentons la bande-annonce correspondante en plans et calculons pour chaque plan sa similitude visuelle avec tous les plans du film. Les plans présentant les valeurs de similarité les plus élevées reçoivent des étiquettes positives (c'est-à-dire qu'ils doivent figurer dans la bande-annonce). Cependant, comme les bandes-annonces contiennent également des plans qui ne figurent pas dans le film (par exemple, des écrans noirs avec du texte, ou simplement du matériel qui n'a pas été présent dans le film final), nous avons également fixé un seuil en dessous duquel nous ne mappons pas les plans de la bande-annonce au film. coups. De cette façon, nous créons des étiquettes binaires de qualité argent pour les plans de films.


Étiquettes de sentiment Puisque TRIPOD ne contient pas d'annotations de sentiment, nous obtenons à la place des étiquettes de référence via COSMIC [17], un cadre guidé par le bon sens avec des performances de pointe pour la classification des sentiments et des émotions dans les conversations en langage naturel. Plus précisément, nous formons COSMIC sur MELD [43], qui contient des dialogues d'épisodes de la série télévisée Friends et est plus adapté à notre domaine que d'autres ensembles de données de classification des sentiments (par exemple, [9, 29]). Après la formation, nous utilisons COSMIC pour produire des prédictions de sentiments au niveau des phrases pour les scénarios TRIPOD. Le sentiment d'une scène correspond au sentiment majoritaire de ses phrases. Nous projetons des étiquettes de sentiment basées sur la scène sur les plans en utilisant le même mappage un-à-plusieurs utilisé pour les TP.


Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect