Auteurs:
(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;
(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;
(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.
Utilité de la distillation des connaissances Nous étudions d'abord si nous améliorons l'identification des TP, car elle est essentielle à la tâche de génération de remorques. Nous divisons l'ensemble des films avec des étiquettes TP au niveau de la scène de vérité sur le terrain en ensembles de développement et de test et sélectionnons les 5 meilleurs (@5) et les 10 meilleurs (@10) plans par TP dans un film. Comme métrique d'évaluation, nous considérons l'Accord Partial (PA ; [41]), qui mesure le pourcentage de TP pour lesquels un modèle identifie correctement au moins un plan de vérité terrain parmi les 5 ou 10 plans sélectionnés dans le film (voir Annexe pour plus de détails). ).
Le tableau 2 résume nos résultats sur l'ensemble de test. Nous considérons les systèmes de comparaison suivants : sélection aléatoire des plans dans des sections uniformément réparties (en moyenne 10 courses) ; La théorie attribue les TP aux plans selon la théorie de l'écriture du scénario (par exemple, « Opportunité » se produit à 10 % du film, « Changement de plans » à 25 %, etc.) ; La distribution sélectionne les tirs en fonction de leur position attendue dans les données d'entraînement ; GRAPHTP est le modèle original de [42] formé sur des scénarios (nous projetons des prédictions TP au niveau de la scène sur des plans) ; Transformer est un modèle de base sans informations relatives aux graphiques. Nous utilisons notre propre modèle, GRAPHTRAILER, dans plusieurs variantes pour l'identification des TP : sans et avec accès aux scénarios, entraîné uniquement avec la perte de cohérence de prédiction (P), les pertes de prédiction et de représentation (P + R), et notre régime d'entraînement conjoint contrastif. .
Nous observons que GRAPHTRAILER surpasse toutes les lignes de base, ainsi que le modèle Transformer. Bien que ce dernier code les dépendances à longue portée entre les tirs, GRAPHTRAILER bénéficie en outre du codage direct des connexions clairsemées apprises dans le graphique. De plus, la distillation asynchrone des connaissances via la perte de cohérence de prédiction (P) améliore encore les performances, suggérant que les connaissances contenues dans les scénarios sont complémentaires à celles qui peuvent être extraites de la vidéo. Notez que lorsque nous ajoutons la perte de cohérence de la représentation (P + R), les performances se détériorent considérablement, alors que l'approche de formation proposée (articulation contrastée) est plus performante. Enfin, la préformation offre des gains supplémentaires, quoique modestes, qui soulignent les avantages du réseau basé sur le scénario.
Qualité de la bande-annonce Nous évaluons maintenant l'algorithme de génération de bande-annonce de GRAPHTRAILER sur l'ensemble de 41 films retenus (voir Tableau 1). Comme mesure d'évaluation, nous utilisons la précision, c'est-à-dire le pourcentage de plans de bande-annonce correctement identifiés et nous considérons un budget total de 10 plans pour les bandes-annonces afin d'atteindre la durée souhaitée (∼2 minutes).
Nous comparons GRAPHTRAILER à plusieurs approches non supervisées (premier bloc du tableau 3), notamment : Sélection aléatoire parmi tous les plans et parmi les TP identifiés par GRAPHTRAILER ; nous implémentons également deux systèmes basés sur des graphes entièrement connectés, où les nœuds sont des plans et les bords indiquent le degré de similarité entre eux. Ce graphe n'a aucune connaissance des TP, il est construit en calculant la similarité entre représentations multimodales génériques. TEXTRANK [35] opère sur ce graphique pour sélectionner les plans en fonction de leur centralité, tandis que GRAPHTRAILER sans TP parcourt le graphique avec les critères de TP et de sentiment supprimés (équation 2). Pour les systèmes non supervisés qui incluent la stochasticité et produisent des propositions (Random, GRAPHTRAILER), nous considérons la meilleure bande-annonce de proposition. Le deuxième bloc du tableau 3 présente les approches supervisées qui utilisent des étiquettes de remorque bruyantes pour la formation. Ceux-ci incluent CCANet [53], qui ne prend en compte que les informations visuelles et calcule l'attention croisée entre les plans du film et de la bande-annonce, et un Transformer vanille formé pour la tâche binaire consistant à identifier si un plan doit être dans la bande-annonce sans tenir compte des scénarios, des sentiments ou des TP. . GRAPHTRAILER supervisé se compose de notre réseau vidéo formé sur les mêmes données que le Transformer.
GRAPHTRAILER fonctionne mieux parmi les méthodes non supervisées. Il est intéressant de noter que TEXTRANK est pire que aléatoire, illustrant que des tâches telles que la génération de bandes-annonces ne peuvent pas être considérées comme des problèmes de résumé standard. GRAPHTRAILER sans TP fonctionne toujours mieux que TEXTRANK et la sélection aléatoire de TP.[7] En ce qui concerne les approches supervisées, nous constatons que l'utilisation de toutes les modalités avec une architecture standard (Transformer) conduit à de meilleures performances que les modèles sophistiqués utilisant la similarité visuelle (CCANet). En ajoutant des informations liées au graphique (Supervised GRAPHTRAILER), nous obtenons des améliorations supplémentaires.
Nous effectuons deux études d'ablation sur l'ensemble de développement de GRAPHTRAILER. La première étude vise à évaluer comment les différents régimes de formation du double réseau influencent les performances de génération de remorques en aval. Nous observons dans le tableau 4 que la formation asynchrone n'offre aucune amélioration perceptible par rapport au modèle de base. Cependant, lorsque nous entraînons conjointement les deux réseaux (basés sur la vidéo et le scénario) en utilisant les pertes de cohérence de prédiction et de représentation, les performances augmentent de près de 3 %. Une légère augmentation supplémentaire est observée lorsque le réseau basé sur un scénario est pré-entraîné sur davantage de données.
La deuxième étude d'ablation concerne les critères utilisés pour effectuer des marches aléatoires sur le graphe G. Comme le montre le tableau 5, lorsque nous forçons les nœuds du chemin sélectionné à être proches des événements clés (similarité + TP), les performances s'améliorent. Lorsque l'on s'appuie uniquement sur le sentiment (similarité + sentiment), la performance baisse légèrement. Cela suggère que contrairement aux approches précédentes qui se concentrent principalement sur l’attractivité visuelle superficielle [53, 57] ou sur l’analyse des sentiments audiovisuels [47], les informations sur les sentiments à elles seules ne sont pas suffisantes et peuvent favoriser des valeurs aberrantes qui ne s’intègrent pas bien dans une bande-annonce. En revanche, lorsque les informations sur les sentiments sont combinées avec la connaissance de la structure narrative (similarité + TP + sentiment), nous observons la plus grande précision. Cela valide encore davantage notre hypothèse selon laquelle les deux théories sur la création de bandes-annonces (c'est-à-dire basées sur la structure narrative et les émotions) sont complémentaires et peuvent être combinées.
Enfin, puisque nous avons plusieurs bandes-annonces par film (pour le groupe de développement), nous pouvons mesurer le chevauchement entre leurs plans (limite supérieure). Le chevauchement moyen est de 86,14 %, démontrant un bon accord entre les fabricants de remorques et un écart important entre les performances humaines et les modèles automatiques.
Enfin, puisque nous avons plusieurs bandes-annonces par film (pour le groupe de développement), nous pouvons mesurer le chevauchement entre leurs plans (limite supérieure). Le chevauchement moyen est de 86,14 %, démontrant un bon accord entre les fabricants de remorques et un écart important entre les performances humaines et les modèles automatiques.
Évaluation humaine Nous avons également mené une étude d'évaluation humaine pour évaluer la qualité des bandes-annonces générées. Pour l'évaluation humaine, nous incluons la sélection aléatoire sans TP comme limite inférieure, les deux modèles non supervisés les plus performants (c'est-à-dire GRAPHTRAILER avec et sans TP) et deux modèles supervisés : CCANet, qui est l'état de l'art précédent pour la génération de bandes-annonces, et la version supervisée de notre modèle, qui est le modèle le plus performant selon les métriques automatiques.[8] Nous avons généré des bandes-annonces pour tous les films du plateau retenu. Nous avons ensuite demandé aux collaborateurs d'Amazon Mechanical Turk (AMT) de regarder toutes les bandes-annonces d'un film, de répondre aux questions relatives aux informations fournies (Q1) et à l'attractivité (Q2) de la bande-annonce, et de sélectionner la meilleure et la pire bande-annonce. Nous avons recueilli les évaluations de cinq juges différents par film.
Le tableau 6 montre que GRAPHTRAILER avec TP fournit en moyenne des bandes-annonces plus informatives (Q1) et attrayantes (Q2) que tous les autres systèmes. Bien que GRAPHTRAILER sans TP et GRAPHTRAILER supervisé soient plus souvent sélectionnés comme les meilleurs, ils sont également choisis tout aussi souvent comme les pires. Lorsque nous calculons des scores standardisés (scores z) en utilisant la meilleure mise à l'échelle [31], GRAPHTRAILER avec TP atteint les meilleures performances (notez qu'il est également rarement sélectionné comme pire), suivi de GRAPHTRAILER supervisé. Il est intéressant de noter que GRAPHTRAILER sans TP est le plus souvent sélectionné comme le meilleur (24,40 %), ce qui suggère que l'approche globale consistant à modéliser des films sous forme de graphiques et à effectuer des parcours aléatoires au lieu de sélectionner individuellement des plans permet de créer des bandes-annonces cohérentes. Cependant, le même modèle est aussi le plus souvent sélectionné comme étant le pire, ce qui montre que cette approche naïve ne peut à elle seule garantir des remorques de bonne qualité.
Nous incluons des exemples vidéo de bandes-annonces générées sur la base de notre approche dans le matériel supplémentaire. De plus, nous fournissons un exemple graphique étape par étape de notre algorithme de parcours de graphe en annexe.
Alerte spoil! Notre modèle n'évite pas explicitement les spoilers dans les bandes-annonces générées. Nous avons expérimenté un critère lié au spoiler lors du parcours du graphe du film dans l'algorithme 1. Plus précisément, nous avons ajouté une pénalité lors de la sélection de plans qui se trouvent dans des quartiers graphiques « sensibles aux spoilers ». Nous avons identifié ces quartiers en mesurant le chemin le plus court à partir des deux derniers TP, qui sont par définition les plus gros spoilers d'un film. Cependant, cette variante de notre algorithme aboutissait à des performances inférieures et nous ne l’avons donc pas approfondi. Nous pensons qu'un tel critère n'est pas bénéfique pour proposer des séquences de bandes-annonces, car il décourage le modèle de sélectionner des plans passionnants dans les dernières parties du film. Ces plans à haute tension sont importants pour créer des bandes-annonces intéressantes et sont en effet inclus dans les bandes-annonces réelles. Plus d'un tiers des bandes-annonces professionnelles de notre ensemble de données contiennent des plans des deux derniers TP (« Major revers », « Climax »). Nous en discutons plus en détail en annexe.
Nous avons également inspecté manuellement les bandes-annonces générées et constaté que les spoilers ne sont pas très courants (c'est-à-dire que nous avons identifié un spoiler majeur dans un échantillon aléatoire de 12 bandes-annonces de l'ensemble de test), peut-être parce que la probabilité de sélectionner un spoiler majeur est généralement faible. Et même si une prise de vue sensible aux spoilers est incluse, prise hors de son contexte, elle pourrait ne pas suffire à dévoiler la fin d'un film. Cependant, nous laissons aux travaux futurs le soin d'étudier des techniques d'identification de spoilers plus élaborées, qui peuvent facilement être intégrées à notre algorithme en tant que critères supplémentaires.
Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.
[7] Les performances sur l'ensemble de test sont inférieures car nous ne prenons en compte que les étiquettes de bande-annonce de la bande-annonce officielle, tandis que l'ensemble de développement contient plusieurs bandes-annonces.
[8] Nous n'incluons pas les bandes-annonces de vérité terrain dans l'évaluation humaine, car elles sont post-traitées (c'est-à-dire montage, voix off, musique) et ne sont donc pas directement comparables aux bandes-annonces automatiques.