paint-brush
Génération de bandes-annonces de films via la décomposition de tâches : conclusions et référencespar@kinetograph

Génération de bandes-annonces de films via la décomposition de tâches : conclusions et références

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de films via la décomposition de tâches : conclusions et références
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

6. Conclusions

Dans ce travail, nous avons proposé une approche de génération de bandes-annonces qui adopte une représentation graphique des films et utilise des critères interprétables pour sélectionner les plans. Nous montrons également comment les informations privilégiées des scénarios peuvent être exploitées via un apprentissage contrastif, aboutissant à un modèle qui peut être utilisé pour l'identification des tournants et la génération de bandes-annonces. Les bandes-annonces générées par notre modèle ont été jugées favorablement en termes de contenu et d'attractivité.


À l'avenir, nous aimerions nous concentrer sur les méthodes permettant de prédire les émotions fines (par exemple, le chagrin, la haine, la terreur, la joie) dans les films. Dans ce travail, nous considérons les sentiments positifs/négatifs comme un substitut aux émotions, en raison de l'absence d'ensembles de données étiquetés dans le domaine. Les efforts précédents se sont concentrés sur les tweets [1], les vidéos d'opinion sur Youtube [4], les talk-shows [20] et les enregistrements d'interactions humaines [8]. Des expériences préliminaires ont révélé que le transfert de connaissances fines sur les émotions d'autres domaines vers le nôtre conduit à des prédictions peu fiables par rapport au sentiment qui est plus stable et améliore les performances de génération de bandes-annonces. Les pistes de travaux futurs incluent de nouveaux ensembles de données sur les émotions pour les films, ainsi que des modèles de détection des émotions basés sur des indices textuels et audiovisuels.

Les références

[1] Muhammad Abdul-Mageed et Lyle Ungar. EmoNet : Détection fine des émotions avec des réseaux neuronaux récurrents fermés. Dans Actes de la 55e réunion annuelle de l'Association for Computational Linguistics (Volume 1 : Long Papers), pages 718-728, Vancouver, Canada, juillet 2017. Association for Computational Linguistics. 8


[2] Uri Alon et Eran Yahav. Sur le goulot d'étranglement des réseaux de neurones graphiques et ses implications pratiques. Dans Conférence internationale sur les représentations de l’apprentissage, 2020.12


[3] Jimmy Ba et Rich Caruana. Les filets profonds doivent-ils vraiment être profonds ? Dans Proceedings of the Advances in Neural Information Processing Systems, pages 2654-2662, Montréal, Québec, Canada, 2014. 2, 4


[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria et Louis-Philippe Morency. Analyse linguistique multimodale à l'état sauvage : ensemble de données CMU-MOSEI et graphe de fusion dynamique interprétable. Dans Actes de la 56e réunion annuelle de l'Association for Computational Linguistics (Volume 1 : Long Papers), pages 2236-2246, Melbourne, Australie, juillet 2018. Association for Computational Linguistics. 8


[5] Max Bain, Arsha Nagrani, Andrew Brown et Andrew Zisserman. Films condensés : récupération basée sur une histoire avec intégrations contextuelles. Dans Actes de la Conférence asiatique sur la vision par ordinateur, 2020. 2


[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge P'erez, Juan Reutter et Juan Pablo Silva. L'expressivité logique des réseaux de neurones graphiques. Dans Conférence internationale sur les représentations de l’apprentissage, 2019.12


[7] Yoshua Bengio, Nicholas Leonard et Aaron Courville. ´ Estimation ou propagation de gradients à travers des neurones stochastiques pour le calcul conditionnel. Préimpression arXiv arXiv:1308.3432, 2013. 11


[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt et Maja Pantic. La base de données de mimétisme MAHNOB : une base de données sur les interactions humaines naturalistes. Lettres de reconnaissance de formes, 66 : 52-61, 2015. Reconnaissance de formes dans l'interaction homme-machine. 8


[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee et Shrikanth S Narayanan. Iemocap : Base de données interactive de capture de mouvements dyadiques émotionnels. Ressources linguistiques et évaluation, 42(4):335, 2008. 6


[10] João Carreira et Andrew Zisserman. Quo vadis, reconnaissance d'action ? un nouveau modèle et l'ensemble de données cinétiques. Dans la conférence IEEE 2017 sur la vision par ordinateur et la reconnaissance de formes (CVPR), pages 4724 à 4733. Société informatique IEEE, 2017. 6


[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo et Vicente Ordonez. Moviescope : analyse à grande échelle de films utilisant plusieurs modalités. Préimpression arXiv arXiv : 1908.03180, 2019. 5


[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario Guajardo Cespedes, Steve Yuan, Chris Tar et al. Encodeur de phrases universel. Préimpression arXiv arXiv : 1803.11175, 2018. 6


[13] James E Coupe. Théorie narrative et dynamique des films populaires. Psychonomic Bulletin and review, 23(6):1713-1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li et Li Fei-Fei. Imagenet : Une base de données d'images hiérarchiques à grande échelle. En 2009, conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 248 à 255. Ieee, 2009. 6


[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik et Ryan P Adams. Réseaux convolutifs sur graphiques pour l'apprentissage des empreintes moléculaires. Avancées dans les systèmes de traitement de l'information neuronale, 28 : 2224-2232, 2015. 3


[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal et Marvin Ritter. Ensemble audio : une ontologie et un ensemble de données étiquetés par des humains pour les événements audio. En 2017, Conférence internationale de l'IEEE sur l'acoustique, la parole et le traitement du signal (ICASSP), pages 776 à 780. IEEE, 2017. 6


[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea et Soujanya Poria. Cosmique : Connaissance du bon sens pour l’identification des émotions dans les conversations. Dans Actes de la conférence 2020 sur les méthodes empiriques dans le traitement du langage naturel : résultats, pages 2470-2481, 2020. 6 [18] Ross Girshick. Rapide r-cnn. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur, pages 1440-1448, 2015. 6


[19] Philip John Gorinski et Mirella Lapata. Résumé de script de film sous forme d'extraction de scène basée sur un graphique. Dans Actes de la conférence 2015 de la section nord-américaine de l'Association for Computational Linguistics: Human Language Technologies, pages 1066-1076, Denver, Colorado, mai-juin 2015. Association for Computational Linguistics. 5, 12


[20] Michael Grimm, Kristian Kroschel et Shrikanth Narayanan. La base de données allemande de discours émotionnels audiovisuels Vera am Mittag. Dans ICME, pages 865 à 868. IEEE, 2008. 8


[21] Michael Gutmann et Aapo Hyvarinen. Estimation ¨ bruit-contraste : Un nouveau principe d'estimation pour les modèles statistiques non normalisés. Dans Actes de la treizième Conférence internationale sur l'intelligence artificielle et les statistiques, pages 297 à 304, 2010. 4


[22] Michael Hauge. La narration simplifiée : persuadez et transformez vos audiences, acheteurs et clients – simplement, rapidement et de manière rentable. Livres indépendants internationaux, 2017. 1, 3, 13


[23] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. Distiller les connaissances dans un réseau de neurones. Préimpression arXiv arXiv : 1503.02531, 2015. 2, 4


[24] Allez Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki et Kiyoharu Aizawa. Génération automatique de remorques. Dans Actes de la 18e conférence internationale ACM sur le multimédia, pages 839-842, 2010. 1, 2


[25] Eric Jang, Shixiang Gu et Ben Poole. Reparamétrisation catégorique avec gumble-softmax. Dans Conférence internationale sur les représentations de l’apprentissage (ICLR 2017), 2017.11


[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande et Patrick Riley. Convolutions de graphes moléculaires : aller au-delà des empreintes digitales. Journal de conception moléculaire assistée par ordinateur, 30(8):595-608, 2016. 3


[27] Hyounghun Kim, Zineng Tang et Mohit Bansal. Correspondance de Densecaption et déclenchement de sélection de trame pour la localisation temporelle dans videoqa. Dans Actes de la 58e réunion annuelle de l'Association for Computational Linguistics, pages 4812-4822, 2020. 3


[28] Thomas N. Kipf et Max Welling. Classification semi-supervisée avec réseaux convolutifs de graphes. Dans Conférence internationale sur les représentations de l’apprentissage (ICLR), 2017. 3


[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao et Shuzi Niu. Dailydialog : un ensemble de données de dialogue multi-tours étiqueté manuellement. Dans Actes de la huitième conférence internationale conjointe sur le traitement du langage naturel (Volume 1 : Articles longs), pages 986-995, 2017. 6


[30] David Lopez-Paz, Léon Bottou, Bernhard Sch'olkopf et ¨ Vladimir Vapnik. Distillation fédératrice et information privilégiée. Préimpression arXiv arXiv:1511.03643, 2015.2


[31] Jordan Louvière, TN Flynn et AAJ Marley. Meilleure pire mise à l'échelle : théorie, méthodes et applications. 01 2015. 8


[32] Chris J. Maddison, Andriy Mnih et Yee Whye Teh. La distribution concrète : Une relaxation continue de variables aléatoires discrètes. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, 24-26 avril 2017, Conference Track Proceedings, 2017.11


[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic et Andrew Zisserman. Apprentissage de bout en bout des représentations visuelles à partir de vidéos pédagogiques non organisées. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 9879-9889, 2020. 2


[34] Antoine Miech, Dimitri Joukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev et Josef Sivic. Howto100m : Apprendre une intégration texte-vidéo en regardant des centaines de millions de clips vidéo commentés. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, pages 2630-2640, 2019. 2


[35] Rada Mihalcea et Paul Tarau. Textrank : mettre de l'ordre dans le texte. Dans Actes de la conférence de 2004 sur les méthodes empiriques de traitement du langage naturel, pages 404 à 411, 2004. 7


[36] Cory S Myers et Lawrence R Rabiner. Une étude comparative de plusieurs algorithmes dynamiques de déformation temporelle pour la reconnaissance de mots connectés. Journal technique du système Bell, 60(7):1389-1409, 1981. 5


[37] Kenta Oono et Taiji Suzuki. Les réseaux de neurones graphiques perdent de manière exponentielle leur pouvoir d'expression pour la classification des nœuds. Dans Conférence internationale sur les représentations de l’apprentissage, 2019.12


[38] Aaron van den Oord, Yazhe Li et Oriol Vinyals. Apprentissage des représentations avec codage prédictif contrasté. Préimpression arXiv arXiv : 1807.03748, 2018. 4, 5, 11


[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli et Juan Carlos Niebles. Graphique spatio-temporel pour le sous-titrage vidéo avec distillation des connaissances. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 10870-10879, 2020. 4


[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann et Mirella Lapata. Résumé du scénario utilisant une structure narrative latente. Dans Actes de la 58e réunion annuelle de l'Association for Computational Linguistics, pages 1920-1933, 2020. 2


[41] Pinelopi Papalampidi, Frank Keller et Mirella Lapata. Analyse de l'intrigue du film via l'identification des tournants. Dans Actes de la Conférence 2019 sur les méthodes empiriques dans le traitement du langage naturel et de la 9e Conférence internationale conjointe sur le traitement du langage naturel (EMNLPIJCNLP), pages 1707-1717, 2019. 2, 3, 5, 6, 11, 12


[42] Pinelopi Papalampidi, Frank Keller et Mirella Lapata. Résumé du film via la construction de graphiques clairsemés. Dans la trente-cinquième conférence AAAI sur l'intelligence artificielle, 2021. 2, 3, 5, 6, 12


[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria et Rada Mihalcea. Meld : un ensemble de données multimodales multipartites pour la reconnaissance des émotions dans les conversations. Dans Actes de la 57e réunion annuelle de l'Association for Computational Linguistics, pages 527-536, 2019. 6


[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon et Bernt Schiele. Un ensemble de données pour la description du film. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 3202-3212, 2015.2


[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi et Hannaneh Hajishirzi. Flux d'attention bidirectionnel pour la compréhension de la machine. Dans Conférence internationale sur les représentations de l’apprentissage, 2017. 3


[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady et Gary Craig. Sélection automatique des plans pour les bandes-annonces de films d'action. Dans Actes du 8e atelier international de l'ACM sur la recherche d'informations multimédias, pages 231-238, 2006. 1, 2


[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu et Jozef Cota. Exploiter l’IA pour augmenter la créativité : application à la création de bandes-annonces de films. Dans Actes de la 25e conférence internationale ACM sur le multimédia, pages 1799-1808, 2017. 2, 7


[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang et Jingjing Liu. Distillation contrastive sur les représentations intermédiaires pour la compression des modèles de langage. Dans Actes de la Conférence 2020 sur les méthodes empiriques dans le traitement du langage naturel (EMNLP), pages 498 à 508, 2020. 4


[49] Makarand Tapaswi, Martin Bauml et Rainer Stiefelhagen. Book2movie : Alignement des scènes vidéo avec les chapitres de livres. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 1827-1835, 2015. 2


[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun et Sanja Fidler. Movieqa : Comprendre les histoires des films grâce aux questions-réponses. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 4631 à 4640, 2016.2


[51] Kristin Thompson. La narration dans le nouvel Hollywood : comprendre la technique narrative classique. Presse universitaire de Harvard, 1999. 1


[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser et Illia Polosukhin. L'attention est tout ce dont vous avez besoin. Dans Advances in neural information Processing Systems, pages 5998 à 6008, 2017.3


[53] Lezi Wang, Dong Liu, Rohit Puri et Dimitris N Metaxas. Apprendre des moments de bande-annonce dans des longs métrages avec une attention contrastée. Dans Conférence européenne sur la vision par ordinateur, pages 300 à 316. Springer, 2020. 1, 2, 7


[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo et Ross Girshick. Détectron2. https://github. com/facebookresearch/detectron2, 2019. 6


[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu et Dahua Lin. Apprentissage de fonctionnalités non supervisé via une discrimination d'instance non paramétrique. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 3733 à 3742, 2018. 4


[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu et ' Kaiming He. Transformations résiduelles agrégées pour les réseaux de neurones profonds. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 1492-1500, 2017. 6


[57] Hongteng Xu, Yi Zhen et Hongyuan Zha. Génération de bandes-annonces via un modèle d'attractivité visuelle basé sur un processus ponctuel. Dans Actes de la 24e Conférence internationale sur l'intelligence artificielle, pages 2198-2204, 2015. 2, 7


Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.