Autores:
(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.
En este trabajo, propusimos un enfoque de generación de avances que adopta una representación de películas basada en gráficos y utiliza criterios interpretables para seleccionar tomas. También mostramos cómo se puede aprovechar la información privilegiada de los guiones mediante el aprendizaje contrastivo, lo que da como resultado un modelo que se puede utilizar para la identificación de puntos de inflexión y la generación de avances. Los trailers generados por nuestro modelo fueron evaluados favorablemente en términos de contenido y atractivo.
En el futuro nos gustaría centrarnos en métodos para predecir emociones detalladas (p. ej., pena, odio, terror, alegría) en las películas. En este trabajo, consideramos el sentimiento positivo/negativo como un sustituto de las emociones, debido a la ausencia de conjuntos de datos etiquetados en el dominio. Los esfuerzos anteriores se han centrado en tweets [1], vídeos de opinión de Youtube [4], programas de entrevistas [20] y grabaciones de interacciones humanas [8]. Los experimentos preliminares revelaron que transferir conocimiento emocional detallado de otros dominios al nuestro conduce a predicciones poco confiables en comparación con el sentimiento, que es más estable y mejora el rendimiento de la generación de avances. Las vías para el trabajo futuro incluyen nuevos conjuntos de datos de emociones para películas, así como modelos de detección de emociones basados en señales textuales y audiovisuales.
[1] Muhammad Abdul-Mageed y Lyle Ungar. EmoNet: Detección detallada de emociones con redes neuronales recurrentes cerradas. En Actas de la 55.ª reunión anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos), páginas 718–728, Vancouver, Canadá, julio de 2017. Asociación de Lingüística Computacional. 8
[2] Uri Alon y Eran Yahav. Sobre el cuello de botella de las redes neuronales gráficas y sus implicaciones prácticas. En Conferencia Internacional sobre Representaciones del Aprendizaje, 2020. 12
[3] Jimmy Ba y Rich Caruana. ¿Es necesario que las redes profundas sean realmente profundas? En Actas de los avances en sistemas de procesamiento de información neuronal, páginas 2654–2662, Montreal, Quebec, Canadá, 2014. 2, 4
[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria y Louis-Philippe Morency. Análisis de lenguaje multimodal en la naturaleza: conjunto de datos CMU-MOSEI y gráfico de fusión dinámica interpretable. En Actas de la 56.ª reunión anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos), páginas 2236–2246, Melbourne, Australia, julio de 2018. Asociación de Lingüística Computacional. 8
[5] Max Bain, Arsha Nagrani, Andrew Brown y Andrew Zisserman. Películas condensadas: recuperación basada en historias con incrustaciones contextuales. En Actas de la Conferencia Asiática sobre Visión por Computadora, 2020. 2
[6] Pablo Barceló, Egor V Kostylev, Mikael Monet, Jorge Pérez, Juan Reutter y Juan Pablo Silva. La expresividad lógica de las redes neuronales gráficas. En Conferencia Internacional sobre Representaciones del Aprendizaje, 2019. 12
[7] Yoshua Bengio, Nicholas Leonard y Aaron Courville. ´ Estimar o propagar gradientes a través de neuronas estocásticas para cálculo condicional. Preimpresión de arXiv arXiv:1308.3432, 2013. 11
[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt y Maja Pantic. La base de datos de mimetismo MAHNOB: una base de datos de interacciones humanas naturalistas. Cartas de reconocimiento de patrones, 66:52–61, 2015. Reconocimiento de patrones en la interacción persona-computadora. 8
[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee y Shrikanth S Narayanan. Iemocap: base de datos interactiva de captura de movimiento diádico emocional. Recursos lingüísticos y evaluación, 42(4):335, 2008. 6
[10] Joao Carreira y Andrew Zisserman. Quo vadis, ¿reconocimiento de la acción? un nuevo modelo y el conjunto de datos cinéticos. En la Conferencia IEEE de 2017 sobre visión por computadora y reconocimiento de patrones (CVPR), páginas 4724–4733. Sociedad de Computación IEEE, 2017. 6
[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo y Vicente Ordóñez. Moviescope: Análisis a gran escala de películas utilizando múltiples modalidades. Preimpresión de arXiv arXiv:1908.03180, 2019. 5
[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario Guajardo Céspedes, Steve Yuan, Chris Tar, et al. Codificador de frases universal. Preimpresión de arXiv arXiv:1803.11175, 2018. 6
[13] Corte de James E. Teoría narrativa y dinámica del cine popular. Psychonomic Bulletin and review, 23(6):1713– 1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li y Li Fei-Fei. Imagenet: una base de datos de imágenes jerárquica a gran escala. En la conferencia del IEEE de 2009 sobre visión por computadora y reconocimiento de patrones, páginas 248–255. EEE, 2009. 6
[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik y Ryan P Adams. Redes convolucionales sobre gráficos para el aprendizaje de huellas dactilares moleculares. Avances en los sistemas de procesamiento de información neuronal, 28:2224–2232, 2015.3
[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal y Marvin Ritter. Conjunto de audio: un conjunto de datos con etiqueta humana y ontología para eventos de audio. En la Conferencia Internacional IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP) de 2017, páginas 776–780. IEEE, 2017. 6
[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea y Soujanya Poria. Cósmico: Conocimiento de sentido común para la identificación de emociones en conversaciones. En Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: hallazgos, páginas 2470–2481, 2020. 6 [18] Ross Girshick. R-cnn rápido. En Actas de la conferencia internacional IEEE sobre visión por computadora, páginas 1440–1448, 2015. 6
[19] Philip John Gorinski y Mirella Lapata. Resumen de guiones de películas como extracción de escenas basada en gráficos. En Actas de la Conferencia de 2015 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, páginas 1066–1076, Denver, Colorado, mayo-junio de 2015. Asociación de Lingüística Computacional. 5, 12
[20] Michael Grimm, Kristian Kroschel y Shrikanth Narayanan. La base de datos alemana de discurso emocional audiovisual de Vera am Mittag. En ICME, páginas 865–868. IEEE, 2008. 8
[21] Michael Gutmann y Aapo Hyvarinen. Estimación ¨contrastiva de ruido: un nuevo principio de estimación para modelos estadísticos no normalizados. En Actas de la Decimotercera Conferencia Internacional sobre Inteligencia Artificial y Estadísticas, páginas 297–304, 2010. 4
[22] Michael Hauge. Contar historias de forma sencilla: persuada y transforme a sus audiencias, compradores y clientes de forma sencilla, rápida y rentable. Libros independientes internacionales, 2017. 1, 3, 13
[23] Geoffrey Hinton, Oriol Vinyals y Jeff Dean. Destilando el conocimiento en una red neuronal. Preimpresión de arXiv arXiv:1503.02531, 2015. 2, 4
[24] Vaya Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki y Kiyoharu Aizawa. Generación automática de remolques. En Actas de la 18.ª conferencia internacional ACM sobre multimedia, páginas 839–842, 2010. 1, 2
[25] Eric Jang, Shixiang Gu y Ben Poole. Reparametrización categórica con gumble-softmax. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR 2017), 2017. 11
[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande y Patrick Riley. Convoluciones de gráficos moleculares: más allá de las huellas dactilares. Revista de diseño molecular asistido por computadora, 30(8):595–608, 2016.3
[27] Hyounghun Kim, Zineng Tang y Mohit Bansal. Coincidencia de denscaption y activación de selección de fotogramas para localización temporal en videoqa. En Actas de la 58.ª Reunión Anual de la Asociación de Lingüística Computacional, páginas 4812–4822, 2020.3
[28] Thomas N. Kipf y Max Welling. Clasificación semisupervisada con redes convolucionales de gráficos. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR), 2017. 3
[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao y Shuzi Niu. Dailydialog: un conjunto de datos de diálogo de varios turnos etiquetado manualmente. En Actas de la Octava Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (Volumen 1: Artículos extensos), páginas 986–995, 2017. 6
[30] David López-Paz, León Bottou, Bernhard Sch´olkopf y ¨ Vladimir Vapnik. Destilación unificadora e información privilegiada. Preimpresión de arXiv arXiv:1511.03643, 2015. 2
[31] Jordan Louviere, TN Flynn y AAJ Marley. Mejor-peor escalamiento: teoría, métodos y aplicaciones. 01 2015. 8
[32] Chris J. Maddison, Andriy Mnih y Yee Whye Teh. La distribución concreta: una relajación continua de variables aleatorias discretas. En 5ta Conferencia Internacional sobre Representaciones del Aprendizaje, ICLR 2017, Toulon, Francia, 24 al 26 de abril de 2017, Conference Track Proceedings, 2017. 11
[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic y Andrew Zisserman. Aprendizaje de principio a fin de representaciones visuales a partir de videos instructivos no seleccionados. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 9879–9889, 2020. 2
[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev y Josef Sivic. Howto100m: aprender a incrustar texto y video viendo cientos de millones de videoclips narrados. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora, páginas 2630–2640, 2019. 2
[35] Rada Mihalcea y Paul Tarau. Textrank: Poner orden en el texto. En Actas de la conferencia de 2004 sobre métodos empíricos en el procesamiento del lenguaje natural, páginas 404–411, 2004. 7
[36] Cory S Myers y Lawrence R Rabiner. Un estudio comparativo de varios algoritmos dinámicos de distorsión del tiempo para el reconocimiento de palabras conectadas. Revista técnica de Bell System, 60(7):1389–1409, 1981. 5
[37] Kenta Oono y Taiji Suzuki. Las redes neuronales gráficas pierden exponencialmente poder expresivo para la clasificación de nodos. En Conferencia Internacional sobre Representaciones del Aprendizaje, 2019. 12
[38] Aaron van den Oord, Yazhe Li y Oriol Vinyals. Aprendizaje de representación con codificación predictiva contrastiva. Preimpresión de arXiv arXiv:1807.03748, 2018. 4, 5, 11
[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli y Juan Carlos Niebles. Gráfico espacio-temporal para subtítulos de vídeos con destilación de conocimientos. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 10870–10879, 2020.4
[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann y Mirella Lapata. Resumen de guiones utilizando estructura narrativa latente. En Actas de la 58.ª Reunión Anual de la Asociación de Lingüística Computacional, páginas 1920-1933, 2020.2
[41] Pinelopi Papalampidi, Frank Keller y Mirella Lapata. Análisis de la trama de la película mediante la identificación de puntos de inflexión. En Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9.ª Conferencia conjunta internacional sobre procesamiento del lenguaje natural (EMNLPIJCNLP), páginas 1707–1717, 2019. 2, 3, 5, 6, 11, 12
[42] Pinelopi Papalampidi, Frank Keller y Mirella Lapata. Resumen de películas mediante construcción de gráficos dispersos. En Trigésima Quinta Conferencia AAAI sobre Inteligencia Artificial, 2021. 2, 3, 5, 6, 12
[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria y Rada Mihalcea. Meld: un conjunto de datos multimodal y multipartito para el reconocimiento de emociones en conversaciones. En Actas de la 57.ª Reunión Anual de la Asociación de Lingüística Computacional, páginas 527 a 536, 2019. 6
[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon y Bernt Schiele. Un conjunto de datos para la descripción de la película. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3202–3212, 2015. 2
[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi y Hannaneh Hajishirzi. Flujo de atención bidireccional para la comprensión de las máquinas. En Conferencia Internacional sobre Representaciones del Aprendizaje, 2017. 3
[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady y Gary Craig. Selección automática de tomas para avances de películas de acción. En Actas del octavo taller internacional de ACM sobre recuperación de información multimedia, páginas 231–238, 2006. 1, 2
[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu y Jozef Cota. Aprovechar la IA para aumentar la creatividad: aplicación a la creación de avances de películas. En Actas de la 25ª conferencia internacional ACM sobre multimedia, páginas 1799–1808, 2017. 2, 7
[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang y Jingjing Liu. Destilación contrastiva de representaciones intermedias para la compresión de modelos de lenguaje. En Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), páginas 498–508, 2020.4
[49] Makarand Tapaswi, Martin Bauml y Rainer Stiefelhagen. Book2movie: Alinear escenas de vídeo con capítulos de libros. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 1827–1835, 2015. 2
[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun y Sanja Fidler. Movieqa: comprensión de historias de películas a través de preguntas y respuestas. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 4631–4640, 2016. 2
[51] Kristin Thompson. Contar historias en el nuevo Hollywood: comprensión de la técnica narrativa clásica. Prensa de la Universidad de Harvard, 1999. 1
[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. Atención es todo lo que necesitas. En Avances en sistemas de procesamiento de información neuronal, páginas 5998–6008, 2017.3
[53] Lezi Wang, Dong Liu, Rohit Puri y Dimitris N Metaxas. Aprendiendo momentos de avances en películas de larga duración con atención cocontrastiva. En Conferencia europea sobre visión por computadora, páginas 300–316. Springer, 2020. 1, 2, 7
[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo y Ross Girshick. Detectrón2. https://github. com/facebookresearch/detectron2, 2019. 6
[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu y Dahua Lin. Aprendizaje de funciones no supervisado mediante discriminación de instancias no paramétrica. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3733–3742, 2018. 4
[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu y ´ Kaiming He. Transformaciones residuales agregadas para redes neuronales profundas. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 1492–1500, 2017. 6
[57] Hongteng Xu, Yi Zhen y Hongyuan Zha. Generación de tráilers a través de un modelo de atractivo visual basado en procesos puntuales. En Actas de la 24.ª Conferencia Internacional sobre Inteligencia Artificial, páginas 2198–2204, 2015. 2, 7
Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.