paint-brush
Geração de trailer de filme por meio de decomposição de tarefas: conclusões e referênciaspor@kinetograph

Geração de trailer de filme por meio de decomposição de tarefas: conclusões e referências

Muito longo; Para ler

Neste artigo, os pesquisadores modelam filmes como gráficos para gerar trailers, identificando a estrutura narrativa e prevendo o sentimento, superando os métodos supervisionados.
featured image - Geração de trailer de filme por meio de decomposição de tarefas: conclusões e referências
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.

Tabela de links

6. conclusões

Neste trabalho, propusemos uma abordagem de geração de trailers que adota uma representação de filmes baseada em gráficos e utiliza critérios interpretáveis para a seleção de tomadas. Também mostramos como informações privilegiadas de roteiros podem ser aproveitadas por meio de aprendizagem contrastiva, resultando em um modelo que pode ser usado para identificação de pontos de virada e geração de trailers. Os trailers gerados pelo nosso modelo foram avaliados favoravelmente em termos de conteúdo e atratividade.


No futuro, gostaríamos de nos concentrar em métodos para prever emoções refinadas (por exemplo, tristeza, ódio, terror, alegria) em filmes. Neste trabalho, consideramos o sentimento positivo/negativo como um substituto para as emoções, devido à ausência de conjuntos de dados rotulados no domínio. Esforços anteriores se concentraram em tweets [1], vídeos de opinião do Youtube [4], talkshows [20] e gravações de interações humanas [8]. Experimentos preliminares revelaram que a transferência de conhecimento emocional refinado de outros domínios para o nosso leva a previsões não confiáveis em comparação com o sentimento, que é mais estável e melhora o desempenho da geração de trailers. Os caminhos para trabalhos futuros incluem novos conjuntos de dados emocionais para filmes, bem como modelos de detecção de emoções baseados em pistas textuais e audiovisuais.

Referências

[1] Muhammad Abdul-Mageed e Lyle Ungar. EmoNet: detecção refinada de emoções com redes neurais recorrentes fechadas. Em Anais da 55ª Reunião Anual da Association for Computational Linguistics (Volume 1: Long Papers), páginas 718–728, Vancouver, Canadá, julho de 2017. Association for Computational Linguistics. 8


[2] Uri Alon e Eran Yahav. Sobre o gargalo das redes neurais de grafos e suas implicações práticas. Na Conferência Internacional sobre Representações de Aprendizagem, 2020. 12


[3] Jimmy Ba e Rico Caruana. As redes profundas realmente precisam ser profundas? Em Proceedings of the Advances in Neural Information Processing Systems, páginas 2654–2662, Montreal, Quebec, Canadá, 2014. 2, 4


[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria e Louis-Philippe Morency. Análise de linguagem multimodal em estado selvagem: conjunto de dados CMU-MOSEI e gráfico de fusão dinâmica interpretável. Em Anais da 56ª Reunião Anual da Association for Computational Linguistics (Volume 1: Long Papers), páginas 2236–2246, Melbourne, Austrália, julho de 2018. Association for Computational Linguistics. 8


[5] Max Bain, Arsha Nagrani, Andrew Brown e Andrew Zisserman. Filmes condensados: recuperação baseada em histórias com incorporações contextuais. Em Anais da Conferência Asiática sobre Visão Computacional, 2020. 2


[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge Pérez, ´ Juan Reutter e Juan Pablo Silva. A expressividade lógica das redes neurais gráficas. Na Conferência Internacional sobre Representações de Aprendizagem, 2019. 12


[7] Yoshua Bengio, Nicholas Leonard e Aaron Courville. ´ Estimativa ou propagação de gradientes através de neurônios estocásticos para computação condicional. Pré-impressão do arXiv arXiv:1308.3432, 2013. 11


[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt e Maja Pantic. O banco de dados de mimetismo MAHNOB: um banco de dados de interações humanas naturalísticas. Cartas de reconhecimento de padrões, 66:52–61, 2015. Reconhecimento de padrões na interação humano-computador. 8


[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee e Shrikanth S Narayanan. Iemocap: banco de dados interativo de captura de movimento diádico emocional. Recursos linguísticos e avaliação, 42(4):335, 2008. 6


[10] João Carreira e Andrew Zisserman. Quo vadis, reconhecimento de ação? um novo modelo e o conjunto de dados cinéticos. Em 2017, Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões (CVPR), páginas 4724–4733. Sociedade de Computação IEEE, 2017. 6


[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo e Vicente Ordonez. Moviescope: Análise em larga escala de filmes usando múltiplas modalidades. Pré-impressão do arXiv arXiv:1908.03180, 2019. 5


[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario GuajardoCespedes, Steve Yuan, Chris Tar, et al. Codificador de frase universal. Pré-impressão do arXiv arXiv:1803.11175, 2018. 6


[13] Corte de James E. Teoria narrativa e dinâmica do cinema popular. Psychonomic Bulletin and review, 23(6):1713–1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li e Li Fei-Fei. Imagenet: Um banco de dados de imagens hierárquicas em grande escala. Em 2009, conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 248–255. Sim, 2009. 6


[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik e Ryan P Adams. Redes convolucionais em gráficos para aprendizagem de impressões digitais moleculares. Avanços em Sistemas de Processamento de Informação Neural, 28:2224–2232, 2015.3


[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal e Marvin Ritter. Conjunto de áudio: uma ontologia e um conjunto de dados rotulados por humanos para eventos de áudio. Em 2017, Conferência Internacional IEEE sobre Acústica, Fala e Processamento de Sinais (ICASSP), páginas 776–780. IEEE, 2017. 6


[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea e Soujanya Poria. Cósmico: Conhecimento de senso comum para identificação de emoções em conversas. Em Anais da Conferência de 2020 sobre Métodos Empíricos em Processamento de Linguagem Natural: Resultados, páginas 2470–2481, 2020. 6 [18] Ross Girshick. R-cnn rápido. Em Anais da conferência internacional IEEE sobre visão computacional, páginas 1440–1448, 2015.6


[19]Philip John Gorinski e Mirella Lapata. Resumo de roteiro de filme como extração de cena baseada em gráfico. Em Anais da Conferência de 2015 do Capítulo Norte-Americano da Association for Computational Linguistics: Human Language Technologies, páginas 1066–1076, Denver, Colorado, maio-junho de 2015. Association for Computational Linguistics. 5, 12


[20] Michael Grimm, Kristian Kroschel e Shrikanth Narayanan. O banco de dados de fala emocional audiovisual alemão Vera am Mittag. No ICME, páginas 865–868. IEEE, 2008. 8


[21] Michael Gutmann e Aapo Hyvarinen. Estimativa ¨com contraste de ruído: Um novo princípio de estimativa para modelos estatísticos não normalizados. Em Anais da Décima Terceira Conferência Internacional sobre Inteligência Artificial e Estatística, páginas 297–304, 2010. 4


[22]Michael Hauge. Contação de histórias facilitada: convença e transforme seu público, compradores e clientes - de forma simples, rápida e lucrativa. Indie Books Internacional, 2017. 1, 3, 13


[23] Geoffrey Hinton, Oriol Vinyals e Jeff Dean. Destilando o conhecimento em uma rede neural. Pré-impressão do arXiv arXiv:1503.02531, 2015. 2, 4


[24] Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki e Kiyoharu Aizawa. Geração automática de reboques. Em Anais da 18ª Conferência Internacional ACM sobre Multimídia, páginas 839–842, 2010. 1, 2


[25] Eric Jang, Shixiang Gu e Ben Poole. Reparametrização categórica com gumble-softmax. Na Conferência Internacional sobre Representações de Aprendizagem (ICLR 2017), 2017. 11


[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande e Patrick Riley. Convoluções de gráficos moleculares: indo além das impressões digitais. Jornal de design molecular auxiliado por computador, 30(8):595–608, 2016.3


[27] Hyounghun Kim, Zineng Tang e Mohit Bansal. Correspondência de densidade e seleção de quadro para localização temporal em videoqa. Em Anais da 58ª Reunião Anual da Association for Computational Linguistics, páginas 4812–4822, 2020. 3


[28] Thomas N. Kipf e Max Welling. Classificação semissupervisionada com redes convolucionais de grafos. Na Conferência Internacional sobre Representações de Aprendizagem (ICLR), 2017. 3


[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao e Shuzi Niu. Dailydialog: um conjunto de dados de diálogo multiturno rotulado manualmente. Em Anais da Oitava Conferência Conjunta Internacional sobre Processamento de Linguagem Natural (Volume 1: Artigos Longos), páginas 986–995, 2017. 6


[30] David Lopez-Paz, Leon Bottou, Bernhard Sch´olkopf e ¨ Vladimir Vapnik. Unificando destilação e informações privilegiadas. Pré-impressão do arXiv arXiv:1511.03643, 2015. 2


[31] Jordan Louviere, TN Flynn e AAJ Marley. Melhor-pior escalonamento: Teoria, métodos e aplicações. 01 2015. 8


[32] Chris J. Maddison, Andriy Mnih e Yee Whye Teh. A distribuição concreta: um relaxamento contínuo de variáveis aleatórias discretas. Na 5ª Conferência Internacional sobre Representações de Aprendizagem, ICLR 2017, Toulon, França, 24 a 26 de abril de 2017, Conference Track Proceedings, 2017. 11


[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic e Andrew Zisserman. Aprendizagem ponta a ponta de representações visuais a partir de vídeos instrucionais sem curadoria. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 9879–9889, 2020. 2


[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev e Josef Sivic. Howto100m: Aprendendo a incorporar texto-vídeo assistindo a centenas de milhões de videoclipes narrados. Em Anais da Conferência Internacional IEEE/CVF sobre Visão Computacional, páginas 2630–2640, 2019. 2


[35] Rada Mihalcea e Paul Tarau. Textrank: Trazendo ordem ao texto. Em Anais da conferência de 2004 sobre métodos empíricos em processamento de linguagem natural, páginas 404–411, 2004. 7


[36] Cory S Myers e Lawrence R Rabiner. Um estudo comparativo de vários algoritmos dinâmicos de distorção temporal para reconhecimento de palavras conectadas. Jornal Técnico do Sistema Bell, 60(7):1389–1409, 1981.5


[37] Kenta Oono e Taiji Suzuki. Redes neurais de grafos perdem exponencialmente poder expressivo para classificação de nós. Na Conferência Internacional sobre Representações de Aprendizagem, 2019. 12


[38] Aaron van den Oord, Yazhe Li e Oriol Vinyals. Aprendizagem de representação com codificação preditiva contrastiva. pré-impressão arXiv arXiv:1807.03748, 2018. 4, 5, 11


[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli e Juan Carlos Niebles. Gráfico espaço-temporal para legendagem de vídeos com destilação de conhecimento. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 10870–10879, 2020. 4


[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann e Mirella Lapata. Resumo do roteiro utilizando estrutura narrativa latente. Em Anais da 58ª Reunião Anual da Association for Computational Linguistics, páginas 1920–1933, 2020. 2


[41] Pinelopi Papalampidi, Frank Keller e Mirella Lapata. Análise do enredo do filme através da identificação de pontos de viragem. Nos Anais da Conferência de 2019 sobre Métodos Empíricos em Processamento de Linguagem Natural e da 9ª Conferência Conjunta Internacional sobre Processamento de Linguagem Natural (EMNLPIJCNLP), páginas 1707–1717, 2019. 2, 3, 5, 6, 11, 12


[42] Pinelopi Papalampidi, Frank Keller e Mirella Lapata. Resumo de filmes por meio de construção de gráfico esparso. Na Trigésima Quinta Conferência AAAI sobre Inteligência Artificial, 2021. 2, 3, 5, 6, 12


[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria e Rada Mihalcea. Meld: um conjunto de dados multimodal multipartidário para reconhecimento de emoções em conversas. Em Anais da 57ª Reunião Anual da Association for Computational Linguistics, páginas 527–536, 2019. 6


[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon e Bernt Schiele. Um conjunto de dados para descrição de filmes. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 3202–3212, 2015.2


[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi e Hannaneh Hajishirzi. Fluxo de atenção bidirecional para compreensão da máquina. Na Conferência Internacional sobre Representações de Aprendizagem, 2017. 3


[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady e Gary Craig. Seleção automática de cenas para trailers de filmes de ação. Em Anais do 8º workshop internacional da ACM sobre recuperação de informação multimídia, páginas 231–238, 2006. 1, 2


[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu e Jozef Cota. Aproveitando a IA para aumentar a criatividade: aplicação para criação de trailers de filmes. Em Anais da 25ª Conferência Internacional ACM sobre Multimídia, páginas 1799–1808, 2017. 2, 7


[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang e Jingjing Liu. Destilação contrastiva em representações intermediárias para compressão de modelos de linguagem. Em Anais da Conferência de 2020 sobre Métodos Empíricos em Processamento de Linguagem Natural (EMNLP), páginas 498–508, 2020. 4


[49] Makarand Tapaswi, Martin Bauml e Rainer Stiefelhagen. Book2movie: Alinhando cenas de vídeo com capítulos de livros. Em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões, páginas 1827–1835, 2015. 2


[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun e Sanja Fidler. Movieqa: Compreendendo histórias em filmes por meio de respostas a perguntas. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 4631–4640, 2016.2


[51] Kristin Thompson. Contação de histórias na nova Hollywood: Compreendendo a técnica narrativa clássica. Imprensa da Universidade de Harvard, 1999. 1


[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. Atenção é tudo que você precisa. Em Avanços em sistemas de processamento de informações neurais, páginas 5998–6008, 2017.3


[53] Lezi Wang, Dong Liu, Rohit Puri e Dimitris N Metaxas. Aprendendo momentos de trailer em filmes completos com atenção contrastiva. Na Conferência Europeia sobre Visão Computacional, páginas 300–316. Springer, 2020. 1, 2, 7


[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo e Ross Girshick. Detectron2. https://github. com/facebookresearch/detectron2, 2019. 6


[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu e Dahua Lin. Aprendizagem não supervisionada de recursos por meio de discriminação não paramétrica de instâncias. Em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões, páginas 3733–3742, 2018. 4


[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu e ´ Kaiming He. Transformações residuais agregadas para redes neurais profundas. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 1492–1500, 2017.6


[57] Hongteng Xu, Yi Zhen e Hongyuan Zha. Geração de trailers por meio de um modelo de atratividade visual baseado em processo pontual. Em Anais da 24ª Conferência Internacional sobre Inteligência Artificial, páginas 2198–2204, 2015. 2, 7


Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.