Autoren:
(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.
In dieser Arbeit haben wir einen Ansatz zur Trailer-Generierung vorgeschlagen, der eine graphenbasierte Darstellung von Filmen verwendet und interpretierbare Kriterien für die Auswahl von Aufnahmen nutzt. Wir zeigen auch, wie privilegierte Informationen aus Drehbüchern durch kontrastives Lernen genutzt werden können, was zu einem Modell führt, das zur Erkennung von Wendepunkten und zur Trailer-Generierung verwendet werden kann. Die von unserem Modell generierten Trailer wurden hinsichtlich ihres Inhalts und ihrer Attraktivität positiv beurteilt.
In Zukunft möchten wir uns auf Methoden zur Vorhersage feinkörniger Emotionen (z. B. Trauer, Abscheu, Angst, Freude) in Filmen konzentrieren. In dieser Arbeit betrachten wir positive/negative Stimmungen als Ersatz für Emotionen, da es keine domänenspezifischen Datensätze gibt. Frühere Bemühungen konzentrierten sich auf Tweets [1], Meinungsvideos auf YouTube [4], Talkshows [20] und Aufzeichnungen menschlicher Interaktionen [8]. Vorläufige Experimente zeigten, dass die Übertragung feinkörnigen Emotionswissens aus anderen Domänen in unsere zu unzuverlässigen Vorhersagen führt, verglichen mit Stimmungen, die stabiler sind und die Leistung der Trailer-Generierung verbessern. Zu den Möglichkeiten zukünftiger Arbeiten gehören neue Emotionsdatensätze für Filme sowie Emotionserkennungsmodelle auf der Grundlage von Text- und audiovisuellen Hinweisen.
[1] Muhammad Abdul-Mageed und Lyle Ungar. EmoNet: Feinkörnige Emotionserkennung mit gated recurrent neural networks. In Proceedings der 55. Jahrestagung der Association for Computational Linguistics (Band 1: Long Papers), Seiten 718–728, Vancouver, Kanada, Juli 2017. Association for Computational Linguistics. 8
[2] Uri Alon und Eran Yahav. Über den Engpass von Graph-Neural-Netzwerken und seine praktischen Auswirkungen. In International Conference on Learning Representations, 2020. 12
[3] Jimmy Ba und Rich Caruana. Müssen tiefe Netze wirklich tief sein? In Proceedings of the Advances in Neural Information Processing Systems, Seiten 2654–2662, Montreal, Quebec, Kanada, 2014. 2, 4
[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria und Louis-Philippe Morency. Multimodale Sprachanalyse in der Praxis: CMU-MOSEI-Datensatz und interpretierbarer dynamischer Fusionsgraph. In Proceedings der 56. Jahrestagung der Association for Computational Linguistics (Band 1: Lange Beiträge), Seiten 2236–2246, Melbourne, Australien, Juli 2018. Association for Computational Linguistics. 8
[5] Max Bain, Arsha Nagrani, Andrew Brown und Andrew Zisserman. Kondensierte Filme: Story-basiertes Abrufen mit kontextuellen Einbettungen. In Proceedings der Asian Conference on Computer Vision, 2020. 2
[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge P ´ erez, ´ Juan Reutter und Juan Pablo Silva. Die logische Ausdruckskraft von Graph-Neural-Netzwerken. In International Conference on Learning Representations, 2019. 12
[7] Yoshua Bengio, Nicholas Leonard und Aaron Courville. ´ Schätzung oder Ausbreitung von Gradienten durch stochastische Neuronen für bedingte Berechnungen. arXiv-Preprint arXiv:1308.3432, 2013. 11
[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt und Maja Pantic. Die MAHNOB-Mimikry-Datenbank: Eine Datenbank naturalistischer menschlicher Interaktionen. Pattern Recognition Letters, 66:52–61, 2015. Mustererkennung in der Mensch-Computer-Interaktion. 8
[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee und Shrikanth S Narayanan. Iemocap: Interaktive Datenbank zur emotionalen dyadischen Bewegungserfassung. Sprachressourcen und -bewertung, 42(4):335, 2008. 6
[10] Joao Carreira und Andrew Zisserman. Quo vadis, Aktionserkennung? Ein neues Modell und der Kinetik-Datensatz. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seiten 4724–4733. IEEE Computer Society, 2017. 6
[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo und Vicente Ordonez. Moviescope: Groß angelegte Analyse von Filmen unter Verwendung mehrerer Modalitäten. arXiv-Preprint arXiv:1908.03180, 2019. 5
[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario GuajardoCespedes, Steve Yuan, Chris Tar, et al. Universal sentence encoder. arXiv preprint arXiv:1803.11175, 2018. 6
[13] James E Cutting. Narrative Theorie und die Dynamik populärer Filme. Psychonomic Bulletin and Review, 23(6):1713– 1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li und Li Fei-Fei. Imagenet: Eine groß angelegte hierarchische Bilddatenbank. 2009 IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 248–255. Ieee, 2009. 6
[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik und Ryan P Adams. Faltungsnetzwerke auf Graphen zum Erlernen molekularer Fingerabdrücke. Advances in Neural Information Processing Systems, 28:2224–2232, 2015. 3
[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal und Marvin Ritter. Audioset: Eine Ontologie und ein von Menschen beschrifteter Datensatz für Audioereignisse. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seiten 776–780. IEEE, 2017. 6
[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea und Soujanya Poria. Cosmic: Commonsense-Wissen zur Emotionserkennung in Gesprächen. In Proceedings der 2020 Conference on Empirical Methods in Natural Language Processing: Findings, Seiten 2470–2481, 2020. 6 [18] Ross Girshick. Fast r-cnn. In Proceedings der IEEE-International-Konferenz zum Thema Computer Vision, Seiten 1440–1448, 2015. 6
[19] Philip John Gorinski und Mirella Lapata. Zusammenfassung von Filmskripten als graphenbasierte Szenenextraktion. In Proceedings der Konferenz 2015 des nordamerikanischen Kapitels der Association for Computational Linguistics: Human Language Technologies, Seiten 1066–1076, Denver, Colorado, Mai–Juni 2015. Association for Computational Linguistics. 5, 12
[20] Michael Grimm, Kristian Kroschel und Shrikanth Narayanan. Die deutschsprachige audiovisuelle emotionale Sprachdatenbank „Vera am Mittag“. In ICME, Seiten 865–868. IEEE, 2008. 8
[21] Michael Gutmann und Aapo Hyvarinen. Noise-contrastive ¨ estimation: Ein neues Schätzprinzip für nicht normalisierte statistische Modelle. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, Seiten 297–304, 2010. 4
[22] Michael Hauge. Storytelling leicht gemacht: Überzeugen und transformieren Sie Ihr Publikum, Ihre Käufer und Kunden – einfach, schnell und gewinnbringend. Indie Books International, 2017. 1, 3, 13
[23] Geoffrey Hinton, Oriol Vinyals und Jeff Dean. Destillation des Wissens in einem neuronalen Netzwerk. arXiv Preprint arXiv:1503.02531, 2015. 2, 4
[24] Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki und Kiyoharu Aizawa. Automatische Trailergenerierung. In Proceedings der 18. ACM-Internationalkonferenz zu Multimedia, Seiten 839–842, 2010. 1, 2
[25] Eric Jang, Shixiang Gu und Ben Poole. Kategorische Reparametrisierung mit Gumble-Softmax. In International Conference on Learning Representations (ICLR 2017), 2017. 11
[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande und Patrick Riley. Molekulare Graphenfaltungen: Über Fingerabdrücke hinaus. Journal of computer-aided molecular design, 30(8):595–608, 2016. 3
[27] Hyounghun Kim, Zineng Tang und Mohit Bansal. Densecaption-Matching und Frame-Selection-Gating zur zeitlichen Lokalisierung in Videoqa. In Proceedings der 58. Jahrestagung der Association for Computational Linguistics, Seiten 4812–4822, 2020. 3
[28] Thomas N. Kipf und Max Welling. Halbüberwachte Klassifizierung mit Graph-Convolutional-Netzwerken. In International Conference on Learning Representations (ICLR), 2017. 3
[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao und Shuzi Niu. Dailydialog: Ein manuell beschrifteter Multi-Turn-Dialogdatensatz. In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Band 1: Lange Beiträge), Seiten 986–995, 2017. 6
[30] David Lopez-Paz, Leon Bottou, Bernhard Sch ´ olkopf, und ¨ Vladimir Vapnik. Unifying distillation and privileged information. arXiv preprint arXiv:1511.03643, 2015. 2
[31] Jordan Louviere, TN Flynn und AAJ Marley. Best-Worst-Skalierung: Theorie, Methoden und Anwendungen. 01 2015. 8
[32] Chris J. Maddison, Andriy Mnih und Yee Whye Teh. Die konkrete Verteilung: Eine kontinuierliche Relaxation diskreter Zufallsvariablen. In 5. Internationale Konferenz über Lernrepräsentationen, ICLR 2017, Toulon, Frankreich, 24.-26. April 2017, Conference Track Proceedings, 2017. 11
[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic und Andrew Zisserman. End-to-End-Lernen visueller Darstellungen aus unkuratierten Lehrvideos. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 9879– 9889, 2020. 2
[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev und Josef Sivic. Howto100m: Lernen einer Text-Video-Einbettung durch das Ansehen von hundert Millionen kommentierten Videoclips. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seiten 2630–2640, 2019. 2
[35] Rada Mihalcea und Paul Tarau. Textrank: Ordnung in Text bringen. In Proceedings der Konferenz 2004 über empirische Methoden in der Verarbeitung natürlicher Sprache, Seiten 404–411, 2004. 7
[36] Cory S Myers und Lawrence R Rabiner. Eine vergleichende Studie mehrerer dynamischer Time-Warping-Algorithmen zur Erkennung verbundener Wörter. Bell System Technical Journal, 60(7):1389–1409, 1981. 5
[37] Kenta Oono und Taiji Suzuki. Graph-Neural-Networks verlieren exponentiell an Ausdruckskraft bei der Knotenklassifizierung. In International Conference on Learning Representations, 2019. 12
[38] Aaron van den Oord, Yazhe Li und Oriol Vinyals. Repräsentationslernen mit kontrastiver prädiktiver Kodierung. arXiv-Preprint arXiv:1807.03748, 2018. 4, 5, 11
[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli und Juan Carlos Niebles. Räumlich-zeitlicher Graph für Videountertitelung mit Wissensdestillation. In Proceedings der IEEE/CVF-Konferenz über Computer Vision und Mustererkennung, Seiten 10870–10879, 2020. 4
[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann und Mirella Lapata. Drehbuchzusammenfassung unter Verwendung latenter Erzählstruktur. In Proceedings der 58. Jahrestagung der Association for Computational Linguistics, Seiten 1920–1933, 2020. 2
[41] Pinelopi Papalampidi, Frank Keller und Mirella Lapata. Filmhandlungsanalyse durch Wendepunktidentifizierung. In Proceedings der Konferenz 2019 über empirische Methoden in der Verarbeitung natürlicher Sprache und der 9. Internationalen gemeinsamen Konferenz über Verarbeitung natürlicher Sprache (EMNLPIJCNLP), Seiten 1707–1717, 2019. 2, 3, 5, 6, 11, 12
[42] Pinelopi Papalampidi, Frank Keller und Mirella Lapata. Filmzusammenfassung durch spärliche Graphenkonstruktion. In der fünfunddreißigsten AAAI-Konferenz über künstliche Intelligenz, 2021. 2, 3, 5, 6, 12
[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria und Rada Mihalcea. Meld: Ein multimodaler Mehrparteien-Datensatz zur Emotionserkennung in Gesprächen. In Proceedings der 57. Jahrestagung der Association for Computational Linguistics, Seiten 527– 536, 2019. 6
[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon und Bernt Schiele. Ein Datensatz zur Filmbeschreibung. In Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, Seiten 3202–3212, 2015. 2
[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi und Hannaneh Hajishirzi. Bidirektionaler Aufmerksamkeitsfluss für maschinelles Verständnis. In International Conference on Learning Representations, 2017. 3
[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady und Gary Craig. Automatische Auswahl von Aufnahmen für Actionfilm-Trailer. In Proceedings des 8. ACM-International-Workshops zum Thema Multimedia-Informationsabruf, Seiten 231–238, 2006. 1, 2
[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu und Jozef Cota. Nutzung von KI zur Steigerung der Kreativität: Anwendung bei der Erstellung von Filmtrailern. In Proceedings der 25. ACM-Internationalkonferenz zu Multimedia, Seiten 1799–1808, 2017. 2, 7
[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang und Jingjing Liu. Kontrastive Destillation von Zwischendarstellungen zur Sprachmodellkomprimierung. In Proceedings der 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Seiten 498–508, 2020. 4
[49] Makarand Tapaswi, Martin Bauml und Rainer Stiefelhagen. Book2movie: Aneinanderreihung von Videoszenen an Buchkapitel. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1827–1835, 2015. 2
[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun und Sanja Fidler. Movieqa: Geschichten in Filmen durch Fragen und Antworten verstehen. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 4631–4640, 2016. 2
[51] Kristin Thompson. Geschichtenerzählen im neuen Hollywood: Das Verständnis klassischer Erzähltechnik. Harvard University Press, 1999. 1
[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser und Illia Polosukhin. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in neural information processing systems, Seiten 5998–6008, 2017. 3
[53] Lezi Wang, Dong Liu, Rohit Puri und Dimitris N Metaxas. Lernen von Trailermomenten in abendfüllenden Filmen mit kokontrastiver Aufmerksamkeit. In European Conference on Computer Vision, Seiten 300–316. Springer, 2020. 1, 2, 7
[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo und Ross Girshick. Detectron2. https://github. com/facebookresearch/detectron2, 2019. 6
[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu und Dahua Lin. Unüberwachtes Merkmalslernen durch nichtparametrische Instanzunterscheidung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 3733– 3742, 2018. 4
[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu und ´ Kaiming He. Aggregierte Residualtransformationen für tiefe neuronale Netzwerke. In Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, Seiten 1492–1500, 2017. 6
[57] Hongteng Xu, Yi Zhen und Hongyuan Zha. Trailer-Generierung über ein punktprozessbasiertes visuelles Attraktivitätsmodell. In Proceedings der 24. Internationalen Konferenz für Künstliche Intelligenz, Seiten 2198–2204, 2015. 2, 7
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-SA 4.0 DEED verfügbar .