paint-brush
通过任务分解生成电影预告片:结论与参考文献经过@kinetograph

通过任务分解生成电影预告片:结论与参考文献

太長; 讀書

在本文中,研究人员将电影建模为图形来生成预告片,识别叙事结构并预测情绪,超越了监督方法。
featured image - 通过任务分解生成电影预告片:结论与参考文献
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;

(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;

(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所

链接表

6。结论

在这项研究中,我们提出了一种预告片生成方法,该方法采用基于图形的电影表示,并使用可解释的标准来选择镜头。我们还展示了如何通过对比学习利用剧本中的特权信息,从而形成一个可用于转折点识别和预告片生成的模型。我们的模型生成的预告片在内容和吸引力方面都获得了好评。


未来,我们希望专注于预测电影中细粒度情绪(例如悲伤、厌恶、恐惧、喜悦)的方法。在这项工作中,由于缺乏领域内标记的数据集,我们将积极/消极情绪视为情绪的替代品。之前的努力主要集中在推文 [1]、Youtube 观点视频 [4]、脱口秀 [20] 和人类互动记录 [8] 上。初步实验表明,将其他领域的细粒度情绪知识转移到我们领域会导致不可靠的预测,而情绪则更稳定,可以提高预告片生成性能。未来工作的途径包括电影的新情绪数据集,以及基于文本和视听线索的情绪检测模型。

参考

[1] Muhammad Abdul-Mageed 和 Lyle Ungar。EmoNet:使用门控循环神经网络进行细粒度情绪检测。第 55 届计算语言学协会年会论文集(第 1 卷:长篇论文),第 718-728 页,加拿大温哥华,2017 年 7 月。计算语言学协会。8


[2] Uri Alon 和 Eran Yahav。论图神经网络的瓶颈及其实际意义。在 2020 年国际学习表征会议上。12


[3] Jimmy Ba 和 Rich Caruana。深度网络真的需要很深吗?《神经信息处理系统进展论文集》,第 2654-2662 页,加拿大魁北克省蒙特利尔,2014 年。2、4


[4] AmirAli Bagher Zadeh、Paul Pu Liang、Soujanya Poria、Erik Cambria 和 Louis-Philippe Morency。多模态语言分析:CMU-MOSEI 数据集和可解释动态融合图。第 56 届计算语言学协会年会论文集(第 1 卷:长篇论文),第 2236-2246 页,澳大利亚墨尔本,2018 年 7 月。计算语言学协会。8


[5] Max Bain、Arsha Nagrani、Andrew Brown 和 Andrew Zisserman。浓缩电影:基于故事的上下文嵌入检索。《亚洲计算机视觉会议论文集》,2020 年。2


[6] Pablo Barcelo、Egor V Kostylev、Mikael Monet、Jorge P ´ erez、Juan Reutter 和 Juan Pablo Silva。图神经网络的逻辑表达能力。国际学习表征会议,2019 年。12


[7] Yoshua Bengio、Nicholas Leonard 和 Aaron Courville。“通过随机神经元估计或传播梯度以进行条件计算。”arXiv 预印本 arXiv:1308.3432,2013 年。11


[8] Sanjay Bilakhia、Stavros Petridis、Anton Nijholt 和 Maja Pantic。MAHNOB 模仿数据库:自然人类互动数据库。Pattern Recognition Letters,66:52–61,2015 年。人机交互中的模式识别。8


[9] Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower、Samuel Kim、Jeannette N Chang、Sungbok Lee 和 Shrikanth S Narayanan。Iemocap:交互式情感二元动作捕捉数据库。语言资源与评估,42(4):335,2008 年。6


[10] Joao Carreira 和 Andrew Zisserman。Quo vadis,动作识别?一种新模型和动力学数据集。2017 年 IEEE 计算机视觉和模式识别会议 (CVPR),第 4724-4733 页。IEEE 计算机学会,2017 年。6


[11] Paola Cascante-Bonilla、Kalpathy Sitaraman、Mengjia Luo 和 Vicente Ordonez。Moviescope:使用多种模态对电影进行大规模分析。arXiv 预印本 arXiv:1908.03180,2019 年。5


[12] Daniel Cer、Yinfei Yang、Sheng-yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St John、Noah Constant、Mario GuajardoCespedes、Steve Yuan、Chris Tar 等人。通用句子编码器。arXiv 预印本 arXiv:1803.11175,2018 年。6


[13] James E Cutting. 叙事理论与流行电影的动态. Psychonomic Bulletin and review, 23(6):1713–1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, 和 Li Fei-Fei. Imagenet: 一个大规模分层图像数据库. 2009 年 IEEE 计算机视觉与模式识别会议, 第 248–255 页. Ieee, 2009. 6


[15] David K Duvenaud、Dougal Maclaurin、Jorge Iparraguirre、Rafael Bombarell、Timothy Hirzel、Alan Aspuru-Guzik 和 Ryan P Adams。用于学习分子指纹的图卷积网络。神经信息处理系统进展,28:2224–2232,2015 年。3


[16] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen、Wade Lawrence、R Channing Moore、Manoj Plakal 和 Marvin Ritter。音频集:音频事件的本体和人工标记数据集。2017 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),第 776-780 页。IEEE,2017 年。6


[17] Deepanway Ghosal、Navonil Majumder、Alexander Gelbukh、Rada Mihalcea 和 Soujanya Poria。《宇宙:对话中情绪识别的常识知识》。《2020 年自然语言处理经验方法会议论文集:发现》,第 2470-2481 页,2020 年。6 [18] Ross Girshick。《快速 r-cnn》。《IEEE 国际计算机视觉会议论文集》,第 1440-1448 页,2015 年。6


[19] Philip John Gorinski 和 Mirella Lapata。电影剧本摘要作为基于图形的场景提取。《计算语言学协会北美分会 2015 年会议论文集:人类语言技术》,第 1066–1076 页,科罗拉多州丹佛市,2015 年 5 月至 6 月。计算语言学协会。5、12


[20] Michael Grimm、Kristian Kroschel 和 Shrikanth Narayanan。Vera am Mittag 德国视听情感语音数据库。在 ICME,第 865-868 页。IEEE,2008 年。8


[21] Michael Gutmann 和 Aapo Hyvarinen。噪声对比估计:非正则化统计模型的新估计原理。《第十三届人工智能和统计学国际会议论文集》,第 297-304 页,2010 年。4


[22] Michael Hauge。《讲故事变得简单:说服并改变你的观众、买家和客户——简单、快速且有利可图》。Indie Books International,2017 年。1、3、13


[23] Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean。在神经网络中提炼知识。arXiv 预印本 arXiv:1503.02531,2015 年。2、4


[24] Go Irie、Takashi Satou、Akira Kojima、Toshihiko Yamasaki 和 Kiyoharu Aizawa。自动预告片生成。第 18 届 ACM 国际多媒体会议论文集,第 839-842 页,2010 年。1、2


[25] Eric Jang、Shixiang Gu 和 Ben Poole。使用 gumble-softmax 进行分类重参数化。国际学习表征会议 (ICLR 2017),2017 年。11


[26] Steven Kearnes、Kevin McCloskey、Marc Berndl、Vijay Pande 和 Patrick Riley。分子图卷积:超越指纹。计算机辅助分子设计杂志,30(8):595–608,2016 年。3


[27] Hyounghun Kim、Zineng Tang 和 Mohit Bansal。密集字幕匹配和帧选择门控用于 videoqa 中的时间定位。第 58 届计算语言学协会年会论文集,第 4812-4822 页,2020 年。3


[28] Thomas N. Kipf 和 Max Welling。使用图卷积网络进行半监督分类。国际学习表征会议 (ICLR),2017 年。3


[29] Yanran Li、Hui Su、Xiaoyu Shen、Wenjie Li、Ziqiang Cao 和 Shuzi Niu。Dailydialog:手动标记的多轮对话数据集。《第八届国际自然语言处理联合会议论文集》(第 1 卷:长篇论文),第 986-995 页,2017 年。6


[30] David Lopez-Paz、Leon Bottou、Bernhard Sch ´ olkopf 和 ¨ Vladimir Vapnik。统一提炼和特权信息。arXiv 预印本 arXiv:1511.03643,2015 年。2


[31] Jordan Louviere、TN Flynn 和 AAJ Marley。最佳-最差扩展:理论、方法和应用。2015 年 1 月。8


[32] Chris J. Maddison、Andriy Mnih 和 Yee Whye Teh。具体分布:离散随机变量的连续松弛。第五届国际学习表征会议 ICLR 2017,法国土伦,2017 年 4 月 24 日至 26 日,会议论文集,2017 年。11


[33] Antoine Miech、Jean-Baptiste Alayrac、Lucas Smaira、Ivan Laptev、Josef Sivic 和 Andrew Zisserman。未经整理的教学视频中的视觉表征端到端学习。IEEE/CVF 计算机视觉与模式识别会议论文集,第 9879–9889 页,2020 年。2


[34] Antoine Miech、Dimitri Zhukov、Jean-Baptiste Alayrac、Makarand Tapaswi、Ivan Laptev 和 Josef Sivic。Howto100m:通过观看一亿个带旁白的视频片段来学习文本视频嵌入。IEEE/CVF 国际计算机视觉会议论文集,第 2630-2640 页,2019 年。2


[35] Rada Mihalcea 和 Paul Tarau。Textrank:为文本带来秩序。2004 年自然语言处理实证方法会议论文集,第 404-411 页,2004 年。7


[36] Cory S Myers 和 Lawrence R Rabiner。《几种动态时间扭曲算法在连接词识别中的比较研究》。《贝尔系统技术期刊》,60(7):1389–1409,1981 年。5


[37] Kenta Oono 和 Taiji Suzuki。图神经网络在节点分类方面的表达能力呈指数级下降。国际学习表征会议,2019 年。12


[38] Aaron van den Oord、Yazhe Li 和 Oriol Vinyals。使用对比预测编码的表示学习。arXiv 预印本 arXiv:1807.03748,2018 年。4、5、11


[39] Boxiao Pan、Haoye Cai、De-An Huang、Kuan-Hui Lee、Adrien Gaidon、Ehsan Adeli 和 Juan Carlos Niebles。利用知识蒸馏实现视频字幕的时空图。IEEE/CVF 计算机视觉与模式识别会议论文集,第 10870-10879 页,2020 年。4


[40] Pinelopi Papalampidi、Frank Keller、Lea Frermann 和 Mirella Lapata。使用潜在叙事结构进行剧本总结。载于计算语言学协会第 58 届年会论文集,第 1920-1933 页,2020 年。2


[41] Pinelopi Papalampidi、Frank Keller 和 Mirella Lapata。通过转折点识别进行电影情节分析。2019 年自然语言处理实证方法会议和第 9 届国际自然语言处理联合会议 (EMNLPIJCNLP) 论文集,第 1707-1717 页,2019 年。2、3、5、6、11、12


[42] Pinelopi Papalampidi、Frank Keller 和 Mirella Lapata。通过稀疏图构造实现电影摘要。第三十五届 AAAI 人工智能会议,2021 年。2、3、5、6、12


[43] Soujanya Poria、Devamanyu Hazarika、Navonil Majumder、Gautam Naik、Erik Cambria 和 Rada Mihalcea。Meld:用于对话中情绪识别的多模态多方数据集。《计算语言学协会第 57 届年会论文集》,第 527–536 页,2019 年。6


[44] Anna Rohrbach、Marcus Rohrbach、Niket Tandon 和 Bernt Schiele。电影描述数据集。IEEE 计算机视觉和模式识别会议论文集,第 3202-3212 页,2015 年。2


[45] Minjoon Seo、Aniruddha Kembhavi、Ali Farhadi 和 Hannaneh Hajishirzi。机器理解的双向注意力流。国际学习表征会议,2017 年。3


[46] Alan F Smeaton、Bart Lehane、Noel E O'Connor、Conor Brady 和 Gary Craig。自动选择动作电影预告片的镜头。第 8 届 ACM 国际多媒体信息检索研讨会论文集,第 231-238 页,2006 年。1、2


[47] John R Smith、Dhiraj Joshi、Benoit Huet、Winston Hsu 和 Jozef Cota。利用人工智能增强创造力:应用于电影预告片创作。第 25 届 ACM 国际多媒体会议论文集,第 1799-1808 页,2017 年。2、7


[48] 孙思琪、甘哲、方宇伟、程宇、王硕航、刘菁菁。语言模型压缩中间表征的对比蒸馏。2020 年自然语言处理经验方法会议论文集(EMNLP),第 498-508 页,2020 年。4


[49] Makarand Tapaswi、Martin Bauml 和 Rainer Stiefelhagen。Book2movie:将视频场景与书籍章节对齐。IEEE 计算机视觉和模式识别会议论文集,第 1827-1835 页,2015 年。2


[50] Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun 和 Sanja Fidler。Movieqa:通过问答理解电影中的故事。IEEE 计算机视觉和模式识别会议论文集,第 4631-4640 页,2016 年。2


[51] Kristin Thompson。《新好莱坞的故事讲述:理解经典叙事技巧》。哈佛大学出版社,1999 年。1


[52] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser 和 Illia Polosukhin。注意力就是你所需要的一切。《神经信息处理系统进展》,第 5998-6008 页,2017 年。3


[53] Lezi Wang、Dong Liu、Rohit Puri 和 Dimitris N Metaxas。通过对比注意力机制学习完整电影中的预告片片段。欧洲计算机视觉会议,第 300-316 页。Springer,2020 年。1、2、7


[54] Yuxin Wu、Alexander Kirillov、Francisco Massa、Wan-Yen Lo 和 Ross Girshick。Detectron2。https://github. com/facebookresearch/detectron2,2019 年。6


[55] 吴志荣、熊元军、余志玲和林大华。通过非参数实例判别进行无监督特征学习。IEEE 计算机视觉与模式识别会议论文集,第 3733-3742 页,2018 年。4


[56] Saining Xie、Ross Girshick、Piotr Dollar、Zhuowen Tu 和 Kaiming He。深度神经网络的聚合残差变换。IEEE 计算机视觉和模式识别会议论文集,第 1492-1500 页,2017 年。6


[57] 徐宏腾、甄毅、查宏远。基于点过程的视觉吸引力模型生成预告片。第 24 届国际人工智能会议论文集,第 2198-2204 页,2015 年。2、7