Jan 01, 1970
作者:
(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;
(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;
(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所
以往的电影理解方法主要侧重于孤立的视频片段,以及诸如电影场景与书籍章节之间的对齐 [49]、问答 [50]、电影镜头的视频字幕 [44] 和文本到视频的检索 [5] 等任务。最近的研究 [40–42] 试图识别高级叙事结构并总结整部电视剧集和电影,重点关注文本模态(即剧本)。
现有的预告片生成方法利用了表面的视听特征,例如背景音乐或连续镜头之间的视觉变化 [24, 46]。其他研究使用基于图形的镜头选择模型 [57] 来创建“吸引人的”预告片,或使用人工参与,结合通过视听情绪分析在恐怖电影上训练的模型 [47]。预告片时刻检测数据集 [53] 包括完整电影、官方预告片和关键时刻的注释,但它不对外开放,也不包括剧本。
知识蒸馏[3, 23] 最初被提出用于将信息从较大的教师模型蒸馏到较小的学生模型。广义蒸馏 [30] 提供了一个使用特权信息的框架,即仅在训练时可用的信息。与我们的工作最相关的是使用相同内容的不同模态或视图 [33, 34],例如,转录旁白以学习教学视频中的视觉表征。我们利用剧本作为特权信息的来源,并提炼有关电影中事件、角色和场景的知识,随后我们利用这些知识来识别视频中值得制作预告片的镜头。