通过任务分解生成电影预告片：相关工作

经过 Kinetograph: The Video Editing Technology Publication2m2024/06/07

太長; 讀書

在本文中，研究人员将电影建模为图形来生成预告片，识别叙事结构并预测情绪，超越了监督方法。

作者：

（1）Pinelopi Papalampidi，爱丁堡大学信息学院语言、认知和计算研究所；

（2）弗兰克·凯勒，英国爱丁堡大学信息学院语言、认知和计算研究所；

（3）米雷拉·拉帕塔（Mirella Lapata），爱丁堡大学信息学院语言、认知和计算研究所

链接表

2.相关工作

以往的电影理解方法主要侧重于孤立的视频片段，以及诸如电影场景与书籍章节之间的对齐 [49]、问答 [50]、电影镜头的视频字幕 [44] 和文本到视频的检索 [5] 等任务。最近的研究 [40–42] 试图识别高级叙事结构并总结整部电视剧集和电影，重点关注文本模态（即剧本）。

现有的预告片生成方法利用了表面的视听特征，例如背景音乐或连续镜头之间的视觉变化 [24, 46]。其他研究使用基于图形的镜头选择模型 [57] 来创建“吸引人的”预告片，或使用人工参与，结合通过视听情绪分析在恐怖电影上训练的模型 [47]。预告片时刻检测数据集 [53] 包括完整电影、官方预告片和关键时刻的注释，但它不对外开放，也不包括剧本。

知识蒸馏[3, 23] 最初被提出用于将信息从较大的教师模型蒸馏到较小的学生模型。广义蒸馏 [30] 提供了一个使用特权信息的框架，即仅在训练时可用的信息。与我们的工作最相关的是使用相同内容的不同模态或视图 [33, 34]，例如，转录旁白以学习教学视频中的视觉表征。我们利用剧本作为特权信息的来源，并提炼有关电影中事件、角色和场景的知识，随后我们利用这些知识来识别视频中值得制作预告片的镜头。