作者:
(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;
(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;
(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所
电影预告片具有多种功能:向观众介绍故事情节、传达电影的氛围和艺术风格,并鼓励观众观看电影。这些不同的功能使自动生成预告片成为一项具有挑战性的任务。我们将其分解为两个子任务:叙事结构识别和情绪预测。我们将电影建模为图形,其中节点是镜头,边表示它们之间的语义关系。我们使用联合对比训练来学习这些关系,该训练利用剧本中的特权文本信息(例如,角色、动作、情况)。然后,无监督算法遍历该图并生成人类评委更喜欢的预告片,而不是通过竞争性监督方法生成的预告片。
预告片是用于宣传电影的短片,通常对商业成功至关重要。虽然预告片的核心功能是向各种观众推销电影,但它也是一种具有说服力的艺术和宣传叙事,旨在让观众想看电影。尽管制作预告片被认为是一项艺术工作,但电影业已经制定了指导预告片制作的策略。根据一种观点,预告片必须展现一种叙事结构,由三幕组成[1]。第一幕确定人物和故事背景,第二幕介绍主要冲突,第三幕提高赌注并提供结局的预告片。另一种观点更关注预告片的情绪,即故事的跌宕起伏[2]。根据这种方法,预告片一开始应该有中等强度,以吸引观众,然后是低强度,以传递故事的关键信息,然后逐渐增加强度,直到预告片结束时达到高潮。
为了自动制作预告片,我们需要执行人物识别、动作识别和情绪预测等低级任务,还需要执行更高级的任务,例如理解事件之间的联系及其因果关系,以及推断人物及其行为。考虑到任务的复杂性,直接从电影预告片对中学习所有这些知识将需要数千个示例,而这些示例的处理和注释将是一项挑战。因此,以前的自动预告片生成方法 [24,46,53] 仅关注视听特征也就不足为奇了。
受人类编辑的创作过程的启发,我们采用自下而上的方法来生成预告片,将其分解为两个正交、更简单且定义明确的子任务。第一个子任务是识别叙事结构,即检索电影中最重要的事件。编剧中常用的理论 [13,22,51] 认为电影情节中有五种关键事件,称为转折点(TP;参见图 1 中的定义)。第二个子任务是情绪预测,我们将其视为镜头之间强度流和所引起的情绪的近似值。
我们采用基于图的无监督方法生成预告片提案。我们将电影建模为图,其节点为镜头,其边表示镜头之间的重要语义联系(见图 2)。此外,节点带有标签,表示它们是否是关键事件(即 TP),以及表示情绪强度(正面或负面)的分数。我们的算法遍历此电影图以创建预告片序列。这些可以用作人工编辑审查和修改的提案。
TP 识别和情绪预测这两个任务都可以从对电影内容的较低层次理解中受益。事实上,我们可以使用现成的模块来识别角色和地点、识别动作和定位语义单元。然而,这种方法在训练和推理过程中大大增加了预处理时间和内存需求,并且容易受到错误传播的影响。相反,我们提出了一种对比学习机制,利用剧本作为特权信息,即仅在训练时可用的信息。剧本揭示了电影是如何分割成场景的,角色是谁,他们在何时和谁说话,他们在哪里以及他们在做什么(即,“场景标题”解释动作发生的地点,而“动作线”描述摄像机看到的内容)。具体来说,我们建立了两个独立的网络,一个基于剧本的文本网络和一个基于视频的多模态网络,并使用辅助对比损失对它们进行联合训练。文本网络还可以通过自监督学习在大量剧本上进行预训练,而无需收集和处理相应的电影。实验结果表明,这种对比训练方法是有效的,可以使预告片在内容和吸引力方面得到人类的好评。
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream