作者:
(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;
(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;
(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所
预告片生成需要从包含 M 个镜头(LM)的完整电影中选取 L 个镜头。电影呈现的故事情节复杂,可能包含不同的次要情节或非线性展开的事件,而冗余事件(称为“填充物”)则丰富了主线故事。因此,我们不能假设连续的镜头在语义上必然相关。为了更好地探索事件之间的关系,我们将电影表示为图 [42]。令 G = (V, E) 表示图,其中顶点 V 表示镜头,边 E 表示它们的语义相似性。我们进一步考虑 G 中镜头的原始时间顺序,只允许从前一个镜头到未来镜头的有向边。G 由上三角转换矩阵 T 描述,它记录从镜头 i 转换到每个未来镜头 j 的概率。
在 G 中,我们假设某些镜头描述了电影中的关键事件(图 2 中的粗圆圈),而所有镜头都具有情绪(正面或负面),其强度用分数表示(图 2 中的绿色/红色阴影)。我们提出了一种遍历 G 并选择预告片镜头序列的算法。在下文中,我们首先描述该算法(第 3.1 节),然后讨论如何学习图 G 以及如何通过 TP 识别 [41] 检测关键事件(第 3.2 节)。最后,我们还将解释如何预测基于镜头的情绪分数(第 3.5 节)。
我们总共选择 L 个镜头(取决于目标预告片长度)并检索提案预告片序列,如图 2 所示(粗线)。在每个步骤中,我们都会跟踪迄今为止创建的情绪流和识别的 TP(分别是算法 1 中的第 10 行和第 13-14 行)。如果镜头或其直接相邻镜头已添加到路径中,则已选择 TP 事件在预告片中呈现。
基于视频的模型假设可以访问镜头级 TP 标签。然而,我们知道的唯一用于 TP 识别的数据集是 TRIPOD [41],它包含基于剧本的场景级标签。为了获得更细粒度的标签,我们按照简单的一对多映射将基于场景的注释投射到镜头上(详情见第 4 节)。由于我们的训练信号不可避免地有噪声,我们假设访问剧本会鼓励基于视频的模型选择对每个 TP 更具代表性的镜头。换句话说,剧本代表特权知识和隐式监督信号,同时减轻了推理过程中额外预处理的需要。此外,剧本提供了大量额外信息,例如关于角色及其在场景中的角色,或他们的动作和情绪(通过描述摄像机所见内容的台词传达)。否则,这些信息可能难以在视频中准确定位。此外,剧本的未标记文本语料库相对容易获得,可用于预训练我们的网络。
我们现在描述这两个网络的联合训练方案,它们以数据流(多模式与纯文本)的形式封装电影的不同视图,并将其分割为语义单元(镜头与场景)。
表示一致性损失我们建议在两个网络之间使用第二个正则化损失,以便也加强两个基于图的表示之间的一致性(即,在视频镜头和剧本场景中)。这种损失的目的有两个:改进两个网络的 TP 预测,如先前关于对比表示学习的工作所示 [38、39、48],也帮助学习镜头之间更准确的联系(回想一下,基于镜头的图表是我们预告片生成算法的输入;第 3.1 节)。与描述电影中独立事件的剧本场景相比,视频镜头只有几秒钟长,并且依靠周围的环境来表达其含义。我们假设,通过强制镜头的图表邻域保留与相应剧本场景类似的语义,我们将鼓励在基于镜头的图表中选择合适的邻居。
预训练的目的是从比电影视频更容易理解的剧本中学习更好的场景表征(例如,更少的版权问题和更少的计算开销),希望这些知识能够通过我们的一致性损失转移到基于视频的网络。
最后,我们的模型考虑了情绪如何从一个镜头流向下一个镜头。我们使用与 TP 识别相同的联合架构(第 3.3 节)和训练机制来预测每个镜头的情绪分数。基于视频的网络在带有情绪标签(即积极、消极、中性)的镜头上进行训练,而基于剧本的网络在带有情绪标签的场景上进行训练(第 4 节解释了如何获得标签)。训练后,我们预测每个镜头的情绪标签的概率分布,以捕捉情绪流并区分高强度和低强度的镜头(详情请参阅附录)。