作者:
(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;
(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;
(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所
在本节中,我们将详细介绍我们的方法的各种建模组件。我们首先提供 GRAPHTRAILER 架构的详细信息(第 A.1 节),然后讨论如何训练 TP 识别网络(第 A.2 节),最后提供有关剧本预训练的技术细节(A.3)以及用于图遍历的情感流(A.4)。
我们利用 StraightThrough 估计器 [7] 解决了模型中的不连续性问题(即 top-k 采样、邻域大小选择)。在反向传播过程中,我们使用 Gumbel-softmax 重参数化技巧 [25, 32] 计算梯度。在基于剧本的辅助网络中,构建和稀疏场景级图时也遵循相同的程序。
第 3 节介绍了我们基于视频和剧本的模型的训练方案,假设场景的 TP 标签可用(即,二进制标签表示场景是否充当电影中的 TP)。给定此类标签,我们的模型使用少数热门金标签和网络的 TP 预测之间的二元交叉熵损失 (BCE) 目标进行训练。
然而,在实践中,我们的训练集包含场景的黄金标准标签。后者与 TRIPOD [41] 数据集一起发布,并自动创建。具体来说,TRIPOD 为概要(而不是剧本)提供黄金标准的 TP 注释,前提是概要句子代表 TP。句子级注释被投射到场景中,并使用教师强制 [41] 训练的匹配模型来创建黄金标准标签。
在我们的图遍历算法(第 3.1 节)中,选择下一个镜头的标准之一是迄今为止生成的预告片的情感流。具体来说,我们采用假设[9],即根据情感强度将预告片分为三个部分。第一部分具有中等强度,用于吸引观众;第二部分具有低强度,用于传递有关电影的关键信息;最后,第三部分显示逐渐增加的强度,用于为电影创造悬念和刺激感。
因此,给定 L 个预告片镜头的预算,我们预计前 L/3 个镜头具有中等强度,并且该部分内没有太大变化(例如,我们希望镜头的平均绝对强度接近 0.7,其中所有分数都标准化为 -1 到 1 的范围)。在预告片的第二部分(即接下来的 L/3 个镜头),我们预计强度会急剧下降,而此部分内的镜头将保持或多或少的中性情绪(即 0 强度)。最后,对于第三部分(即最后的 L/3 个镜头),我们预计强度会稳步增加。实际上,我们预计第一个镜头的强度为 0.7(即中等强度),随后每个镜头增加 0.1,直到在最后一个镜头达到峰值。
[9] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailer-editors-dream