paint-brush
通过任务分解生成电影预告片:实现细节经过@kinetograph

通过任务分解生成电影预告片:实现细节

太長; 讀書

在本文中,研究人员将电影建模为图形来生成预告片,识别叙事结构并预测情绪,超越了监督方法。
featured image - 通过任务分解生成电影预告片:实现细节
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;

(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;

(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所

链接表

B. 实施细节

评估指标先前的研究 [41] 从三个指标来评估 TP 识别模型的性能:总体一致性 (TA),即正确识别的 TP 场景的百分比,部分一致性 (PA),即至少识别出一个黄金标准场景的 TP 事件的百分比,以及距离 (D),即对于给定 TP,预测场景集和黄金标准场景集之间的场景数量最小距离,按剧本长度标准化。我们使用部分一致性指标报告结果。我们不能再使用总体一致性,因为我们根据镜头(而不是场景)的银标准(而不是金标准)标签进行评估,因此认为场景内的所有镜头都同等重要。我们也不使用距离指标,因为它产生的结果非常相似,并且无助于区分模型变体。


超参数根据以前的工作[42],我们将所有类型的特征(即文本,视觉和音频)投影到相同的128个较低维度。我们发现,较大的维度会大大增加参数的数量,并且可能由于数据集大小较小而产生较差的结果。


我们使用 Transformer 编码器将场景(相对于剧本)和镜头(相对于视频)情境化。我们在编码器中尝试了 2、3、4、5 和 6 层,并使用 3 层获得了最佳效果。对于前馈 (FF) 维度,我们尝试了标准尺寸 2,048 和较小的尺寸 1,024,发现前者效果更好。我们使用另一个 Transformer 编码器从输入句子表示序列中计算场景的表示。该编码器有 4 层和 1,024 FF 维度。这两个编码器都采用 8 个注意力头和 0.3 个 dropout。


在图稀疏化(即选择前 k 个邻居)过程中,我们为基于场景和基于镜头的网络考虑不同的邻域选项,因为它们的粒度和大小不同。按照 [42],我们为场景网络考虑 [1–6] 个邻居,为镜头网络将邻域大小增加到 [6–12]。



图 4. 由 TP 确定的对应于电影不同部分(发展集)的预告片镜头的分布。预告片镜头来自电影的所有部分,甚至来自结尾,尽管大多数来自开头和中间。


表 7. 包含至少一个标记为开发集上特定类型 TP 的镜头的预告片的百分比 (%)。前两个 TP(介绍故事情节)在预告片中出现的频率更高,尤其是与通常包含重大剧透的后两个 TP 相比。


表 8. 当我们将预告片分成三个均等部分(开发集)时,每个预告片部分的平均绝对情感强度。