paint-brush
通过任务分解生成电影预告片:模型细节经过@kinetograph

通过任务分解生成电影预告片:模型细节

太長; 讀書

在本文中,研究人员将电影建模为图形来生成预告片,识别叙事结构并预测情绪,超越了监督方法。
featured image - 通过任务分解生成电影预告片:模型细节
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;

(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;

(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所

链接表

A. 模型详细信息

在本节中,我们将详细介绍我们的方法的各种建模组件。我们首先提供 GRAPHTRAILER 架构的详细信息(第 A.1 节),然后讨论如何训练 TP 识别网络(第 A.2 节),最后提供有关剧本预训练的技术细节(A.3)以及用于图遍历的情感流(A.4)。

A.1. 图形预告片


我们利用 StraightThrough 估计器 [7] 解决了模型中的不连续性问题(即 top-k 采样、邻域大小选择)。在反向传播过程中,我们使用 Gumbel-softmax 重参数化技巧 [25, 32] 计算梯度。在基于剧本的辅助网络中,构建和稀疏场景级图时也遵循相同的程序。

A.2. TP 识别培训

第 3 节介绍了我们基于视频和剧本的模型的训练方案,假设场景的 TP 标签可用(即,二进制标签表示场景是否充当电影中的 TP)。给定此类标签,我们的模型使用少数热门金标签和网络的 TP 预测之间的二元交叉熵损失 (BCE) 目标进行训练。


然而,在实践中,我们的训练集包含场景的黄金标准标签。后者与 TRIPOD [41] 数据集一起发布,并自动创建。具体来说,TRIPOD 为概要(而不是剧本)提供黄金标准的 TP 注释,前提是概要句子代表 TP。句子级注释被投射到场景中,并使用教师强制 [41] 训练的匹配模型来创建黄金标准标签。


A.3. 自监督预训练

A.4. GRAPHTRAILER 中的情感流

在我们的图遍历算法(第 3.1 节)中,选择下一个镜头的标准之一是迄今为止生成的预告片的情感流。具体来说,我们采用假设[9],即根据情感强度将预告片分为三个部分。第一部分具有中等强度,用于吸引观众;第二部分具有低强度,用于传递有关电影的关键信息;最后,第三部分显示逐渐增加的强度,用于为电影创造悬念和刺激感。


因此,给定 L 个预告片镜头的预算,我们预计前 L/3 个镜头具有中等强度,并且该部分内没有太大变化(例如,我们希望镜头的平均绝对强度接近 0.7,其中所有分数都标准化为 -1 到 1 的范围)。在预告片的第二部分(即接下来的 L/3 个镜头),我们预计强度会急剧下降,而此部分内的镜头将保持或多或少的中性情绪(即 0 强度)。最后,对于第三部分(即最后的 L/3 个镜头),我们预计强度会稳步增加。实际上,我们预计第一个镜头的强度为 0.7(即中等强度),随后每个镜头增加 0.1,直到在最后一个镜头达到峰值。



[9] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailer-editors-dream