paint-brush
通过任务分解生成电影预告片:结果与分析经过@kinetograph
115 讀數

通过任务分解生成电影预告片:结果与分析

太長; 讀書

在本文中,研究人员将电影建模为图形来生成预告片,识别叙事结构并预测情绪,超越了监督方法。
featured image - 通过任务分解生成电影预告片:结果与分析
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Pinelopi Papalampidi,爱丁堡大学信息学院语言、认知和计算研究所;

(2)弗兰克·凯勒,英国爱丁堡大学信息学院语言、认知和计算研究所;

(3)米雷拉·拉帕塔(Mirella Lapata),爱丁堡大学信息学院语言、认知和计算研究所

链接表

5.结果与分析

知识蒸馏的实用性我们首先研究是否可以改进 TP 识别,因为它对于预告片生成任务至关重要。我们将具有真实场景级 TP 标签的电影集分为开发集和测试集,并为每个 TP 选择电影中的前 5 个 (@5) 和前 10 个 (@10) 镜头。作为评估指标,我们考虑部分一致性 (PA; [41]),它衡量模型从电影中选择的 5 个或 10 个镜头中正确识别至少一个真实镜头的 TP 百分比(有关详细信息,请参阅附录)。


表 2. 模型在 TP 识别上的表现(测试集)。GRAPHTRAILER 展示了不同的训练方案。评估指标:与每个 TP 和电影中前 5 个(@5)和前 10 个(@10)选定镜头的部分一致性(PA)。


表 2 总结了我们在测试集上的结果。我们考虑以下比较系统:随机从均匀分布的部分中选择镜头(10 次运行的平均值);理论根据剧本理论将 TP 分配给镜头(例如,“机遇”发生在电影的 10% 处,“计划变更”发生在 25% 处,等等);分布根据镜头在训练数据中的预期位置选择镜头; GRAPHTP是在剧本上训练的 [42] 的原始模型(我们将场景级 TP 预测投射到镜头上); Transformer是一个没有图相关信息的基础模型。我们使用我们自己的模型 GRAPHTRAILER 的几种变体进行 TP 识别:没有和有剧本访问权限,仅使用预测一致性损失(P)、预测和表示损失(P + R)进行训练,以及我们的对比联合训练方案。


我们观察到 GRAPHTRAILER 的表现优于所有基线以及 Transformer 模型。尽管后者对镜头之间的长距离依赖关系进行了编码,但 GRAPHTRAILER 还受益于直接对图中学习到的稀疏连接进行编码。此外,通过预测一致性损失 (P) 进行的异步知识提炼进一步提高了性能,这表明剧本中包含的知识与可以从视频中提取的知识是互补的。请注意,当我们添加表示一致性损失 (P + R) 时,性能会大幅下降,而所提出的训练方法(对比联合)表现最佳。最后,预训练提供了进一步的收益,尽管收益很小,但这突显了基于剧本的网络的优势。


预告片质量 我们现在在 41 部电影的保留集上评估 GRAPHTRAILER 的预告片生成算法(见表 1)。作为评估指标,我们使用准确度,即正确识别的预告片镜头的百分比,并考虑预告片的总预算为 10 个镜头,以达到所需的长度(约 2 分钟)。


表 3. 无监督(上部)和弱监督(下部)模型在预告片生成方面的表现:正确识别预告片镜头的准确率。所有系统在制作预告片时都具有相同的镜头预算。


我们将 GRAPHTRAILER 与几种无监督方法(表 3 中的第一个块)进行了比较,包括:在所有镜头和 GRAPHTRAILER 识别的 TP 中进行随机选择;我们还基于全连通图实现了两个基于图的系统,其中节点是镜头,边表示它们之间的相似度。该图不了解 TP,它是通过计算通用多模态表示之间的相似性构建的。TEXTRANK [35] 在该图上运行以根据镜头的中心性选择镜头,而没有 TP 的 GRAPHTRAILER 会在删除 TP 和情绪标准的情况下遍历图(公式 2)。对于包含随机性并产生提案的无监督系统(随机,GRAPHTRAILER),我们考虑最佳提案预告片。表 3 的第二个块介绍了使用嘈杂的预告片标签进行训练的监督方法。其中包括 CCANet [53],它只考虑视觉信息并计算电影和预告片镜头之间的交叉注意力,以及一个原始 Transformer,它经过训练可以完成二元任务,即确定镜头是否应该出现在预告片中,而不考虑剧本、情绪或 TP。监督式 GRAPHTRAILER 由我们基于视频的网络组成,该网络使用与 Transformer 相同的数据进行训练。


GRAPHTRAILER 在无监督方法中表现最佳。有趣的是,TEXTRANK 比随机方法更差,说明预告片生成等任务不能被视为标准摘要问题。没有 TP 的 GRAPHTRAILER 仍然比 TEXTRANK 和随机 TP 选择表现更好。[7] 关于监督方法,我们发现使用标准架构 (Transformer) 的所有模态比使用视觉相似性 (CCANet) 的复杂模型表现更好。通过添加与图形相关的信息 (监督 GRAPHTRAILER),我们获得了进一步的改进。


表 5. 使用不同标准在电影图中执行随机游动的 GRAPHTRAILER(算法 1,公式 (2))。


我们对 GRAPHTRAILER 的开发集进行了两项消融研究。第一项研究旨在评估双网络的不同训练方案如何影响下游预告片生成性能。我们在表 4 中观察到,异步训练并没有比基础模型带来任何明显的改进。然而,当我们使用预测和表示一致性损失联合训练这两个网络(基于视频和剧本)时,性能提高了近 3%。当基于剧本的网络在更多数据上进行预训练时,会观察到进一步的小幅提升。


第二项消融研究涉及在图 G 上执行随机游走所使用的标准。如表 5 所示,当我们强制选定路径中的节点靠近关键事件 (相似性 + TP) 时,性能会提高。当我们仅依赖情绪 (相似性 + 情绪) 时,性能会略有下降。这表明,与以前主要关注表面视觉吸引力 [53, 57] 或视听情绪分析 [47] 的方法相比,仅有情绪信息是不够的,可能会导致不适合预告片的异常值。另一方面,当将情绪信息与有关叙事结构的知识 (相似性 + TP + 情绪) 相结合时,我们观察到最高的准确率。这进一步验证了我们的假设,即关于制作预告片的两种理论 (即基于叙事结构和情感) 是互补的,可以结合起来。


最后,由于每部电影都有多个预告片(用于开发集),我们可以测量它们镜头之间的重叠度(上限)。平均重叠度为 86.14%,表明预告片制作者之间的一致性很好,而人类表现与自动模型之间存在很大差距。


最后,由于每部电影都有多个预告片(用于开发集),我们可以测量它们镜头之间的重叠度(上限)。平均重叠度为 86.14%,表明预告片制作者之间的一致性很好,而人类表现与自动模型之间存在很大差距。


表 6. 人类对保留集的评价。对于以下问题回答“是”的百分比:预告片是否包含足够的信息(Q1)以及是否具有吸引力(Q2)。每个系统被选为最佳或最差的次数百分比,以及标准化的最佳-最差缩放分数。


人工评估我们还进行了一项人工评估研究,以评估所生成预告片的质量。对于人工评估,我们以没有 TP 的随机选择作为下限,两个表现最佳的无监督模型(即有和没有 TP 的 GRAPHTRAILER)和两个监督模型:CCANet,这是预告片生成的最新成果,以及我们模型的监督版本,根据自动指标,它是表现最佳的模型。[8] 我们为保留集中的所有电影制作了预告片。然后,我们要求 Amazon Mechanical Turk (AMT) 众包工作人员观看一部电影的所有预告片,回答与所提供信息(Q1)和预告片的吸引力(Q2)相关的问题,并选择最佳和最差的预告片。我们收集了每部电影五位不同评委的评估。


表 6 显示,带有 TP 的 GRAPHTRAILER 平均提供比其他所有系统更具信息量 (Q1) 和吸引力 (Q2) 的预告片。虽然不带 TP 的 GRAPHTRAILER 和监督式 GRAPHTRAILER 更经常被选为最佳,但它们被选为最差的次数也一样多。当我们使用最佳-最差缩放 [31] 计算标准化分数 (z 分数) 时,带有 TP 的 GRAPHTRAILER 表现最佳(请注意,它也很少被选为最差),其次是监督式 GRAPHTRAILER。有趣的是,不带 TP 的 GRAPHTRAILER 最常被选为最佳(24.40%),这表明将电影建模为图形并执行随机游走而不是单独选择镜头的整体方法有助于制作连贯的预告片。然而,同样的模型也最常被选为最差,这表明这种简单的方法本身无法保证高质量的预告片。


我们在补充材料中提供了基于我们的方法生成的预告片的视频示例。此外,我们在附录中提供了图形遍历算法的分步图形示例。


剧透警告!我们的模型并未明确避免在生成的预告片中出现剧透。我们在算法 1 中遍历电影图时尝试了与剧透相关的标准。具体来说,我们在选择“剧透敏感”图邻域中的镜头时添加了惩罚。我们通过测量最后两个 TP 的最短路径来识别此类邻域,这两个 TP 按照定义是电影中最大的剧透。然而,我们算法的这种变体导致性能较差,因此我们没有进一步研究它。我们认为这样的标准对于提出预告片序列没有好处,因为它会阻止模型从电影的最新部分中选择令人兴奋的镜头。这些高张力镜头对于制作有趣的预告片很重要,并且确实包含在现实生活中的预告片中。我们数据集中超过三分之一的专业预告片包含来自最后两个 TP(“重大挫折”、“高潮”)的镜头。我们将在附录中进一步讨论这一点。


我们还手动检查了生成的预告片,发现剧透并不常见(即,我们在测试集中随机抽取的 12 个预告片中识别出一个主要剧透镜头),可能是因为选择主要剧透的概率通常很低。即使包含剧透敏感镜头,脱离背景来看,也可能不足以揭示电影的结局。不过,我们将在未来的工作中研究更复杂的剧透识别技术,这些技术可以作为额外标准轻松集成到我们的算法中。



[7] 测试集上的表现较低,因为我们只考虑了官方预告片的预告片标签,而开发集包含多个预告片。


[8] 我们没有将真实预告片纳入人工评估中,因为它们是经过后期处理的(即蒙太奇、画外音、音乐),因此不能直接与自动预告片进行比较。