paint-brush
长视频问答的“先总结后搜索”方法:实验经过@kinetograph

长视频问答的“先总结后搜索”方法:实验

太長; 讀書

在本文中,研究人员使用 GPT-3 探索零样本视频 QA,其表现优于监督模型,利用叙述摘要和视觉匹配。
featured image - 长视频问答的“先总结后搜索”方法:实验
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );

(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。

链接表

3.实验

对于所有实验,我们都使用 GPT-3 [1] (text-davinci-003) 作为骨干语言模型。除非另有说明,否则我们使用真实剪辑边界来分割视频。所有 LSS 变体均不使用任何训练数据,因此都是零样本方法。


表 1:MovieQA 验证分割评估。数据集平均提供 3 分钟视频片段的 GT 对齐:我们还报告了 Ours-search,它在没有 GT 对齐的情况下搜索整个电影上下文。(V)表示视频,(S)表示字幕。


表 2:对 PororoQA 验证分割的评估。机器生成的图 (+Plot) 的表现接近人工注释 (Base)。


表 3:DramaQA 验证拆分的第三和第四级评估。CLIPCheck 在基线和基于提示的输入图像描述方法 [35] 上达到了最先进的水平。


表 4:MovieQA 验证分割的消融研究。

3.1. 评估长话短说

MovieQA [27] 是一个大规模问答数据集,来源于 408 部电影。该数据集包含多种信息来源:字幕、脚本、DVS、视频片段和情节。我们报告了四个最先进的监督基线:A2A [20]、PAMN [11]、UniversalQA [10] 和 DHTCN [21]。


表 1 显示零样本 LSS 比以前的监督方法有所改进。此外,即使没有真实片段索引标签,Ours-search 也表现出强大的性能。CLIPCheck 略微提高了视频分割的准确性。但是,差异很小,因为 MovieQA 通常需要基于字符的基础,而不是一般的视觉匹配。最后,我们用零假设进行实验:No Context 测试 GPT-3 是否通过简单地记住每个事实来解决 MovieQA。No Context 的表现比 LSS 差,拒绝了零假设。


PororoQA [13] 是一个基于动画片的视频故事问答数据集。监督基线采用人工生成的情节和真实视频片段索引,而 LSS +Plot+Search 则不采用任何内容。


表 2 总结了我们在 PororoQA 数据集上的结果。当同时使用真实情节和图时,GPT-3 的表现几乎与监督基线相当。用模型生成的摘要替换人工生成的摘要只会导致性能略有下降。有趣的是,使用模型生成的图时,搜索过程效果更好。我们将此结果归因于人工注释不是为情节可辨别性而设计的。

3.2. 评估 CLIPCheck

DramaQA [3] 是一个专注于故事理解的视频问答数据集。该数据集按难度等级分为四个等级,符合人类的认知发展阶段。我们在 DramaQA 的两个高等级上评估 LSS,以测试情节理解。我们报告了两个最新的 DramaQA 等级基准:CharacterAttention 和 Kim 等人的 [14]。


我们比较了 CLIPCheck 和 Caption 的效果,Caption 是一种基于提示的方法,将从 BLIP [18] 中提取的图像帧描述作为 GPT-3 的输入。表 3 显示 CLIPCheck 比图像描述提供了更大的改进。此外,虽然添加图像标题可以改善 LSS,但与 CLIPCheck 联合使用时增益会消失。我们怀疑这是因为帧标题提供的信息与 CLIPCheck 相似,但噪声更大。请注意,此处的自动标题不是 LSS 不可或缺的组成部分。由于 DramaQA 已经有了视觉基础注释,因此在此基础上添加自动图像标题不一定能提高模型性能。相反,我们使用标题来明确比较早期与晚期视觉对齐方法。


图 3:LSS 生成的情节摘要与维基百科的真实摘要之间的比较。这里,由于篇幅限制,我们仅显示整个情节的前两段。


最后,我们检查 CLIPCheck 是否利用了数据集偏差而不是理解了视觉背景。为此,我们设计了一种具有随机视觉背景的 CLIPCheck 变体 (CLIPCheck-Shuffle)。CLIPCheck-Shuffle 并没有比没有 CLIPCheck 的 LSS 有所改进,从而否定了偏差假设。

3.3. 消融研究

总结和搜索对叙事理解都很重要吗?在这里,我们评估了具有完整上下文但没有叙事搜索的 LSS 变体(LSS-Full)或以情节摘要和随机片段作为输入的 LSS 变体(LSS-Random)。表 4 显示 LSS-Full 和 LSS-Random 都落后于 LSS-Search,这表明检索的重要性。请注意,由于标记长度限制,我们无法在 LSS-Full 中使用完整上下文。相反,我们使用 GPT3 接受的完整上下文的最长前缀(4000 个标记减去指令的长度)。


图 4:LSS 中的 QA 流程示例。对搜索到的情节片段进行条件调节对语言模型的答案可能性分布有重大影响。

3.4. 定性结果

图 3 展示了使用 LSS 框架中的语言模型自动生成的作为长视频问答中间上下文的情节摘要。从定性样本可以看出,生成的情节与维基百科上人工编写的情节高度吻合。例如,在电影《哈利波特与死亡圣器》的第一幕中,LSS 摘要正确地写出了哈利波特现在 17 岁,以及食死徒袭击主角的主要事件。


图 4 描绘了搜索到的情节片段与答案可能性之间的联系。在左侧的示例中,检索到的摘要显示 Trench 犯了罪,因此正在逃亡,这表明对他感兴趣的另一个角色会追捕他。语言模型理解此上下文,以正确的方式修改答案可能性。在右侧示例中,LSS 情节片段表明 Edward 对自己的决定充满信心。虽然此上下文没有为问题提供直接线索,但语言模型将其视为足以改变答案的信息。