该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );
(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。
大型语言模型(例如 GPT-3)已经展示了一种令人印象深刻的能力,它无需特定于任务的训练数据即可适应新任务。这种能力在叙事问答等环境中尤其有效,因为此类环境中的任务种类繁多,但可用的监督数据却很少。在这项工作中,我们研究了此类语言模型是否可以将其零样本推理能力扩展到多媒体内容(例如戏剧、电影和动画)中的长篇多模态叙事,其中故事起着至关重要的作用。我们提出了 Long Story Short,这是一个叙事视频问答框架,它首先将视频的叙事总结为一个简短的情节,然后搜索与问题相关的视频部分。我们还建议使用 CLIPCheck 来增强视觉匹配。我们的模型的表现远远优于最先进的监督模型,凸显了零样本问答对长视频的潜力。
由于数据和注释的限制,最近的视频问答模型在处理长视频叙事问答任务 [2, 13, 27](即电影、戏剧和 YouTube 网络视频)时面临挑战。这导致模型无法理解长视频叙事,只能回答短视频片段中的主要视觉问题 [16, 17, 30]。这种长视频问答的规模不足以训练模型完全理解视频中复杂的叙事结构,导致性能不佳。[10] 证明监督模型更多地依赖于问题中的语言偏见而不是叙事背景:即使没有看到任何视频背景,它们也可以获得类似的性能。这凸显了除了小型任务特定监督之外,多模态推理能力的必要性。
为了应对低泛化能力带来的挑战,使用预训练大型语言模型 (LLM) 的零样本方法可以成为解决复杂 QA 任务 [32] 和文本上下文摘要 [8, 37] 的有效替代方案。然而,这种 LLM 的叙事 QA 能力是否可以迁移到视频领域?
我们提出了长篇故事短篇 (LSS),如图 1 所示,受苏格拉底模型 [35] 的启发,它将视频片段转换为文本剧本格式。使用 GPT-3 [1],我们首先将长视频总结为情节列表,然后浏览生成的摘要和原始视频上下文以解决给定的问题。我们的零样本方法在 MovieQA 和 DramaQA 数据集中显示出比最先进的监督方法更好的结果。此外,我们提出了 CLIPCheck,一种视觉文本匹配方法,以增强 GPT-3 提供的推理结果的视觉对齐。总而言之,我们的主要贡献有三方面:
我们提出了 LSS,这是一个将长视频叙述概括为一系列情节并检索与问题相关的子情节的框架。
我们证明了在视觉提示中通过基于 CLIP 的匹配考虑视觉对齐强度的重要性。
我们的零样本方法在 MovieQA [27] 和 DramaQA [2] 中取得了最佳表现,优于监督基线。