paint-brush
长视频问答的“先总结后搜索”方法:结论经过@kinetograph
260 讀數

长视频问答的“先总结后搜索”方法:结论

太長; 讀書

在本文中,研究人员使用 GPT-3 探索零样本视频 QA,其表现优于监督模型,利用叙述摘要和视觉匹配。
featured image - 长视频问答的“先总结后搜索”方法:结论
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );

(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。

链接表

5. 结论

我们引入了 Long Story Short,这是一种先总结后搜索的方法,用于了解视频叙事问答的全局叙事和相关细节。当问答背景非常广泛且需要与此类背景进行高级交互才能解决所述问答时,我们的方法非常有效,长视频问答就是这种情况。此外,我们建议通过使用 CLIPCheck 进行事后检查视觉对齐来进一步增强模型生成答案的视觉基础。我们的零样本方法改进了 MovieQA 和 DramaQA 基准中的监督式最新方法。我们计划向公众发布代码和生成的情节数据。


除了这项工作之外,还有两个可能的研究方向:首先,通过角色重新识别和共指解析提供与故事更一致的视觉描述,可以提高 GPT-3 的输入质量。其次,可以设计一种更具动态性的多跳搜索,以分层方式结合全局和局部信息。