Jan 01, 1970
该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );
(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。
我们引入了 Long Story Short,这是一种先总结后搜索的方法,用于了解视频叙事问答的全局叙事和相关细节。当问答背景非常广泛且需要与此类背景进行高级交互才能解决所述问答时,我们的方法非常有效,长视频问答就是这种情况。此外,我们建议通过使用 CLIPCheck 进行事后检查视觉对齐来进一步增强模型生成答案的视觉基础。我们的零样本方法改进了 MovieQA 和 DramaQA 基准中的监督式最新方法。我们计划向公众发布代码和生成的情节数据。
除了这项工作之外,还有两个可能的研究方向:首先,通过角色重新识别和共指解析提供与故事更一致的视觉描述,可以提高 GPT-3 的输入质量。其次,可以设计一种更具动态性的多跳搜索,以分层方式结合全局和局部信息。