paint-brush
长视频问答的“先总结后搜索”方法:经过@kinetograph
107 讀數

长视频问答的“先总结后搜索”方法:

太長; 讀書

在本文中,研究人员使用 GPT-3 探索零样本视频 QA,其表现优于监督模型,利用叙述摘要和视觉匹配。
featured image - 长视频问答的“先总结后搜索”方法:
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );

(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。

链接表

2. 方法


图 2:定性结果显示我们提出的长故事短篇 (LSS) 模型可生成并检索原始视频片段的索引。当模型根据 (i) 生成的摘要和 (ii) 检索到的文本上下文预测最终答案时,CLIPCheck 会验证每个候选人的答案以修改问题的最终答案。

2.1. 绘图生成

2.2. 叙述搜索

给定概括的叙述和问题,我们希望从长视频中检索与问题相关的相对较短的片段。语言模型生成的开放式文本不规则且通常很嘈杂。为了检索视频的确切部分,我们驱动模型输出情节索引而不是文本形式。



由于语言模型的开放性,生成的索引可能仍然会很嘈杂。当模型以文本形式输出答案时,我们使用 rouge-l [19] 分数来查找与生成的句子相似度高于指定阈值 α ≥ 0.5 的情节片段候选。


2.3. 目视检查