Jan 01, 1970
该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );
(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。
给定概括的叙述和问题,我们希望从长视频中检索与问题相关的相对较短的片段。语言模型生成的开放式文本不规则且通常很嘈杂。为了检索视频的确切部分,我们驱动模型输出情节索引而不是文本形式。
由于语言模型的开放性,生成的索引可能仍然会很嘈杂。当模型以文本形式输出答案时,我们使用 rouge-l [19] 分数来查找与生成的句子相似度高于指定阈值 α ≥ 0.5 的情节片段候选。