paint-brush
长视频问答的“先总结后搜索”方法实验细节经过@kinetograph

长视频问答的“先总结后搜索”方法实验细节

太長; 讀書

在本文中,研究人员使用 GPT-3 探索零样本视频 QA,其表现优于监督模型,利用叙述摘要和视觉匹配。
featured image - 长视频问答的“先总结后搜索”方法实验细节
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );

(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。

链接表

A. 实验细节

计算预算。Long Story Short 通过 OpenAI API 使用 GPT-3(175B 参数)作为主干。总结视频片段的平均提示处理 ∼ 3000 个标记,而 QA 提示通常需要 ∼ 4000 个标记。对于 CLIPCheck,我们使用单个 NVIDIA A6000 GPU 提取 CLIP 特征并计算余弦相似度:处理 MovieQA 验证分割的视频帧需要 0.5 小时。


超参数。所有超参数都是通过分析单个训练样本预先定义的。对于叙述搜索,当 GPT-3 不输出单个索引时,我们使用句子相似度阈值 α ≥ 0.5 来查找情节片段。我们在 CLIPCheck 中使用二元熵阈值 E ′ ≥ 0.4。我们只运行每个实验一次,因为我们的方法是确定性的,并且不易受到初始化随机性的影响。


视频分割方案。本文中我们使用的所有数据集都有预定义的片段边界注释。此外,由于我们对使用预定义边界分割的每个剪辑执行摘要,因此所有情节片段依次具有对齐的剪辑片段。此外,在应用 LSS 之前,我们会过滤掉以下剪辑片段:1. 太短、2. 没有对齐的图像帧或 3. 没有文本上下文,以确保我们可以使用情节摘要检索剪辑片段。


外部库。我们使用 OpenAI API 访问 GPT-3 语言模型。CLIP 特征是使用 Huggingface 实现计算的(https://huggingface.co/docs/transformers/main/en/model_doc/clip)。