长视频问答的“先总结后搜索”方法实验细节

经过 Kinetograph: The Video Editing Technology Publication2m2024/05/26

太長; 讀書

在本文中，研究人员使用 GPT-3 探索零样本视频 QA，其表现优于监督模型，利用叙述摘要和视觉匹配。

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者：

（1）延世大学 MIR 实验室 Jiwan Chung（ https://jiwanchung.github.io/ ）；

（2）Youngjae Yu，延世大学 MIR 实验室（ https://jiwanchung.github.io/ ）。

链接表

A. 实验细节

计算预算。Long Story Short 通过 OpenAI API 使用 GPT-3（175B 参数）作为主干。总结视频片段的平均提示处理 ∼ 3000 个标记，而 QA 提示通常需要 ∼ 4000 个标记。对于 CLIPCheck，我们使用单个 NVIDIA A6000 GPU 提取 CLIP 特征并计算余弦相似度：处理 MovieQA 验证分割的视频帧需要 0.5 小时。

超参数。所有超参数都是通过分析单个训练样本预先定义的。对于叙述搜索，当 GPT-3 不输出单个索引时，我们使用句子相似度阈值 α ≥ 0.5 来查找情节片段。我们在 CLIPCheck 中使用二元熵阈值 E ′ ≥ 0.4。我们只运行每个实验一次，因为我们的方法是确定性的，并且不易受到初始化随机性的影响。

视频分割方案。本文中我们使用的所有数据集都有预定义的片段边界注释。此外，由于我们对使用预定义边界分割的每个剪辑执行摘要，因此所有情节片段依次具有对齐的剪辑片段。此外，在应用 LSS 之前，我们会过滤掉以下剪辑片段：1. 太短、2. 没有对齐的图像帧或 3. 没有文本上下文，以确保我们可以使用情节摘要检索剪辑片段。

外部库。我们使用 OpenAI API 访问 GPT-3 语言模型。CLIP 特征是使用 Huggingface 实现计算的（https://huggingface.co/docs/transformers/main/en/model_doc/clip）。

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

这篇文章刊登在...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas