该论文可在 arxiv 上根据 CC 4.0 许可获取。 作者：  （1）延世大学 MIR 实验室 Jiwan Chung（   ）； https://jiwanchung.github.io/  （2）Youngjae Yu，延世大学 MIR 实验室（   ）。 https://jiwanchung.github.io/ 链接表 摘要和简介 方法 实验 相关工作 结论 限制和参考 A. 实验细节 B. 即时样本 5. 结论 我们引入了 Long Story Short，这是一种先总结后搜索的方法，用于了解视频叙事问答的全局叙事和相关细节。当问答背景非常广泛且需要与此类背景进行高级交互才能解决所述问答时，我们的方法非常有效，长视频问答就是这种情况。此外，我们建议通过使用 CLIPCheck 进行事后检查视觉对齐来进一步增强模型生成答案的视觉基础。我们的零样本方法改进了 MovieQA 和 DramaQA 基准中的监督式最新方法。我们计划向公众发布代码和生成的情节数据。 除了这项工作之外，还有两个可能的研究方向：首先，通过角色重新识别和共指解析提供与故事更一致的视觉描述，可以提高 GPT-3 的输入质量。其次，可以设计一种更具动态性的多跳搜索，以分层方式结合全局和局部信息。

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

該音頻是用故事的原始語言製作的！

长视频问答的“先总结后搜索”方法：结论

About Author

註釋

標籤

这篇文章刊登在

Related Stories

创建以用户为中心的加密产品：客户反馈的重要性

State of the Noonion: A New Era For Brands and Writers

扬帆起航：利用数据湖开发生产级 RAG 应用程序

Claude Sonnet 3.5 系统提示泄漏：法医分析

创建以用户为中心的加密产品：客户反馈的重要性

State of the Noonion: A New Era For Brands and Writers

扬帆起航：利用数据湖开发生产级 RAG 应用程序

Claude Sonnet 3.5 系统提示泄漏：法医分析

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps