该论文可在 arxiv 上根据 CC 4.0 许可获取。 作者：  （1）延世大学 MIR 实验室 Jiwan Chung（   ）； https://jiwanchung.github.io/  （2）Youngjae Yu，延世大学 MIR 实验室（   ）。 https://jiwanchung.github.io/ 链接表 摘要和简介 方法 实验 相关工作 结论 限制和参考 A. 实验细节 B. 即时样本 2. 方法  2.1. 绘图生成  2.2. 叙述搜索 给定概括的叙述和问题，我们希望从长视频中检索与问题相关的相对较短的片段。语言模型生成的开放式文本不规则且通常很嘈杂。为了检索视频的确切部分，我们驱动模型输出情节索引而不是文本形式。  由于语言模型的开放性，生成的索引可能仍然会很嘈杂。当模型以文本形式输出答案时，我们使用 rouge-l [19] 分数来查找与生成的句子相似度高于指定阈值 α ≥ 0.5 的情节片段候选。   2.3. 目视检查

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

該音頻是用故事的原始語言製作的！

长视频问答的“先总结后搜索”方法：

About Author

註釋

標籤

这篇文章刊登在

Related Stories

看不见的层面：为什么用户访谈是不可替代的资产

扬帆起航：利用数据湖开发生产级 RAG 应用程序

Telegram：加密岛通往大陆的桥梁

成功云迁移的完整指南：策略和最佳实践

看不见的层面：为什么用户访谈是不可替代的资产

扬帆起航：利用数据湖开发生产级 RAG 应用程序

Telegram：加密岛通往大陆的桥梁

成功云迁移的完整指南：策略和最佳实践

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps