该论文可在 arxiv 上根据 CC 4.0 许可获取。 作者：  （1）延世大学 MIR 实验室 Jiwan Chung（   ）； https://jiwanchung.github.io/  （2）Youngjae Yu，延世大学 MIR 实验室（   ）。 https://jiwanchung.github.io/ 链接表 摘要和简介 方法 实验 相关工作 结论 限制和参考 A. 实验细节 B. 即时样本 4.相关工作 电影是具有清晰叙事结构的长视频的典型例子。Gorinski 等人 [7] 生成较短版本的剧本作为寻找电影场景的最佳图链的任务。TRIPOD [23] 是一个包含转折点注释的剧本数据集。在同一工作中，提出了一种从电影叙事中识别转折点的自动模型。Papalampidi 等人 [24] 后来使用电视剧 CSI 来展示转折点在自动电影摘要中的实用性。Lee 等人 [15] 通过对话特征和 Transformer 架构进一步改进了转折点识别。 电影摘要 文献中对视频问答任务进行了广泛的研究，研究形式包括开放式问答 [9] 和多项选择题 [28, 29]。已经提出了几种方法来解决此任务，从基于 RNN 的注意力网络 [9, 30, 36, 38]，到记忆网络 [12, 22, 27] 和 Transformer [4, 6]。最近，在大规模视频数据集上预训练的多模态模型（VideoQA [31]、VIOLET [5]、MERLOT [33] 和 MERLOT-Reserve [34]）在视频问答中也表现出色。 长视频问答 然而，尽管长视频问答非常重要，但受到的关注却相对较少。MovieQA [27] 针对整部电影制定问答，通常时长为两个小时。DramaQA [3] 使用单个电视剧作为视觉背景，并要求解答器理解长度为 1 到 20 分钟的视频片段。

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

該音頻是用故事的原始語言製作的！

长视频问答的“先总结后搜索”方法：相关工作

About Author

註釋

標籤

这篇文章刊登在

Related Stories

Floki 的 Valhalla 成为印度环斯里兰卡赛事联合赞助商

加密货币增长：创建有效的用户角色

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

如何将您的工作流程提高 10 倍：17 个必备应用程序

Floki 的 Valhalla 成为印度环斯里兰卡赛事联合赞助商

加密货币增长：创建有效的用户角色

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

如何将您的工作流程提高 10 倍：17 个必备应用程序

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps