paint-brush
长视频问答的总结搜索方法:局限性与参考文献经过@kinetograph

长视频问答的总结搜索方法:局限性与参考文献

太長; 讀書

在本文中,研究人员使用 GPT-3 探索零样本视频 QA,其表现优于监督模型,利用叙述摘要和视觉匹配。
featured image - 长视频问答的总结搜索方法:局限性与参考文献
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)延世大学 MIR 实验室 Jiwan Chung( https://jiwanchung.github.io/ );

(2)Youngjae Yu,延世大学 MIR 实验室( https://jiwanchung.github.io/ )。

链接表

6. 限制

我们的研究有一些局限性,包括:


  1. 我们仅对带有英文字幕的视频进行了实验。但是,只要有强大的多语言模型,我们的方法就可以扩展到包括多语言上下文。


  2. 由于我们的方法严重依赖大型语言模型 GPT-3,因此对计算和内存的要求很高。


  3. 我们仅使用 LLM(GPT-3)的单个实例来评估“长话短说”。


潜在风险。使用 GPT-3 总结长视频内容会带来与语言模型的开放性相关的道德风险。GPT-3 可能 (a) 产生有关内容的虚假事实,(b) 产生有害言论,或 (c) 将社会偏见隐性地嵌入到摘要和答案可能性中。

参考

[1] Tom Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared D Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell 等人。语言模型是少样本学习器。神经信息处理系统进展,33:1877–1901,2020 年。


[2] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Seungchan Lee、Minsu Lee 和 Byoung-Tak Zhang。DramaQA:以角色为中心的视频故事理解与分层问答。arXiv 预印本 arXiv:2005.03356,2020 年。


[3] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Minsu Lee 和 Byoung-Tak Zhang。Dramaqa:以角色为中心的视频故事理解与分层问答。《AAAI 人工智能会议论文集》,第 35 卷,第 1166-1174 页,2021 年。


[4] 范晨友、张晓帆、张姝、王文胜、张驰、黄恒。用于视频问答的异构记忆增强多模态注意力模型。IEEE/CVF 计算机视觉与模式识别会议论文集,第 1999-2007 页,2019 年。


[5] 傅祖瑞、李林杰、甘哲、林凯文、王杨、王丽娟、刘子成。紫色:带有掩蔽视觉标记建模的端到端视频语言转换器。 arXiv 预印本 arXiv:2111.12681,2021 年。


[6] Jiyang Gao、Runzhou Ge、Kan Chen 和 Ram Nevatia。用于视频问答的运动外观共记忆网络。《IEEE 计算机视觉和模式识别会议论文集》,第 6576-6585 页,2018 年。


[7] Philip John Gorinski 和 Mirella Lapata。电影剧本摘要作为基于图形的场景提取。在 NAACL,2015 年。


[8] 何鹏程、彭宝林、卢立阳、王松鹤、梅洁、刘洋、徐若尘、Hany Hassan Awadalla、石宇、朱晨光、熊伟、曾迈克、高剑锋、黄学东。 Z-code++:针对抽象摘要优化的预训练语言模型。 ArXiv,abs/2208.09770,2022 年。


[9] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim 和 Gunhee Kim。Tgif-qa:面向视觉问答中的时空推理。IEEE 计算机视觉和模式识别会议论文集,第 2758-2766 页,2017 年。


[10] Bhavan Jasani、Rohit Girdhar 和 Deva Ramanan。我们在 movieqa 中问的问题是否正确?在 IEEE/CVF 国际计算机视觉研讨会论文集,第 0-0 页,2019 年。


[11] Junyeong Kim、Minuk Ma、Kyungsu Kim、Sungjin Kim 和 Chang D Yoo。用于电影故事问答的渐进式注意力记忆网络。《IEEE/CVF 计算机视觉与模式识别会议论文集》,第 8337–8346 页,2019 年。


[12] Junyeong Kim、Minuk Ma、Kyungsu Kim、Sungjin Kim 和 Chang D Yoo。用于电影故事问答的渐进式注意力记忆网络。《IEEE/CVF 计算机视觉与模式识别会议论文集》,第 8337–8346 页,2019 年。


[13] Kyung-Min Kim、Min-Oh Heo、Seong-Ho Choi 和 Byoung-Tak Zhang。Deepstory:深度嵌入式记忆网络的视频故事问答。第 26 届国际人工智能联合会议论文集,第 2016-2022 页,2017 年。


[14] Seonhoon Kim、Seohyeong Jeong、Eunbyul Kim、Inho Kang 和 Nojun Kwak。用于多项选择视频问答的自监督预训练和对比表征学习。在 AAAI,2021 年。


[15] Myungji Lee、Hong-Seok Kwon、Jaehun Shin、WonKee Lee、Baikjin Jung 和 JongHyeok Lee。使用带有对话信息的增强学习表示进行基于 Transformer 的剧本摘要。NUSE,2021 年。


[16] Jie Lei、Licheng Yu、Mohit Bansal 和 Tamara L Berg。Tvqa:本地化、组合式视频问答。EMNLP,2018 年。


[17] Jie Lei、Licheng Yu、Tamara L Berg 和 Mohit Bansal。Tvqa+:视频问答的时空基础。载于 Tech Report,arXiv,2019 年。


[18] Junnan Li、Dongxu Li、Caiming Xiong 和 Steven Hoi。Blip:引导语言图像预训练,实现统一的视觉语言理解和生成。ICML,2022 年。


[19] Chin-Yew Lin。ROUGE:自动评估摘要的软件包。《文本摘要分支》,第 74-81 页,西班牙巴塞罗那,2004 年 7 月。计算语言学协会。网址 https://aclanthology.org/W04-1013。


[20] Chao-Ning Liu、Ding-Jie Chen、Hwann-Tzong Chen 和 Tyng-Luh Liu。A2a:电影问答的注意力推理。《Computer Vision–ACCV 2018:第 14 届亚洲计算机视觉会议》,澳大利亚珀斯,2018 年 12 月 2 日至 6 日,修订精选论文,第 VI 部分 14,第 404-419 页。Springer,2019 年。


[21] 刘飞、刘静、朱欣欣、洪日昌、陆汉清。具有 qa 感知动态归一化的双层次时间卷积网络用于视频故事问答。第 28 届 ACM 国际多媒体会议论文集,第 4253–4261 页,2020 年。


[22] Seil Na、Sangho Lee、Jisung Kim 和 Gunhee Kim。用于理解电影故事的读写记忆网络。《IEEE 国际计算机视觉会议论文集》,第 677-685 页,2017 年。


[23] Pinelopi Papalampidi、Frank Keller 和 Mirella Lapata。通过转折点识别进行电影情节分析。2019 年自然语言处理实证方法会议论文集和第 9 届国际自然语言处理联合会议 (EMNLP-IJCNLP) 论文集,2019 年 11 月。


[24] Pinelopi Papalampidi、Frank Keller、Lea Frermann 和 Mirella Lapata。使用潜在叙事结构进行剧本总结。在计算语言学协会年会上,2020 年。


[25] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark 等人。从自然语言监督中学习可迁移的视觉模型。国际机器学习会议,第 8748-8763 页。PMLR,2021 年。


[26] Anna Rohrbach、Atousa Torabi、Marcus Rohrbach、Niket Tandon、Christopher Pal、Hugo Larochelle、Aaron Courville 和 Bernt Schiele。电影描述。IJCV,2017 年。


[27] Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun 和 Sanja Fidler。Movieqa:通过问答理解电影中的故事。IEEE 计算机视觉和模式识别会议论文集,第 4631-4640 页,2016 年。


[28] Bo Wu、Shoubin Yu、Zhenfang Chen、Joshua B Tenenbaum 和 Chuang Gan。Star:真实世界视频中情境推理的基准。第三十五届神经信息处理系统数据集和基准轨道会议(第 2 轮),2021 年。


[29] 肖俊斌、尚新迪、姚安吉拉和蔡达成。Next-qa:问答系统的下一阶段,用于解释时间动作。《IEEE/CVF 计算机视觉与模式识别会议论文集》,第 9777–9786 页,2021 年。


[30] 徐德静、赵舟、肖军、吴飞、张汉旺、何向南、庄月婷。通过逐渐细化对外观和动作的关注来实现视频问答。第 25 届 ACM 国际多媒体会议论文集,第 1645-1653 页,2017 年。


[31] Antoine Yang、Antoine Miech、Josef Sivic、Ivan Laptev 和 Cordelia Schmid。只需提问:学习回答数百万个带旁白的视频中的问题。《IEEE/CVF 国际计算机视觉会议论文集》,第 1686-1697 页,2021 年。


[32] 杨正远、甘哲、王建锋、胡晓伟、陆玉茂、刘子成、王丽娟。 GPT-3 对基于小样本知识的 VQA 的实证研究。 arXiv 预印本 arXiv:2109.05014,2021 年。


[33] Rowan Zellers、Ximing Lu、Jack Hessel、Youngjae Yu、Jae Sung Park、Jize Cao、Ali Farhadi 和 Yejin Choi。Merlot:多模态神经脚本知识模型。收录于 M. Ranzato、A. Beygelzimer、Y. Dauphin、PS Liang 和 J. Wortman Vaughan 编辑的《神经信息处理系统进展》第 34 卷,第 23634–23651 页。Curran Associates, Inc.,2021 年。URL https://proceedings.neurips.cc/paper/2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf。


[34] Rowan Zellers、Jiasen Lu、Ximing Lu、Youngjae Yu、Yanpeng Zhao、Mohammadreza Salehi、Aditya Kusupati、Jack Hessel、Ali Farhadi 和 Yejin Choi。Merlot Reserve:通过视觉、语言和声音获取神经脚本知识。IEEE/CVF 计算机视觉与模式识别会议 (CVPR) 论文集,2022 年。


[35] Andy Zeng、Adrian Wong、Stefan Welker、Krzysztof Choromanski、Federico Tombari、Aveek Purohit、Michael S Ryoo、Vikas Sindhwani、Johnny Lee、Vincent Vanhoucke 等人。苏格拉底模型:用语言构建零样本多模态推理。2022 年。


[36] Kuo-Hao Zeng、Tseng-Hung Chen、Ching-Yao Chuang、Yuan-Hong Liao、Juan Carlos Niebles 和 Min Sun。利用视频描述学习视频问答。《AAAI 人工智能会议论文集》,第 31 卷,2017 年。


[37] 张菁青、赵耀、穆罕默德·萨利赫和刘彼得。Pegasus:使用提取的间隙句进行抽象摘要的预训练。国际机器学习会议,第 11328-11339 页。PMLR,2020 年。


[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He, Yueting Zhuang. 通过分层双层注意力网络学习实现视频问答。第 25 届 ACM 国际多媒体会议论文集,第 1050–1058 页,2017 年。