Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Unsere Studie weist einige Einschränkungen auf, darunter:
Wir experimentieren nur mit Videos mit englischen Untertiteln. Unsere Methode kann jedoch erweitert werden, um mehrsprachige Kontexte einzubeziehen, sofern ein starkes mehrsprachiges Sprachmodell vorliegt.
Der Rechen- und Speicherbedarf unserer Methode ist aufgrund ihrer starken Abhängigkeit vom großen Sprachmodell GPT-3 erheblich.
Wir bewerten Long Story Short mit nur einer einzigen Instanz von LLM (GPT-3).
Potentielles Risiko. Das Zusammenfassen des langen Videokontexts mit GPT-3 birgt ethische Risiken im Zusammenhang mit der offenen Natur des Sprachmodells. GPT-3 kann (a) falsche Fakten über den Inhalt halluzinieren, (b) toxische Äußerungen generieren oder (c) implizit soziale Vorurteile in die Zusammenfassung und die Antwortwahrscheinlichkeiten einbetten.
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Sprachmodelle sind Lerner mit wenigen Versuchen. Fortschritte in neuronalen Informationsverarbeitungssystemen, 33:1877–1901, 2020.
[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee und Byoung-Tak Zhang. DramaQA: Charakterzentriertes Verständnis von Videogeschichten mit hierarchischer Qualitätssicherung. arXiv-Vorabdruck arXiv:2005.03356, 2020.
[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee und Byoung-Tak Zhang. Dramaqa: Charakterzentriertes Video-Story-Verständnis mit hierarchischer QA. In Proceedings of the AAAI Conference on Artificial Intelligence, Band 35, Seiten 1166–1174, 2021.
[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang und Heng Huang. Heterogenes, durch Gedächtnis verbessertes multimodales Aufmerksamkeitsmodell für die Beantwortung von Videofragen. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 1999–2007, 2019.
[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang und Zicheng Liu. Violett: End-to-End-Videosprachentransformatoren mit maskierter visueller Token-Modellierung. arXiv-Vorabdruck arXiv:2111.12681, 2021.
[6] Jiyang Gao, Runzhou Ge, Kan Chen und Ram Nevatia. Motion-Appearance-Co-Memory-Netzwerke zur Beantwortung von Videofragen. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 6576–6585, 2018.
[7] Philip John Gorinski und Mirella Lapata. Filmskriptzusammenfassung als graphenbasierte Szenenextraktion. In NAACL, 2015.
[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao und Xuedong Huang. Z-code++: Ein vortrainiertes Sprachmodell, das für abstrakte Zusammenfassungen optimiert ist. ArXiv, abs/2208.09770, 2022.
[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim und Gunhee Kim. Tgif-qa: Auf dem Weg zum räumlich-zeitlichen Denken bei der Beantwortung visueller Fragen. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 2758–2766, 2017.
[10] Bhavan Jasani, Rohit Girdhar und Deva Ramanan. Stellen wir in movieqa die richtigen Fragen? In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, Seiten 0–0, 2019.
[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim und Chang D Yoo. Progressives Aufmerksamkeitsgedächtnisnetzwerk zur Beantwortung von Fragen zu Filmgeschichten. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 8337–8346, 2019.
[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim und Chang D Yoo. Progressives Aufmerksamkeitsgedächtnisnetzwerk zur Beantwortung von Fragen zu Filmgeschichten. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 8337–8346, 2019.
[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi und Byoung-Tak Zhang. Deepstory: Video-Story-QA durch tief eingebettete Speichernetzwerke. In Proceedings der 26. International Joint Conference on Artificial Intelligence, Seiten 2016–2022, 2017.
[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang und Nojun Kwak. Selbstüberwachtes Vortraining und kontrastives Repräsentationslernen für Multiple-Choice-Video-QA. In AAAI, 2021.
[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung und JongHyeok Lee. Transformer-basierte Drehbuchzusammenfassung unter Verwendung einer Augmented-Learning-Darstellung mit Dialoginformationen. In NUSE, 2021.
[16] Jie Lei, Licheng Yu, Mohit Bansal und Tamara L Berg. Tvqa: Lokalisiertes, kompositorisches Beantworten von Fragen per Video. In EMNLP, 2018.
[17] Jie Lei, Licheng Yu, Tamara L Berg und Mohit Bansal. Tvqa+: Räumlich-zeitliche Grundlage für die Beantwortung von Fragen per Video. In Tech Report, arXiv, 2019.
[18] Junnan Li, Dongxu Li, Caiming Xiong und Steven Hoi. Blip: Bootstrapping von Sprachbild-Vortraining für ein einheitliches Verständnis und die Generierung von Bildsprachen. In ICML, 2022.
[19] Chin-Yew Lin. ROUGE: Ein Paket zur automatischen Auswertung von Zusammenfassungen. In Text Summarization Branches Out, Seiten 74–81, Barcelona, Spanien, Juli 2004. Association for Computational Linguistics. URL https://aclanthology.org/W04-1013.
[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen und Tyng-Luh Liu. A2a: Aufmerksamkeits-zu-Aufmerksamkeit-Argumentation für die Beantwortung von Filmfragen. In Computer Vision–ACCV 2018: 14. Asiatische Konferenz für Computer Vision, Perth, Australien, 2.–6. Dezember 2018, Überarbeitete ausgewählte Beiträge, Teil VI 14, Seiten 404–419. Springer, 2019.
[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong und Hanqing Lu. Duales hierarchisches temporales Faltungsnetzwerk mit qa-bewusster dynamischer Normalisierung für die Beantwortung von Fragen zu Videogeschichten. In Proceedings der 28. ACM International Conference on Multimedia, Seiten 4253–4261, 2020.
[22] Seil Na, Sangho Lee, Jisung Kim und Gunhee Kim. Ein Lese-/Schreibspeichernetzwerk zum Verständnis von Filmgeschichten. In Proceedings of the IEEE International Conference on Computer Vision, Seiten 677–685, 2017.
[23] Pinelopi Papalampidi, Frank Keller und Mirella Lapata. Filmhandlungsanalyse durch Wendepunktidentifizierung. In Proceedings der Konferenz 2019 über empirische Methoden in der Verarbeitung natürlicher Sprache und der 9. Internationalen gemeinsamen Konferenz über Verarbeitung natürlicher Sprache (EMNLP-IJCNLP), November 2019.
[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann und Mirella Lapata. Drehbuchzusammenfassung mithilfe latenter Erzählstruktur. In der Jahrestagung der Association for Computational Linguistics, 2020.
[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Lernen übertragbarer visueller Modelle durch natürliche Sprachüberwachung. In International Conference on Machine Learning, Seiten 8748–8763. PMLR, 2021.
[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville und Bernt Schiele. Filmbeschreibung. IJCV, 2017.
[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun und Sanja Fidler. Movieqa: Geschichten in Filmen durch Fragen und Antworten verstehen. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 4631–4640, 2016.
[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum und Chuang Gan. Star: Ein Benchmark für situiertes Denken in realen Videos. In der 35. Konferenz über Datensätze und Benchmarks neuronaler Informationsverarbeitungssysteme (Runde 2), 2021.
[29] Junbin Xiao, Xindi Shang, Angela Yao und Tat-Seng Chua. Next-qa: Nächste Phase der Frage-Antwort-Methode zur Erklärung zeitlicher Aktionen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seiten 9777–9786, 2021.
[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He und Yueting Zhuang. Beantwortung von Videofragen durch allmählich verfeinerte Aufmerksamkeit auf Aussehen und Bewegung. In Proceedings der 25. ACM-Internationalkonferenz zu Multimedia, Seiten 1645–1653, 2017.
[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev und Cordelia Schmid. Einfach fragen: Lernen, Fragen aus Millionen kommentierter Videos zu beantworten. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seiten 1686–1697, 2021.
[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu und Lijuan Wang. Eine empirische Studie von gpt-3 für wissensbasiertes VQA mit wenigen Stichproben. arXiv-Vorabdruck arXiv:2109.05014, 2021.
[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi und Yejin Choi. Merlot: Multimodale neuronale Skript-Wissensmodelle. In M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang und J. Wortman Vaughan, Herausgeber, Advances in Neural Information Processing Systems, Band 34, Seiten 23634–23651. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi und Yejin Choi. Merlot Reserve: Neuronales Skriptwissen durch Sehen, Sprache und Ton. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 2022.
[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, et al. Sokratische Modelle: Zero-Shot-Multimodal-Argumentation mit Sprache. 2022.
[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles und Min Sun. Nutzung von Videobeschreibungen zum Erlernen der Beantwortung von Videofragen. In Proceedings der AAAI-Konferenz über künstliche Intelligenz, Band 31, 2017.
[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh und Peter Liu. Pegasus: Vortraining mit extrahierten Lückensätzen für abstrakte Zusammenfassung. In International Conference on Machine Learning, Seiten 11328–11339. PMLR, 2020.
[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He und Yueting Zhuang. Beantwortung von Videofragen durch hierarchisches zweistufiges Aufmerksamkeitsnetzwerklernen. In Proceedings der 25. ACM-Internationalkonferenz zu Multimedia, Seiten 1050–1058, 2017.