Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Notre étude présente certaines limites, notamment :
Nous expérimentons uniquement des vidéos sous-titrées en anglais. Cependant, notre méthode peut être étendue pour inclure des contextes multilingues étant donné un modèle linguistique multilingue fort.
Les besoins en calcul et en mémoire de notre méthode sont importants en raison de sa forte dépendance au grand modèle de langage, GPT-3.
Nous évaluons Long Story Short avec une seule instance de LLM (GPT-3).
Risque potentiel. Résumer le long contexte vidéo avec GPT-3 comporte des risques éthiques liés à la nature ouverte du modèle linguistique. GPT-3 peut (a) halluciner de faux faits sur le contenu, (b) générer des énoncés toxiques, ou (c) intégrer implicitement des préjugés sociaux dans le résumé et les probabilités de réponse.
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell et al. Les modèles linguistiques sont des apprenants peu nombreux. Progrès des systèmes de traitement de l’information neuronale, 33 : 1877-1901, 2020.
[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee et Byoung-Tak Zhang. DramaQA : compréhension d'une histoire vidéo centrée sur les personnages avec une qualité hiérarchique. Préimpression arXiv arXiv :2005.03356, 2020.
[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee et Byoung-Tak Zhang. Dramaqa : compréhension d'une histoire vidéo centrée sur le personnage avec une qualité hiérarchique. Dans Actes de la conférence AAAI sur l'intelligence artificielle, volume 35, pages 1166-1174, 2021.
[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang et Heng Huang. Modèle d'attention multimodale amélioré par mémoire hétérogène pour la réponse vidéo aux questions. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 1999-2007, 2019.
[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang et Zicheng Liu. Violet : transformateurs de langage vidéo de bout en bout avec modélisation de jetons visuels masqués. Préimpression arXiv arXiv :2111.12681, 2021.
[6] Jiyang Gao, Runzhou Ge, Kan Chen et Ram Nevatia. Réseaux de co-mémoire d'apparence de mouvement pour la réponse vidéo aux questions. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 6576-6585, 2018.
[7] Philip John Gorinski et Mirella Lapata. Résumé de script de film sous forme d'extraction de scène basée sur un graphique. Dans NAACL, 2015.
[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao et Xuedong Huang. Z-code++ : un modèle de langage pré-entraîné optimisé pour la synthèse abstractive. ArXiv, abs/2208.09770, 2022.
[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim et Gunhee Kim. Tgif-qa : Vers un raisonnement spatio-temporel dans la réponse visuelle aux questions. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 2758-2766, 2017.
[10] Bhavan Jasani, Rohit Girdhar et Deva Ramanan. Posons-nous les bonnes questions dans movieqa ? Dans Actes de la conférence internationale IEEE/CVF sur les ateliers de vision par ordinateur, pages 0-0, 2019.
[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim et Chang D Yoo. Réseau de mémoire d'attention progressive pour répondre aux questions sur les histoires de films. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 8337 à 8346, 2019.
[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim et Chang D Yoo. Réseau de mémoire d'attention progressive pour répondre aux questions sur les histoires de films. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 8337-8346, 2019.
[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi et Byoung-Tak Zhang. Deepstory : histoire vidéo qa par des réseaux de mémoire embarqués profonds. Dans Actes de la 26e Conférence internationale conjointe sur l'intelligence artificielle, pages 2016-2022, 2017.
[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang et Nojun Kwak. Pré-formation auto-supervisée et apprentissage de représentation contrastive pour la qualité vidéo à choix multiples. Dans AAAI, 2021.
[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung et JongHyeok Lee. Résumé de scénario basé sur un transformateur utilisant une représentation d'apprentissage augmentée avec des informations de dialogue. Dans NUSE, 2021.
[16] Jie Lei, Licheng Yu, Mohit Bansal et Tamara L Berg. Tvqa : réponse à des questions vidéo localisées et compositionnelles. Dans EMNLP, 2018.
[17] Jie Lei, Licheng Yu, Tamara L Berg et Mohit Bansal. Tvqa+ : fondement spatio-temporel pour la réponse vidéo aux questions. Dans Rapport technique, arXiv, 2019.
[18] Junnan Li, Dongxu Li, Caiming Xiong et Steven Hoi. Blip : Pré-formation d'image de langage d'amorçage pour une compréhension et une génération unifiées de la vision et du langage. Dans ICML, 2022.
[19] Chin-If Lin. ROUGE : Un package pour l'évaluation automatique des résumés. Dans Text Summarization Branches Out, pages 74–81, Barcelone, Espagne, juillet 2004. Association pour la linguistique computationnelle. URL https://aclanthology.org/W04-1013.
[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen et Tyng-Luh Liu. A2a : Raisonnement attention à attention pour répondre aux questions du film. Dans Computer Vision–ACCV 2018 : 14e Conférence asiatique sur la vision par ordinateur, Perth, Australie, 2-6 décembre 2018, articles sélectionnés révisés, partie VI 14, pages 404-419. Springer, 2019.
[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong et Hanqing Lu. Réseau convolutionnel temporel double hiérarchique avec normalisation dynamique prenant en compte qa pour la réponse aux questions d'histoire vidéo. Dans Actes de la 28e Conférence internationale de l'ACM sur le multimédia, pages 4253-4261, 2020.
[22] Seil Na, Sangho Lee, Jisung Kim et Gunhee Kim. Un réseau de mémoire en lecture-écriture pour la compréhension des histoires de films. Dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur, pages 677 à 685, 2017.
[23] Pinelopi Papalampidi, Frank Keller et Mirella Lapata. Analyse de l'intrigue du film via l'identification des tournants. Dans Actes de la Conférence 2019 sur les méthodes empiriques dans le traitement du langage naturel et de la 9e Conférence internationale conjointe sur le traitement du langage naturel (EMNLP-IJCNLP), novembre 2019.
[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann et Mirella Lapata. Résumé du scénario utilisant une structure narrative latente. Lors de la réunion annuelle de l’Association for Computational Linguistics, 2020.
[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark et al. Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel. Dans Conférence internationale sur l'apprentissage automatique, pages 8748 à 8763. PMLR, 2021.
[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville et Bernt Schiele. Description du film. IJCV, 2017.
[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun et Sanja Fidler. Movieqa : Comprendre les histoires des films grâce aux questions-réponses. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 4631-4640, 2016.
[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum et Chuang Gan. Star : une référence pour le raisonnement situé dans des vidéos du monde réel. Dans le cadre de la trente-cinquième conférence sur les ensembles de données et les critères de référence des systèmes de traitement de l'information neuronale (tour 2), 2021.
[29] Junbin Xiao, Xindi Shang, Angela Yao et Tat-Seng Chua. Next-qa : prochaine phase de questions-réponses pour expliquer les actions temporelles. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 9777-9786, 2021.
[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He et Yueting Zhuang. Réponse aux questions vidéo via une attention progressivement affinée sur l'apparence et le mouvement. Dans Actes de la 25e conférence internationale de l'ACM sur le multimédia, pages 1645-1653, 2017.
[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev et Cordelia Schmid. Il suffit de demander : apprendre à répondre aux questions de millions de vidéos commentées. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, pages 1686-1697, 2021.
[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu et Lijuan Wang. Une étude empirique de gpt-3 pour un vqa basé sur la connaissance en quelques étapes. Préimpression arXiv arXiv :2109.05014, 2021.
[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi et Yejin Choi. Merlot : Modèles de connaissances de scripts neuronaux multimodaux. Dans M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang et J. Wortman Vaughan, éditeurs, Advances in Neural Information Processing Systems, volume 34, pages 23634-23651. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi et Yejin Choi. Réserve de Merlot : Connaissance de l'écriture neuronale par la vision, le langage et le son. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 2022.
[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke et al. Modèles socratiques : composer un raisonnement multimodal sans tir avec le langage. 2022.
[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles et Min Sun. Tirer parti des descriptions vidéo pour apprendre à répondre aux questions vidéo. Dans Actes de la conférence AAAI sur l'intelligence artificielle, volume 31, 2017.
[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh et Peter Liu. Pegasus : pré-formation avec des phrases manquantes extraites pour un résumé abstrait. Dans Conférence internationale sur l'apprentissage automatique, pages 11328-11339. PMLR, 2020.
[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He et Yueting Zhuang. Réponse vidéo aux questions via un apprentissage hiérarchique du réseau d'attention à deux niveaux. Dans Actes de la 25e conférence internationale ACM sur le multimédia, pages 1050-1058, 2017.