paint-brush
Un método de resumen y luego búsqueda para responder preguntas largas en video: limitaciones y referenciaspor@kinetograph

Un método de resumen y luego búsqueda para responder preguntas largas en video: limitaciones y referencias

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.
featured image - Un método de resumen y luego búsqueda para responder preguntas largas en video: limitaciones y referencias
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

6. Limitaciones

Nuestro estudio tiene algunas limitaciones, que incluyen:


  1. Experimentamos sólo con vídeos con subtítulos en inglés. Sin embargo, nuestro método puede ampliarse para incluir contextos multilingües dado un modelo de lenguaje multilingüe sólido.


  2. Los requisitos de cálculo y memoria de nuestro método son sustanciales debido a su gran dependencia del modelo de lenguaje grande, GPT-3.


  3. Evaluamos Long Story Short con una sola instancia de LLM (GPT-3).


Riesgo potencial. Resumir el contexto del video extenso con GPT-3 conlleva riesgos éticos relacionados con la naturaleza abierta del modelo de lenguaje. GPT-3 puede (a) alucinar hechos falsos sobre el contenido, (b) generar expresiones tóxicas o (c) incorporar implícitamente sesgos sociales en el resumen y las probabilidades de respuesta.

Referencias

[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Los modelos de lenguaje son aprendices de pocas oportunidades. Avances en los sistemas de procesamiento de información neuronal, 33:1877–1901, 2020.


[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee y Byoung-Tak Zhang. DramaQA: comprensión de historias en vídeo centrada en los personajes con control de calidad jerárquico. Preimpresión de arXiv arXiv:2005.03356, 2020.


[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee y Byoung-Tak Zhang. Dramaqa: comprensión de historias en video centradas en los personajes con qa jerárquico. En Actas de la Conferencia AAAI sobre Inteligencia Artificial, volumen 35, páginas 1166-1174, 2021.


[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang y Heng Huang. Modelo de atención multimodal mejorado con memoria heterogénea para responder preguntas en video. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 1999–2007, 2019.


[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang y Zicheng Liu. Violeta: transformadores de videolenguaje de extremo a extremo con modelado de tokens visuales enmascarados. Preimpresión de arXiv arXiv:2111.12681, 2021.


[6] Jiyang Gao, Runzhou Ge, Kan Chen y Ram Nevatia. Redes de co-memoria de apariencia de movimiento para responder preguntas en video. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 6576–6585, 2018.


[7] Philip John Gorinski y Mirella Lapata. Resumen de guiones de películas como extracción de escenas basada en gráficos. En NAACL, 2015.


[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao y Xuedong Huang. Z-code++: un modelo de lenguaje previamente entrenado optimizado para el resumen abstracto. ArXiv, abs/2208.09770, 2022.


[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim y Gunhee Kim. Tgif-qa: Hacia el razonamiento espacio-temporal en la respuesta visual a preguntas. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 2758–2766, 2017.


[10] Bhavan Jasani, Rohit Girdhar y Deva Ramanan. ¿Estamos haciendo las preguntas correctas en movieqa? En Actas de la Conferencia internacional IEEE/CVF sobre talleres de visión por computadora, páginas 0–0, 2019.


[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim y Chang D Yoo. Red de atención y memoria progresiva para responder preguntas sobre historias de películas. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 8337–8346, 2019.


[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim y Chang D Yoo. Red de atención y memoria progresiva para responder preguntas sobre historias de películas. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 8337–8346, 2019.


[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi y Byoung-Tak Zhang. Deepstory: historia en vídeo qa mediante redes de memoria profundamente integradas. En Actas de la 26.ª Conferencia Internacional Conjunta sobre Inteligencia Artificial, páginas 2016-2022, 2017.


[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang y Nojun Kwak. Preentrenamiento autosupervisado y aprendizaje de representación contrastiva para control de calidad de video de opción múltiple. En AAAI, 2021.


[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung y JongHyeok Lee. Resumen de guiones basado en transformadores utilizando representación de aprendizaje aumentada con información de diálogo. En NUSE, 2021.


[16] Jie Lei, Licheng Yu, Mohit Bansal y Tamara L Berg. Tvqa: respuesta a preguntas en vídeo compositivo localizado. En EMNLP, 2018.


[17] Jie Lei, Licheng Yu, Tamara L Berg y Mohit Bansal. Tvqa+: Base espacio-temporal para la respuesta a preguntas en vídeo. En Informe técnico, arXiv, 2019.


[18] Junnan Li, Dongxu Li, Caiming Xiong y Steven Hoi. Blip: entrenamiento previo de imágenes de lenguaje de arranque para la comprensión y generación unificadas de visión y lenguaje. En ICML, 2022.


[19] Chin-Yew Lin. ROUGE: Un paquete para la evaluación automática de resúmenes. En Text Summarization Branches Out, páginas 74–81, Barcelona, España, julio de 2004. Asociación de Lingüística Computacional. URL https://aclanthology.org/W04-1013.


[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen y Tyng-Luh Liu. A2a: Razonamiento de atención a la atención para responder preguntas sobre películas. En Computer Vision – ACCV 2018: 14.a Conferencia Asiática sobre Visión por Computadora, Perth, Australia, 2 al 6 de diciembre de 2018, artículos seleccionados revisados, Parte VI 14, páginas 404–419. Saltador, 2019.


[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong y Hanqing Lu. Red convolucional temporal jerárquica dual con normalización dinámica consciente de qa para responder preguntas de historias en video. En Actas de la 28.a Conferencia Internacional ACM sobre Multimedia, páginas 4253–4261, 2020.


[22] Seil Na, Sangho Lee, Jisung Kim y Gunhee Kim. Una red de memoria de lectura y escritura para la comprensión de historias de películas. En Actas de la Conferencia Internacional IEEE sobre Visión por Computadora, páginas 677–685, 2017.


[23] Pinelopi Papalampidi, Frank Keller y Mirella Lapata. Análisis de la trama de la película mediante la identificación de puntos de inflexión. En Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9.ª Conferencia conjunta internacional sobre procesamiento del lenguaje natural (EMNLP-IJCNLP), noviembre de 2019.


[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann y Mirella Lapata. Resumen de guiones utilizando estructura narrativa latente. En Reunión Anual de la Asociación de Lingüística Computacional, 2020.


[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural. En Conferencia internacional sobre aprendizaje automático, páginas 8748–8763. PMLR, 2021.


[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville y Bernt Schiele. Descripción de la película. IJCV, 2017.


[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun y Sanja Fidler. Movieqa: comprensión de historias de películas a través de preguntas y respuestas. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 4631–4640, 2016.


[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum y Chuang Gan. Estrella: Un punto de referencia para el razonamiento situado en vídeos del mundo real. En la trigésima quinta conferencia sobre conjuntos de datos y puntos de referencia de sistemas de procesamiento de información neuronal (Ronda 2), 2021.


[29] Junbin Xiao, Xindi Shang, Angela Yao y Tat-Seng Chua. Next-qa: Siguiente fase de preguntas-respuestas para explicar las acciones temporales. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 9777–9786, 2021.


[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He y Yueting Zhuang. Respuestas a preguntas en vídeo mediante una atención refinada gradualmente sobre la apariencia y el movimiento. En Actas de la 25ª conferencia internacional ACM sobre multimedia, páginas 1645–1653, 2017.


[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev y Cordelia Schmid. Simplemente pregunte: aprenda a responder preguntas de millones de videos narrados. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora, páginas 1686–1697, 2021.


[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu y Lijuan Wang. Un estudio empírico de gpt-3 para vqa basado en conocimiento de pocos disparos. Preimpresión de arXiv arXiv:2109.05014, 2021.


[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi y Yejin Choi. Merlot: modelos de conocimiento de guiones neuronales multimodales. En M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang y J. Wortman Vaughan, editores, Advances in Neural Information Processing Systems, volumen 34, páginas 23634–23651. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.


[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi y Yejin Choi. Merlot reserva: Conocimiento del guión neuronal a través de la visión y el lenguaje y el sonido. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR), 2022.


[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, et al. Modelos socráticos: composición de razonamiento multimodal de tiro cero con el lenguaje. 2022.


[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles y Min Sun. Aprovechar las descripciones de los vídeos para aprender a responder preguntas en vídeo. En Actas de la Conferencia AAAI sobre Inteligencia Artificial, volumen 31, 2017.


[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh y Peter Liu. Pegasus: entrenamiento previo con oraciones vacías extraídas para un resumen abstracto. En Conferencia internacional sobre aprendizaje automático, páginas 11328–11339. PMLR, 2020.


[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He y Yueting Zhuang. Respuesta a preguntas en vídeo a través del aprendizaje jerárquico en red de atención de doble nivel. En Actas de la 25ª conferencia internacional ACM sobre multimedia, páginas 1050–1058, 2017.