Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).
Los modelos de lenguajes grandes, como GPT-3, han demostrado una capacidad impresionante para adaptarse a nuevas tareas sin requerir datos de entrenamiento específicos de la tarea. Esta capacidad ha sido particularmente efectiva en entornos como la respuesta narrativa a preguntas, donde la diversidad de tareas es inmensa, pero los datos de supervisión disponibles son pequeños. En este trabajo, investigamos si dichos modelos de lenguaje pueden extender sus habilidades de razonamiento de disparo cero a narrativas multimodales largas en contenido multimedia como drama, películas y animación, donde la historia juega un papel esencial. Proponemos Long Story Short, un marco para el control de calidad de videos narrativos que primero resume la narrativa del video en una trama corta y luego busca partes del video relevantes para la pregunta. También proponemos mejorar la coincidencia visual con CLIPCheck. Nuestro modelo supera con creces a los modelos supervisados de última generación, lo que destaca el potencial del control de calidad sin disparos para vídeos largos.
Los modelos recientes de control de calidad de videos enfrentan desafíos en el manejo de tareas de control de calidad narrativas de videos largos [2, 13, 27] (es decir, películas, dramas y videos web de YouTube) debido a la limitación de datos y anotaciones. Esto da como resultado una incapacidad para comprender las narrativas largas en video más allá de responder preguntas principalmente visuales en un videoclip corto [16, 17, 30]. Los tamaños de controles de calidad de videos tan largos son insuficientes para entrenar a los modelos para que comprendan completamente las complejas estructuras narrativas dentro de un video, lo que produce rendimientos subóptimos. [10] demuestran que los modelos supervisados se basan más en sesgos lingüísticos en la pregunta que en el contexto narrativo: pueden obtener un rendimiento similar incluso sin ver ningún contexto de vídeo. Esto resalta la necesidad de una capacidad de razonamiento multimodal más allá de la supervisión de pequeñas tareas específicas.
Para abordar el desafío causado por la baja generalización, un enfoque cero que utilice modelos de lenguaje grande (LLM) previamente entrenados puede ser una alternativa eficiente para abordar tareas complejas de control de calidad [32] y resumen del contexto del texto [8, 37]. Sin embargo, ¿la capacidad narrativa de control de calidad de dichos LLM es transferible al dominio del video?
Proponemos Long Story Short (LSS), ilustrado en la figura 1, que traduce videoclips a formato de guión de texto inspirado en el modelo socrático [35]. Usando GPT-3 [1], primero resumimos el video largo en una lista de gráficos y luego navegamos tanto por el resumen generado como por el contexto del video sin procesar para resolver la pregunta dada. Nuestro método de disparo cero muestra mejores resultados que los métodos supervisados de última generación en el conjunto de datos MovieQA y DramaQA. Además, proponemos CLIPCheck, un método de coincidencia de texto visual para mejorar la alineación visual de los resultados de razonamiento proporcionados por GPT-3. En resumen, nuestras principales aportaciones son tres:
Presentamos LSS, un marco que resume una narrativa de video larga en una lista de tramas y recupera la trama secundaria relevante para la pregunta.
Demostramos la importancia de considerar la fuerza de la alineación visual mediante la coincidencia basada en CLIP en las indicaciones visuales.
Nuestro enfoque de disparo cero logra un rendimiento de última generación en MovieQA [27] y DramaQA [2], superando las líneas de base supervisadas.