Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).
Resumen de películas Las películas son ejemplos típicos de vídeos largos con estructuras narrativas claras. Gorinski et al. [7]generan la versión más corta de un guión como la tarea de encontrar una cadena gráfica óptima de una escena de película. TRIPOD [23] es un conjunto de datos de guiones que contiene anotaciones sobre puntos de inflexión. En el mismo trabajo se propone un modelo automático para identificar el punto de inflexión a partir de narrativas cinematográficas. Papalampidi et al. [24] posteriormente utiliza la serie de televisión CSI para demostrar la utilidad de los puntos de inflexión en el resumen automático de películas. Lee y cols. [15] mejora aún más la identificación del punto de inflexión con funciones de diálogo y arquitectura del transformador.
Control de calidad en video largo La tarea de responder preguntas en video se ha estudiado ampliamente en la literatura en forma de control de calidad abierto [9] y problemas de opción múltiple [28, 29]. Se han propuesto varios enfoques para abordar esta tarea, desde redes de atención basadas en RNN [9, 30, 36, 38] hasta redes de memoria [12, 22, 27] y transformadores [4, 6]. Recientemente, los modelos multimodales previamente entrenados en conjuntos de datos de video a gran escala (VideoQA [31], VIOLET [5] y MERLOT [33] y MERLOT-Reserve [34]) también muestran un rendimiento prometedor en la respuesta a preguntas en video.
Sin embargo, el control de calidad de los vídeos largos ha recibido relativamente menos atención a pesar de su importancia. MovieQA [27] formula controles de calidad para películas completas, que normalmente duran dos largas horas. DramaQA [3] utiliza una sola serie de televisión como contexto visual y asigna a un solucionador la tarea de comprender videoclips de una duración de uno a veinte minutos.