Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).
Presentamos Long Story Short, un método de resumen y luego búsqueda para comprender tanto la narrativa global como los detalles relevantes para el control de calidad de la narrativa de video. Nuestro enfoque es efectivo cuando el contexto de control de calidad es amplio y es necesaria una interacción de alto nivel con dicho contexto para resolver dicho control de calidad, como es el caso de los controles de calidad de videos largos. Además, proponemos mejorar aún más la base visual de la respuesta generada por el modelo mediante una verificación posterior de la alineación visual con CLIPCheck. Nuestro método de disparo cero mejora los enfoques supervisados de última generación en los puntos de referencia MovieQA y DramaQA. Planeamos publicar el código y los datos de la trama generados.
Hay dos posibles direcciones de investigación más allá de este trabajo: primero, proporcionar descripciones visuales mejor alineadas con la historia con reidentificación de personajes y resolución de correferencia para mejorar la calidad de entrada a GPT-3. En segundo lugar, se puede idear una búsqueda de múltiples saltos más dinámica que combine información global y local de manera jerárquica.