paint-brush
Un método de resumen y luego búsqueda para responder preguntas en video largas: conclusiónpor@kinetograph
260 lecturas

Un método de resumen y luego búsqueda para responder preguntas en video largas: conclusión

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.
featured image - Un método de resumen y luego búsqueda para responder preguntas en video largas: conclusión
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

5. Conclusión

Presentamos Long Story Short, un método de resumen y luego búsqueda para comprender tanto la narrativa global como los detalles relevantes para el control de calidad de la narrativa de video. Nuestro enfoque es efectivo cuando el contexto de control de calidad es amplio y es necesaria una interacción de alto nivel con dicho contexto para resolver dicho control de calidad, como es el caso de los controles de calidad de videos largos. Además, proponemos mejorar aún más la base visual de la respuesta generada por el modelo mediante una verificación posterior de la alineación visual con CLIPCheck. Nuestro método de disparo cero mejora los enfoques supervisados de última generación en los puntos de referencia MovieQA y DramaQA. Planeamos publicar el código y los datos de la trama generados.


Hay dos posibles direcciones de investigación más allá de este trabajo: primero, proporcionar descripciones visuales mejor alineadas con la historia con reidentificación de personajes y resolución de correferencia para mejorar la calidad de entrada a GPT-3. En segundo lugar, se puede idear una búsqueda de múltiples saltos más dinámica que combine información global y local de manera jerárquica.