260 lecturas

Un método de resumen y luego búsqueda para responder preguntas en video largas: conclusión

por Kinetograph: The Video Editing Technology Publication1m2024/05/26

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.

featured image - Un método de resumen y luego búsqueda para responder preguntas en video largas: conclusión

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

5. Conclusión

Presentamos Long Story Short, un método de resumen y luego búsqueda para comprender tanto la narrativa global como los detalles relevantes para el control de calidad de la narrativa de video. Nuestro enfoque es efectivo cuando el contexto de control de calidad es amplio y es necesaria una interacción de alto nivel con dicho contexto para resolver dicho control de calidad, como es el caso de los controles de calidad de videos largos. Además, proponemos mejorar aún más la base visual de la respuesta generada por el modelo mediante una verificación posterior de la alineación visual con CLIPCheck. Nuestro método de disparo cero mejora los enfoques supervisados de última generación en los puntos de referencia MovieQA y DramaQA. Planeamos publicar el código y los datos de la trama generados.

Hay dos posibles direcciones de investigación más allá de este trabajo: primero, proporcionar descripciones visuales mejor alineadas con la historia con reidentificación de personajes y resolución de correferencia para mejorar la calidad de entrada a GPT-3. En segundo lugar, se puede idear una búsqueda de múltiples saltos más dinámica que combine información global y local de manera jerárquica.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

ETIQUETAS

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

ESTE ARTÍCULO FUE PRESENTADO EN...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas