paint-brush
Un método de resumen y luego búsqueda para responder preguntas largas en video: trabajo relacionadopor@kinetograph

Un método de resumen y luego búsqueda para responder preguntas largas en video: trabajo relacionado

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.
featured image - Un método de resumen y luego búsqueda para responder preguntas largas en video: trabajo relacionado
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

4. Trabajo relacionado

Resumen de películas Las películas son ejemplos típicos de vídeos largos con estructuras narrativas claras. Gorinski et al. [7]generan la versión más corta de un guión como la tarea de encontrar una cadena gráfica óptima de una escena de película. TRIPOD [23] es un conjunto de datos de guiones que contiene anotaciones sobre puntos de inflexión. En el mismo trabajo se propone un modelo automático para identificar el punto de inflexión a partir de narrativas cinematográficas. Papalampidi et al. [24] posteriormente utiliza la serie de televisión CSI para demostrar la utilidad de los puntos de inflexión en el resumen automático de películas. Lee y cols. [15] mejora aún más la identificación del punto de inflexión con funciones de diálogo y arquitectura del transformador.


Control de calidad en video largo La tarea de responder preguntas en video se ha estudiado ampliamente en la literatura en forma de control de calidad abierto [9] y problemas de opción múltiple [28, 29]. Se han propuesto varios enfoques para abordar esta tarea, desde redes de atención basadas en RNN [9, 30, 36, 38] hasta redes de memoria [12, 22, 27] y transformadores [4, 6]. Recientemente, los modelos multimodales previamente entrenados en conjuntos de datos de video a gran escala (VideoQA [31], VIOLET [5] y MERLOT [33] y MERLOT-Reserve [34]) también muestran un rendimiento prometedor en la respuesta a preguntas en video.


Sin embargo, el control de calidad de los vídeos largos ha recibido relativamente menos atención a pesar de su importancia. MovieQA [27] formula controles de calidad para películas completas, que normalmente duran dos largas horas. DramaQA [3] utiliza una sola serie de televisión como contexto visual y asigna a un solucionador la tarea de comprender videoclips de una duración de uno a veinte minutos.