paint-brush
Un método de resumen y luego búsqueda para responder preguntas largas en video: métodopor@kinetograph
108 lecturas

Un método de resumen y luego búsqueda para responder preguntas largas en video: método

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.
featured image - Un método de resumen y luego búsqueda para responder preguntas largas en video: método
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

2. Método


Figura 2: El resultado cualitativo que muestra nuestro modelo Long Story Short (LSS) propuesto que genera y recupera el índice de secuencias de video sin procesar. Cuando el modelo predice la respuesta final a partir de (i) el resumen generado y (ii) el contexto del texto recuperado, CLIPCheck valida las respuestas de cada candidato para revisar la respuesta final de la pregunta.

2.1. Generación de trama

2.2. Búsqueda narrativa

Dada la narrativa resumida y la pregunta, deseamos recuperar el clip relativamente corto relevante a la pregunta del video largo. Los modelos de lenguaje generan texto abierto, irregular y a menudo ruidoso. Para recuperar la parte exacta del video, hacemos que el modelo genere índices de la trama en lugar de la forma de texto.



Es posible que los índices generados aún sean ruidosos debido a la naturaleza abierta de los modelos de lenguaje. Cuando el modelo genera una respuesta en forma de texto, utilizamos la puntuación rouge-l [19] para encontrar candidatos a piezas de la trama cuya similitud con la oración generada esté por encima del umbral especificado α ≥ 0,5.


2.3. Comprobación visual