paint-brush
Un método de resumen y luego búsqueda para respuestas largas a preguntas en video en detalles del experimentopor@kinetograph

Un método de resumen y luego búsqueda para respuestas largas a preguntas en video en detalles del experimento

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.
featured image - Un método de resumen y luego búsqueda para respuestas largas a preguntas en video en detalles del experimento
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).

Tabla de enlaces

A. Detalles del experimento

Presupuesto computacional. Long Story Short utiliza GPT-3 (parámetros 175B) a través de la API OpenAI como columna vertebral. Un mensaje promedio para resumir un segmento de video procesa aproximadamente 3000 tokens, mientras que un mensaje de control de calidad generalmente requiere aproximadamente 4000 tokens. Para CLIPCheck, extraemos las características CLIP y calculamos la similitud del coseno utilizando una única GPU NVIDIA A6000: se necesitan 0,5 horas para procesar cuadros de video para la división de validación MovieQA.


Hiperparámetros . Todos los hiperparámetros están predefinidos analizando una única muestra de entrenamiento. Para la búsqueda narrativa, utilizamos el umbral de similitud de oraciones α ≥ 0,5 para encontrar partes de la trama cuando GPT-3 no genera un índice único. Usamos el umbral de entropía binaria E ′ ≥ 0,4 en CLIPCheck. Realizamos cada experimento solo una vez, ya que nuestro método es determinista y no es susceptible a la aleatoriedad en la inicialización.


Esquema de segmentación de vídeos. Existen anotaciones de límites de segmento predefinidas para todos los conjuntos de datos que utilizamos en este documento. Además, todas las piezas de la trama tienen segmentos de clip alineados a su vez, ya que realizamos un resumen en cada clip segmentado con los límites predefinidos. Además, antes de aplicar LSS, filtramos los segmentos de clip que 1. son demasiado cortos, 2. no tienen un marco de imagen alineado o 3. no tienen contexto de texto para asegurarnos de que podamos recuperar los segmentos de clip usando resúmenes de trazado.


Bibliotecas externas. Usamos la API OpenAI para acceder al modelo de lenguaje GPT-3. Las funciones CLIP se calculan con las implementaciones de Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).