paint-brush
Um método de resumir e pesquisar para respostas longas a perguntas em vídeo nos detalhes do experimentopor@kinetograph

Um método de resumir e pesquisar para respostas longas a perguntas em vídeo nos detalhes do experimento

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para respostas longas a perguntas em vídeo nos detalhes do experimento
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de Links

A. Detalhes do experimento

Orçamento Computacional. Long Story Short usa GPT-3 (parâmetros 175B) via API OpenAI como backbone. Um prompt médio para resumir um segmento de vídeo processa cerca de 3.000 tokens, enquanto um prompt de controle de qualidade geralmente leva cerca de 4.000 tokens. Para CLIPCheck, extraímos recursos CLIP e calculamos a similaridade de cosseno usando uma única GPU NVIDIA A6000: leva 0,5 hora para processar quadros de vídeo para a divisão de validação do MovieQA.


Hiperparâmetros . Todos os hiperparâmetros são predefinidos através da análise de uma única amostra de treinamento. Para pesquisa narrativa, usamos o limite de similaridade de sentença α ≥ 0,5 para encontrar peças da trama quando o GPT-3 não produz um único índice. Usamos o limite de entropia binária E ′ ≥ 0,4 no CLIPCheck. Executamos cada experimento apenas uma vez, pois nosso método é determinístico e não é suscetível à aleatoriedade na inicialização.


Esquema de segmentação de vídeo. Existem anotações de limite de segmento predefinidas para todos os conjuntos de dados que utilizamos neste artigo. Além disso, todas as partes do gráfico têm segmentos de clipe alinhados, uma vez que realizamos o resumo em cada clipe segmentado com os limites predefinidos. Além disso, antes de aplicar o LSS, filtramos os segmentos do clipe que 1. são muito curtos, 2. não têm quadro de imagem alinhado ou 3. não têm contexto de texto para garantir que possamos recuperar os segmentos do clipe usando resumos de plotagem.


Bibliotecas Externas. Usamos a API OpenAI para acessar o modelo de linguagem GPT-3. Os recursos CLIP são calculados com as implementações Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).