Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Orçamento Computacional. Long Story Short usa GPT-3 (parâmetros 175B) via API OpenAI como backbone. Um prompt médio para resumir um segmento de vídeo processa cerca de 3.000 tokens, enquanto um prompt de controle de qualidade geralmente leva cerca de 4.000 tokens. Para CLIPCheck, extraímos recursos CLIP e calculamos a similaridade de cosseno usando uma única GPU NVIDIA A6000: leva 0,5 hora para processar quadros de vídeo para a divisão de validação do MovieQA.
Hiperparâmetros . Todos os hiperparâmetros são predefinidos através da análise de uma única amostra de treinamento. Para pesquisa narrativa, usamos o limite de similaridade de sentença α ≥ 0,5 para encontrar peças da trama quando o GPT-3 não produz um único índice. Usamos o limite de entropia binária E ′ ≥ 0,4 no CLIPCheck. Executamos cada experimento apenas uma vez, pois nosso método é determinístico e não é suscetível à aleatoriedade na inicialização.
Esquema de segmentação de vídeo. Existem anotações de limite de segmento predefinidas para todos os conjuntos de dados que utilizamos neste artigo. Além disso, todas as partes do gráfico têm segmentos de clipe alinhados, uma vez que realizamos o resumo em cada clipe segmentado com os limites predefinidos. Além disso, antes de aplicar o LSS, filtramos os segmentos do clipe que 1. são muito curtos, 2. não têm quadro de imagem alinhado ou 3. não têm contexto de texto para garantir que possamos recuperar os segmentos do clipe usando resumos de plotagem.
Bibliotecas Externas. Usamos a API OpenAI para acessar o modelo de linguagem GPT-3. Os recursos CLIP são calculados com as implementações Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).