paint-brush
Um método de resumir e pesquisar para responder a perguntas longas em vídeo: métodopor@kinetograph
107 leituras

Um método de resumir e pesquisar para responder a perguntas longas em vídeo: método

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: método
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de links

2. Método


Figura 2: O resultado qualitativo mostrando nosso modelo Long Story Short (LSS) proposto que gera e recupera o índice de imagens de vídeo brutas. Quando o modelo prevê a resposta final a partir (i) do resumo gerado e (ii) do contexto do texto recuperado, o CLIPCheck valida as respostas de cada candidato para revisar a resposta final da pergunta.

2.1. Geração de plotagem

2.2. Pesquisa narrativa

Dada a narrativa resumida e a questão, desejamos recuperar o clipe relativamente curto relevante para a questão do vídeo longo. Os modelos de linguagem geram texto aberto, irregular e frequentemente barulhento. Para recuperar a parte exata do vídeo, direcionamos o modelo para gerar índices do gráfico em vez da forma de texto.



Os índices gerados ainda podem apresentar ruído devido à natureza aberta dos modelos de linguagem. Quando o modelo gera uma resposta em forma de texto, usamos a pontuação rouge-l [19] para encontrar candidatos a peças de enredo cuja similaridade com a sentença gerada esteja acima do limite especificado α ≥ 0,5.


2.3. Verificação visual