paint-brush
Um método de resumir e pesquisar para responder a perguntas longas em vídeo: experimentospor@kinetograph

Um método de resumir e pesquisar para responder a perguntas longas em vídeo: experimentos

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de links

3. Experimentos

Para todos os experimentos, usamos GPT-3 [1] (text-davinci-003) como modelo de linguagem de backbone. Salvo indicação em contrário, usamos o limite do clipe de verdade para segmentar os vídeos. Todas as variantes do LSS não usam nenhum dado de treinamento e, portanto, são métodos de disparo zero.


Tabela 1: Avaliação na divisão de validação do MovieQA. O conjunto de dados fornece alinhamento GT com 3 minutos de videoclipe em média: Também relatamos a nossa pesquisa, que pesquisa todo o contexto do filme sem alinhamento GT. (V) indica Vídeo e (S) indica Legenda.


Tabela 2: Avaliação da divisão de validação do PororoQA. O gráfico gerado por máquina (+Plot) tem desempenho próximo às anotações humanas (Base).


Tabela 3: Avaliação nos níveis três e quatro da divisão de validação do DramaQA. CLIPCheck atinge o que há de mais moderno em relação às linhas de base e uma abordagem baseada em prompt [35] de inserção de descrições de imagens.


Tabela 4: Estudo de ablação na divisão de validação do MovieQA.

3.1. Avaliando uma longa história curta

MovieQA [27] é um conjunto de dados de controle de qualidade em grande escala proveniente de 408 filmes. Existem múltiplas fontes de informação no conjunto de dados; legendas, roteiros, DVS, videoclipes e enredos. Relatamos quatro linhas de base supervisionadas de última geração; A2A [20], PAMN [11], UniversalQA [10] e DHTCN [21].


A Tabela 1 mostra melhorias no LSS de disparo zero em relação às abordagens supervisionadas anteriores. Além disso, a nossa pesquisa mostra um forte desempenho mesmo sem o rótulo de índice de segmento de verdade. CLIPCheck melhora ligeiramente a precisão na divisão do vídeo. No entanto, a diferença é marginal, uma vez que o MovieQA geralmente requer uma base baseada em personagens, em vez de uma correspondência visual geral. Finalmente, experimentamos a hipótese nula: No Context testa se o GPT-3 resolve o MovieQA simplesmente memorizando cada fato. No Context tem desempenho pior que LSS, rejeitando a hipótese nula.


PororoQA [13] é um conjunto de dados de controle de qualidade de história em vídeo construído a partir de uma série de desenhos animados. A linha de base supervisionada leva o gráfico gerado por humanos e o índice de segmento de vídeo de verdade, enquanto LSS +Plot+Search não leva nenhum deles.


A Tabela 2 resume nosso resultado no conjunto de dados PororoQA. Ao usar o episódio e os gráficos reais, o GPT-3 tem um desempenho quase igual ao da linha de base supervisionada. Substituir um resumo gerado por humanos por um gerado por modelo resulta apenas em uma queda marginal de desempenho. Talvez o mais intrigante seja o fato de o processo de pesquisa funcionar melhor ao usar gráficos gerados por modelo. Atribuímos este resultado ao fato de que as anotações humanas não são projetadas para discriminabilidade de episódios.

3.2. Avaliando CLIPCheck

DramaQA [3] é um conjunto de dados de controle de qualidade de vídeo que se concentra na compreensão da história. O conjunto de dados é organizado com quatro níveis de dificuldade hierárquica, que acompanham os estágios de desenvolvimento cognitivo humano. Avaliamos o LSS nos dois níveis elevados do DramaQA para testar a compreensão do enredo. Relatamos duas linhas de base mais recentes no DramaQA em nível; CharacterAttention e Kim et al. [14].


Comparamos o efeito de CLIPCheck e Caption, um método baseado em prompt de incorporação de descrições de quadros de imagem extraídas do BLIP [18] como entradas para GPT-3. A Tabela 3 mostra que o CLIPCheck oferece melhorias maiores do que as descrições de imagens. Além disso, embora a adição de legendas de imagens melhore o LSS, o ganho desaparece quando usado em conjunto com o CLIPCheck. Suspeitamos que isso ocorre porque as legendas dos quadros fornecem informações semelhantes às do CLIPCheck, embora sejam muito mais barulhentas. Observe que as legendas automáticas aqui não são um componente integrante do LSS. Como o DramaQA já possui anotações visualmente fundamentadas, adicionar legendas automáticas de imagem não melhoraria necessariamente o desempenho do modelo. Em vez disso, usamos as legendas para comparar explicitamente os métodos de alinhamento visual iniciais e tardios.


Figura 3: Comparação entre o resumo do enredo gerado pelo LSS e o resumo da verdade da Wikipedia. Aqui mostramos apenas os dois primeiros parágrafos de todo o gráfico por causa do limite de espaço.


Finalmente, verificamos se o CLIPCheck explora o viés do conjunto de dados em vez de compreender o contexto visual. Para tanto, elaboramos uma variante do CLIPCheck com contexto visual aleatório (CLIPCheck-Shuffle). CLIPCheck-Shuffle não melhora em relação ao LSS sem CLIPCheck, negando a hipótese de viés.

3.3. Estudo de Ablação

Tanto a sumarização quanto a busca são importantes para a compreensão narrativa? Aqui, avaliamos variantes LSS com contexto completo sem a busca narrativa (LSS-Full) ou com o resumo do enredo e segmento aleatório como entradas (LSS-Random). A Tabela 4 mostra que tanto o LSS-Full quanto o LSS-Random ficam atrás do LSS-Search, indicando a importância da recuperação. Observe que não foi possível empregar o contexto completo no LSS-Full devido à limitação do comprimento do token. Em vez disso, usamos o prefixo mais longo do contexto completo que o GPT3 aceita (4.000 tokens menos o comprimento da instrução).


Figura 4: Amostras do processo de controle de qualidade no LSS. O condicionamento na trama pesquisada tem um impacto substancial na distribuição de probabilidade de resposta do modelo de linguagem.

3.4. Resultados Qualitativos

A Figura 3 mostra o resumo automático do gráfico gerado como um contexto intermediário do controle de qualidade de vídeo longo usando o modelo de linguagem na estrutura LSS. Conforme mostrado na amostra qualitativa, os gráficos gerados alinham-se bem com os gráficos escritos por humanos da Wikipedia. Por exemplo, na primeira cena do filme "Harry Potter e as Relíquias da Morte", o resumo do LSS escreve corretamente que Harry Potter tem atualmente 17 anos e o evento principal em que os Comensais da Morte atacam o protagonista.


A Figura 4 mostra a conexão entre o pedaço do enredo pesquisado e a probabilidade de resposta. No exemplo à esquerda, o resumo recuperado conta que Trench cometeu um crime e, portanto, está fugindo, sugerindo que outro personagem interessado nele o estaria perseguindo. O modelo de linguagem entende esse contexto para modificar a probabilidade de resposta da maneira correta. No exemplo certo, a trama do LSS sugere que Edward está confiante em sua decisão. Embora este contexto não ofereça uma pista directa para a questão, o modelo linguístico vê-o como informação suficientemente forte para alterar a resposta.