paint-brush
Um método de resumir e pesquisar para responder a perguntas longas em vídeo: resumo e introduçãopor@kinetograph
136 leituras

Um método de resumir e pesquisar para responder a perguntas longas em vídeo: resumo e introdução

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: resumo e introdução
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de links

Abstrato

Grandes modelos de linguagem, como o GPT-3, demonstraram uma capacidade impressionante de adaptação a novas tarefas sem exigir dados de treinamento específicos da tarefa. Esta capacidade tem sido particularmente eficaz em ambientes como a resposta narrativa a perguntas, onde a diversidade de tarefas é imensa, mas os dados de supervisão disponíveis são pequenos. Neste trabalho, investigamos se tais modelos de linguagem podem estender suas habilidades de raciocínio zero-shot para longas narrativas multimodais em conteúdos multimídia como drama, filmes e animação, onde a história desempenha um papel essencial. Propomos Long Story Short, uma estrutura para controle de qualidade narrativo de vídeo que primeiro resume a narrativa do vídeo em um enredo curto e depois pesquisa partes do vídeo relevantes para a questão. Também propomos melhorar a correspondência visual com CLIPCheck. Nosso modelo supera os modelos supervisionados de última geração por uma grande margem, destacando o potencial do controle de qualidade zero-shot para vídeos longos.

1. Introdução

Modelos recentes de controle de qualidade de vídeo enfrentam desafios no manuseio de longas tarefas de controle de qualidade de narrativas de vídeo [2, 13, 27] (ou seja, filmes, dramas e vídeos da web do YouTube) devido à limitação de dados e anotações. Isso resulta na incapacidade de compreender as longas narrativas de vídeo além de responder principalmente a questões visuais em videoclipes curtos [16, 17, 30]. Os tamanhos desses longos QAs de vídeo são insuficientes para treinar os modelos para compreender totalmente as estruturas narrativas complexas dentro de um vídeo, produzindo desempenhos abaixo do ideal. [10] demonstram que os modelos supervisionados dependem mais de vieses de linguagem na questão do que do contexto narrativo: eles podem obter desempenho semelhante mesmo sem ver qualquer contexto de vídeo. Isto destaca a necessidade da capacidade de raciocínio multimodal além da supervisão específica de pequenas tarefas.


Para enfrentar o desafio causado pela baixa generalização, uma abordagem zero-shot usando Large Language Models (LLMs) pré-treinados pode ser uma alternativa eficiente para lidar com tarefas complexas de controle de qualidade [32] e resumo de contexto de texto [8, 37]. No entanto, a capacidade narrativa de controle de qualidade de tais LLMs é transferível para o domínio do vídeo?



Figura 1: Long Story Short (LSS) usa Large Language Models (LLMs) (ou seja, GPT-3) para gerar (a) roteiro e (b) enredos resumidos do vídeo. Mais detalhes sobre o processamento de dados podem ser encontrados na Seção 2. Quando o LSS responde a perguntas sobre o vídeo, o modelo (c) valida a filmagem de vídeo bruta fornecida com o Modelo de Linguagem Visual, CLIP e (d) pesquisa scripts mais fundamentados de maneira retroativa, que chamamos de CLIPCheck na Seção 2.3.



Propomos Long Story Short (LSS), ilustrado na figura 1, que traduz videoclipes em formato de roteiro de texto inspirado no Modelo Socrático [35]. Usando GPT-3 [1], primeiro resumimos o vídeo longo em uma lista de gráficos e, em seguida, navegamos tanto no resumo gerado quanto no contexto bruto do vídeo para resolver a questão dada. Nosso método zero-shot mostra melhores resultados do que os métodos supervisionados de última geração no conjunto de dados MovieQA e DramaQA. Além disso, propomos o CLIPCheck, um método de correspondência visual-texto para melhorar o alinhamento visual dos resultados de raciocínio fornecidos pelo GPT-3. Para resumir, nossas principais contribuições são triplas:


  1. Apresentamos o LSS, um framework que resume uma longa narrativa em vídeo a uma lista de enredos e recupera o subenredo relevante para a questão.


  2. Demonstramos a importância de considerar a força do alinhamento visual por meio da correspondência baseada em CLIP no prompt visual.


  3. Nossa abordagem zero-shot alcança desempenho de última geração em MovieQA [27] e DramaQA [2], superando linhas de base supervisionadas.