Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Grandes modelos de linguagem, como o GPT-3, demonstraram uma capacidade impressionante de adaptação a novas tarefas sem exigir dados de treinamento específicos da tarefa. Esta capacidade tem sido particularmente eficaz em ambientes como a resposta narrativa a perguntas, onde a diversidade de tarefas é imensa, mas os dados de supervisão disponíveis são pequenos. Neste trabalho, investigamos se tais modelos de linguagem podem estender suas habilidades de raciocínio zero-shot para longas narrativas multimodais em conteúdos multimídia como drama, filmes e animação, onde a história desempenha um papel essencial. Propomos Long Story Short, uma estrutura para controle de qualidade narrativo de vídeo que primeiro resume a narrativa do vídeo em um enredo curto e depois pesquisa partes do vídeo relevantes para a questão. Também propomos melhorar a correspondência visual com CLIPCheck. Nosso modelo supera os modelos supervisionados de última geração por uma grande margem, destacando o potencial do controle de qualidade zero-shot para vídeos longos.
Modelos recentes de controle de qualidade de vídeo enfrentam desafios no manuseio de longas tarefas de controle de qualidade de narrativas de vídeo [2, 13, 27] (ou seja, filmes, dramas e vídeos da web do YouTube) devido à limitação de dados e anotações. Isso resulta na incapacidade de compreender as longas narrativas de vídeo além de responder principalmente a questões visuais em videoclipes curtos [16, 17, 30]. Os tamanhos desses longos QAs de vídeo são insuficientes para treinar os modelos para compreender totalmente as estruturas narrativas complexas dentro de um vídeo, produzindo desempenhos abaixo do ideal. [10] demonstram que os modelos supervisionados dependem mais de vieses de linguagem na questão do que do contexto narrativo: eles podem obter desempenho semelhante mesmo sem ver qualquer contexto de vídeo. Isto destaca a necessidade da capacidade de raciocínio multimodal além da supervisão específica de pequenas tarefas.
Para enfrentar o desafio causado pela baixa generalização, uma abordagem zero-shot usando Large Language Models (LLMs) pré-treinados pode ser uma alternativa eficiente para lidar com tarefas complexas de controle de qualidade [32] e resumo de contexto de texto [8, 37]. No entanto, a capacidade narrativa de controle de qualidade de tais LLMs é transferível para o domínio do vídeo?
Propomos Long Story Short (LSS), ilustrado na figura 1, que traduz videoclipes em formato de roteiro de texto inspirado no Modelo Socrático [35]. Usando GPT-3 [1], primeiro resumimos o vídeo longo em uma lista de gráficos e, em seguida, navegamos tanto no resumo gerado quanto no contexto bruto do vídeo para resolver a questão dada. Nosso método zero-shot mostra melhores resultados do que os métodos supervisionados de última geração no conjunto de dados MovieQA e DramaQA. Além disso, propomos o CLIPCheck, um método de correspondência visual-texto para melhorar o alinhamento visual dos resultados de raciocínio fornecidos pelo GPT-3. Para resumir, nossas principais contribuições são triplas:
Apresentamos o LSS, um framework que resume uma longa narrativa em vídeo a uma lista de enredos e recupera o subenredo relevante para a questão.
Demonstramos a importância de considerar a força do alinhamento visual por meio da correspondência baseada em CLIP no prompt visual.
Nossa abordagem zero-shot alcança desempenho de última geração em MovieQA [27] e DramaQA [2], superando linhas de base supervisionadas.