paint-brush
Um método de resumir e pesquisar para responder a perguntas longas em vídeo: trabalhos relacionadospor@kinetograph

Um método de resumir e pesquisar para responder a perguntas longas em vídeo: trabalhos relacionados

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: trabalhos relacionados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de links

4. Trabalho Relacionado

Resumo de filmes Os filmes são exemplos típicos de vídeos longos com estruturas narrativas claras. Gorinski et al. [7]gerar a versão mais curta de um roteiro como a tarefa de encontrar uma cadeia gráfica ideal de uma cena de filme. TRIPOD [23] é um conjunto de dados de roteiro contendo anotações de pontos de viragem. No mesmo trabalho é proposto um modelo automático para identificar o ponto de inflexão nas narrativas cinematográficas. Papalampidi et al. [24] mais tarde usa a série de TV CSI para demonstrar a utilidade dos pontos decisivos na sumarização automática de filmes. Lee et al. [15] melhora ainda mais a identificação do ponto de inflexão com recursos de diálogo e arquitetura do transformador.


Controle de qualidade de vídeo longo A tarefa de responder a perguntas em vídeo foi estudada extensivamente na literatura na forma de controle de qualidade aberto [9] e problemas de múltipla escolha [28, 29]. Várias abordagens foram propostas para resolver esta tarefa, começando com redes de atenção baseadas em RNN [9, 30, 36, 38], até redes de memória [12, 22, 27] e transformadores [4, 6]. Recentemente, modelos multimodais pré-treinados em conjuntos de dados de vídeo em grande escala (VideoQA [31], VIOLET [5] e MERLOT [33] e MERLOT-Reserve [34]) também mostram desempenho promissor na resposta a perguntas de vídeo.


No entanto, o controle de qualidade de vídeos longos recebeu relativamente menos atenção, apesar de sua importância. MovieQA [27] formula QAs para filmes inteiros, que normalmente duram duas longas horas. DramaQA [3] usa uma única série de TV como contexto visual e encarrega um solucionador de entender videoclipes com duração de um a vinte minutos.