paint-brush
Um método de resumir e pesquisar para responder a perguntas longas em vídeo: conclusãopor@kinetograph
258 leituras

Um método de resumir e pesquisar para responder a perguntas longas em vídeo: conclusão

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.
featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: conclusão
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tabela de links

5. Conclusão

Apresentamos o Long Story Short, um método de resumo e pesquisa para compreender a narrativa global e os detalhes relevantes para o controle de qualidade da narrativa em vídeo. Nossa abordagem é eficaz quando o contexto de QA é vasto e uma interação de alto nível com tal contexto é necessária para resolver o referido QA, o que é o caso em QAs de vídeo longos. Além disso, propomos melhorar ainda mais a base visual da resposta gerada pelo modelo, verificando posteriormente o alinhamento visual com CLIPCheck. Nosso método zero-shot melhora abordagens supervisionadas de última geração nos benchmarks MovieQA e DramaQA. Planejamos divulgar o código e os dados do gráfico gerados ao público.


Existem duas direções de pesquisa possíveis além deste trabalho: primeiro, fornecer descrições visuais melhor alinhadas com a história, com reidentificação de personagens e resolução de co-referência, melhorando a qualidade de entrada para GPT-3. Em segundo lugar, pode-se conceber uma busca multi-hop mais dinâmica que combine informações globais e locais de maneira hierárquica.