Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Apresentamos o Long Story Short, um método de resumo e pesquisa para compreender a narrativa global e os detalhes relevantes para o controle de qualidade da narrativa em vídeo. Nossa abordagem é eficaz quando o contexto de QA é vasto e uma interação de alto nível com tal contexto é necessária para resolver o referido QA, o que é o caso em QAs de vídeo longos. Além disso, propomos melhorar ainda mais a base visual da resposta gerada pelo modelo, verificando posteriormente o alinhamento visual com CLIPCheck. Nosso método zero-shot melhora abordagens supervisionadas de última geração nos benchmarks MovieQA e DramaQA. Planejamos divulgar o código e os dados do gráfico gerados ao público.
Existem duas direções de pesquisa possíveis além deste trabalho: primeiro, fornecer descrições visuais melhor alinhadas com a história, com reidentificação de personagens e resolução de co-referência, melhorando a qualidade de entrada para GPT-3. Em segundo lugar, pode-se conceber uma busca multi-hop mais dinâmica que combine informações globais e locais de maneira hierárquica.