Autores:
(1) Shehan Munasinghe, Universidade Mohamed bin Zayed de IA e Contribuição Igualitária;
(2) Rusiru Thushara, Universidade Mohamed bin Zayed de IA e Contribuição Igualitária;
(3) Muhammad Maaz, Universidade Mohamed bin Zayed de AI;
(4) Hanoona Abdul Rasheed, Universidade Mohamed bin Zayed de IA;
(5) Salman Khan, Universidade Mohamed bin Zayed de IA e Universidade Nacional Australiana;
(6) Mubarak Shah, Universidade da Flórida Central;
(7) Fahad Khan, Universidade Mohamed bin Zayed de IA e Universidade de Linköping.
Nota do editor: Esta é a Parte 1 de 10 de um estudo detalhando o desenvolvimento de um modelo de IA mais inteligente para vídeos. Leia o restante abaixo.
Material suplementar
Estender Large Multimodal Models (LMMs) baseados em imagem para vídeos é desafiador devido à complexidade inerente dos dados de vídeo. As abordagens recentes que estendem LMMs baseados em imagem para vídeos não têm os recursos de aterramento (por exemplo, VideoChat, Video-ChatGPT, Video-LLaMA) ou não utilizam os sinais de áudio para melhor compreensão do vídeo (por exemplo, Video-ChatGPT). Abordando essas lacunas, propomos o PG-Video-LLaVA, o primeiro LMM com capacidade de aterramento em nível de pixel, integrando dicas de áudio ao transcrevê-las em texto para enriquecer a compreensão do contexto do vídeo. Nossa estrutura usa um rastreador pronto para uso e um novo módulo de aterramento, permitindo que ele localize objetos espacialmente em vídeos seguindo as instruções do usuário. Avaliamos o PG-Video-LLaVA usando benchmarks generativos e de resposta a perguntas baseados em vídeo e introduzimos novos benchmarks projetados especificamente para medir o desempenho de aterramento de objetos baseado em prompt em vídeos. Além disso, propomos o uso do Vicuna sobre o GPT-3.5, como utilizado no VideoChatGPT, para benchmarking de conversação baseada em vídeo, garantindo a reprodutibilidade dos resultados, o que é uma preocupação com a natureza proprietária do GPT-3.5. Nossa estrutura se baseia no modelo LLaVA baseado em imagem SoTA e estende suas vantagens ao domínio do vídeo, fornecendo ganhos promissores em conversação baseada em vídeo e tarefas de aterramento.
Esforços recentes em Large Multimodal Models (LMMs), liderados pelo GPT-4V [25], permitem conversas detalhadas sobre imagens, mas geralmente não se adaptam bem a vídeos. A magnitude dos dados de vídeo se adapta muito além de outras modalidades devido ao seu volume massivo em mídias sociais e na internet. Além disso, estender LMMs a vídeos é desafiador devido à sua dinâmica complexa com longo contexto temporal que precisa ser compreendido com precisão. Embora recentes
abordagens para vídeo-LMMs como VideoChat [15], Video-LLaMA [45] e Video-ChatGPT [22] demonstraram capacidades em compreensão de vídeo e diálogo, elas não têm a característica crucial de aterramento visual. O aterramento visual em vídeos visa associar as respostas LMM a objetos específicos dentro da entrada de vídeo. Abordando essa lacuna, apresentamos PG-Video-LLaVA, o primeiro vídeo-LMM capaz de localizar objetos que aparecem em respostas LMM. Essa tarefa leva a uma intratabilidade aprimorada e demonstra uma compreensão profunda do conteúdo de vídeo.
No PG-Video-LLaVA, abordamos os desafios únicos impostos pelos dados de vídeo. O modelo é projetado para rastrear objetos em clipes de vídeo mais curtos que mantêm visualizações de câmera consistentes, permitindo aterramento visual preciso em cenas e movimentos. Esse rastreamento vincula segmentos espaço-temporais diretamente a elementos de conversação, aprimorando a compreensão contextual do modelo. Uma característica marcante do PG-VideoLLaVA é seu design modular, permitindo fácil integração com módulos de aterramento existentes e a flexibilidade para se adaptar a melhorias futuras na tecnologia de aterramento visual. Além disso, o PG-Video-LLaVA enriquece seus recursos incorporando contexto de áudio. Ele consegue isso alavancando áudio de vídeo em um formato compreensível para LLM, o que é particularmente útil em situações em que as informações auditivas são essenciais para a conversa. Essa inclusão amplia a compreensão do modelo, tornando-o mais versátil na interpretação de conteúdo de vídeo.
Além disso, este trabalho apresenta uma estrutura aprimorada para benchmarking de modelos de conversação baseados em vídeo, partindo de abordagens anteriores [22] que usavam predominantemente o modelo proprietário GPT-3.5-Turbo para avaliação. Dado que o GPT-3.5-Turbo está sujeito a mudanças a qualquer momento e carece de transparência devido à sua natureza de código fechado, ele apresenta desafios em termos de confiabilidade e reprodutibilidade. Para resolver isso, propomos o uso do Vicuna, um LLM de código aberto para benchmarking. Essa mudança não apenas melhora a reprodutibilidade, mas também melhora a transparência no processo de avaliação. Avaliamos o PG-Video-LLaVA usando nossos benchmarks aprimorados e mostramos melhorias notáveis em relação aos modelos de conversação de vídeo existentes, como VideoChatGPT [22] e Video-LLaMA [45] em diálogos não fundamentados, alcançando desempenho de última geração (SoTA).
As principais contribuições deste trabalho são:
• Propomos o PG-Video-LLaVA, o primeiro LMM baseado em vídeo com recursos de aterramento em nível de pixel, apresentando um design modular para maior flexibilidade.
• Ao incorporar o contexto de áudio, o PG-Video-LLaVA melhora significativamente sua compreensão do conteúdo de vídeo, tornando-o mais abrangente e adequado para cenários em que o sinal de áudio é crucial para a compreensão do vídeo (por exemplo, diálogos e conversas, vídeos de notícias, etc.).
• Apresentamos benchmarks quantitativos aprimorados para modelos de conversação baseados em vídeo. Nossos benchmarks utilizam Vicuna LLM de código aberto para garantir melhor reprodutibilidade e transparência. Também propomos benchmarks para avaliar as capacidades de aterramento de modelos de conversação baseados em vídeo.
Este artigo está disponível no arxiv sob a licença CC BY 4.0 DEED.