Autores:  (1) Shehan Munasinghe, Universidade Mohamed bin Zayed de IA e Contribuição Igualitária;  (2) Rusiru Thushara, Universidade Mohamed bin Zayed de IA e Contribuição Igualitária;  (3) Muhammad Maaz, Universidade Mohamed bin Zayed de AI;  (4) Hanoona Abdul Rasheed, Universidade Mohamed bin Zayed de IA;  (5) Salman Khan, Universidade Mohamed bin Zayed de IA e Universidade Nacional Australiana;  (6) Mubarak Shah, Universidade da Flórida Central;  (7) Fahad Khan, Universidade Mohamed bin Zayed de IA e Universidade de Linköping.   Nota do editor: Esta é a Parte 1 de 10 de um estudo detalhando o desenvolvimento de um modelo de IA mais inteligente para vídeos. Leia o restante abaixo.  Tabela de Links   Resumo e 1 Introdução   2. Trabalhos relacionados  PG-Vídeo-LLaVA   3.1. Visão geral   3.2. Arquitetura  Experimentos   4.1. Detalhes de implementação   4.2. Linha de base mais forte   4.3. Aterramento espacial em vídeos   4.4. Resposta visual a perguntas do tipo Zero-Shot   5. Conclusão e Referências   Material suplementar   A. Integração de Modalidade de Áudio   B. Aterramento visual: avaliação quantitativa   C. Resultados qualitativos para aterramento visual   D. Avaliações quantitativas do desempenho de conversas baseadas em vídeo  Resumo   Estender Large Multimodal Models (LMMs) baseados em imagem para vídeos é desafiador devido à complexidade inerente dos dados de vídeo. As abordagens recentes que estendem LMMs baseados em imagem para vídeos não têm os recursos de aterramento (por exemplo, VideoChat, Video-ChatGPT, Video-LLaMA) ou não utilizam os sinais de áudio para melhor compreensão do vídeo (por exemplo, Video-ChatGPT). Abordando essas lacunas, propomos o PG-Video-LLaVA, o primeiro LMM com capacidade de aterramento em nível de pixel, integrando dicas de áudio ao transcrevê-las em texto para enriquecer a compreensão do contexto do vídeo. Nossa estrutura usa um rastreador pronto para uso e um novo módulo de aterramento, permitindo que ele localize objetos espacialmente em vídeos seguindo as instruções do usuário. Avaliamos o PG-Video-LLaVA usando benchmarks generativos e de resposta a perguntas baseados em vídeo e introduzimos novos benchmarks projetados especificamente para medir o desempenho de aterramento de objetos baseado em prompt em vídeos. Além disso, propomos o uso do Vicuna sobre o GPT-3.5, como utilizado no VideoChatGPT, para benchmarking de conversação baseada em vídeo, garantindo a reprodutibilidade dos resultados, o que é uma preocupação com a natureza proprietária do GPT-3.5. Nossa estrutura se baseia no modelo LLaVA baseado em imagem SoTA e estende suas vantagens ao domínio do vídeo, fornecendo ganhos promissores em conversação baseada em vídeo e tarefas de aterramento.  1. Introdução  Esforços recentes em Large Multimodal Models (LMMs), liderados pelo GPT-4V [25], permitem conversas detalhadas sobre imagens, mas geralmente não se adaptam bem a vídeos. A magnitude dos dados de vídeo se adapta muito além de outras modalidades devido ao seu volume massivo em mídias sociais e na internet. Além disso, estender LMMs a vídeos é desafiador devido à sua dinâmica complexa com longo contexto temporal que precisa ser compreendido com precisão. Embora recentes   abordagens para vídeo-LMMs como VideoChat [15], Video-LLaMA [45] e Video-ChatGPT [22] demonstraram capacidades em compreensão de vídeo e diálogo, elas não têm a característica crucial de aterramento visual. O aterramento visual em vídeos visa associar as respostas LMM a objetos específicos dentro da entrada de vídeo. Abordando essa lacuna, apresentamos PG-Video-LLaVA, o primeiro vídeo-LMM capaz de localizar objetos que aparecem em respostas LMM. Essa tarefa leva a uma intratabilidade aprimorada e demonstra uma compreensão profunda do conteúdo de vídeo.  No PG-Video-LLaVA, abordamos os desafios únicos impostos pelos dados de vídeo. O modelo é projetado para rastrear objetos em clipes de vídeo mais curtos que mantêm visualizações de câmera consistentes, permitindo aterramento visual preciso em cenas e movimentos. Esse rastreamento vincula segmentos espaço-temporais diretamente a elementos de conversação, aprimorando a compreensão contextual do modelo. Uma característica marcante do PG-VideoLLaVA é seu design modular, permitindo fácil integração com módulos de aterramento existentes e a flexibilidade para se adaptar a melhorias futuras na tecnologia de aterramento visual. Além disso, o PG-Video-LLaVA enriquece seus recursos incorporando contexto de áudio. Ele consegue isso alavancando áudio de vídeo em um formato compreensível para LLM, o que é particularmente útil em situações em que as informações auditivas são essenciais para a conversa. Essa inclusão amplia a compreensão do modelo, tornando-o mais versátil na interpretação de conteúdo de vídeo.  Além disso, este trabalho apresenta uma estrutura aprimorada para benchmarking de modelos de conversação baseados em vídeo, partindo de abordagens anteriores [22] que usavam predominantemente o modelo proprietário GPT-3.5-Turbo para avaliação. Dado que o GPT-3.5-Turbo está sujeito a mudanças a qualquer momento e carece de transparência devido à sua natureza de código fechado, ele apresenta desafios em termos de confiabilidade e reprodutibilidade. Para resolver isso, propomos o uso do Vicuna, um LLM de código aberto para benchmarking. Essa mudança não apenas melhora a reprodutibilidade, mas também melhora a transparência no processo de avaliação. Avaliamos o PG-Video-LLaVA usando nossos benchmarks aprimorados e mostramos melhorias notáveis em relação aos modelos de conversação de vídeo existentes, como VideoChatGPT [22] e Video-LLaMA [45] em diálogos não fundamentados, alcançando desempenho de última geração (SoTA).  As principais contribuições deste trabalho são:  • Propomos o PG-Video-LLaVA, o primeiro LMM baseado em vídeo com recursos de aterramento em nível de pixel, apresentando um design modular para maior flexibilidade.  • Ao incorporar o contexto de áudio, o PG-Video-LLaVA melhora significativamente sua compreensão do conteúdo de vídeo, tornando-o mais abrangente e adequado para cenários em que o sinal de áudio é crucial para a compreensão do vídeo (por exemplo, diálogos e conversas, vídeos de notícias, etc.).  • Apresentamos benchmarks quantitativos aprimorados para modelos de conversação baseados em vídeo. Nossos benchmarks utilizam Vicuna LLM de código aberto para garantir melhor reprodutibilidade e transparência. Também propomos benchmarks para avaliar as capacidades de aterramento de modelos de conversação baseados em vídeo.  Este artigo está   sob a licença CC BY 4.0 DEED. disponível no arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AutoEncoder.tech

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Auto Encoder's blog

Este áudio é produzido no idioma original da história!

Pesquisadores dos Emirados Árabes Unidos dizem que novo modelo de IA pode assistir a vídeos e entender áudio

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Telegram: a ponte da Crypto Island para o continente

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Telegram: a ponte da Crypto Island para o continente

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps