Autores:
(1) Shehan Munasinghe, Universidad Mohamed bin Zayed de IA y Contribución Igualitaria;
(2) Rusiru Thushara, Universidad Mohamed bin Zayed de IA y Contribución Igualitaria;
(3) Muhammad Maaz, Universidad de AI Mohamed bin Zayed;
(4) Hanoona Abdul Rasheed, Universidad Mohamed bin Zayed de IA;
(5) Salman Khan, Universidad de IA Mohamed bin Zayed y Universidad Nacional Australiana;
(6) Mubarak Shah, Universidad de Florida Central;
(7) Fahad Khan, Universidad de IA Mohamed bin Zayed y Universidad de Linköping.
Nota del editor: Esta es la primera parte de diez de un estudio que detalla el desarrollo de un modelo de IA más inteligente para videos. Lea el resto a continuación.
Material complementario
La extensión de los modelos multimodales grandes (LMM) basados en imágenes a los videos es un desafío debido a la complejidad inherente de los datos de video. Los enfoques recientes que extienden los LMM basados en imágenes a los videos carecen de las capacidades de conexión a tierra (por ejemplo, VideoChat, Video-ChatGPT, Video-LLaMA) o no utilizan las señales de audio para una mejor comprensión del video (por ejemplo, Video-ChatGPT). Para abordar estas brechas, proponemos PG-Video-LLaVA, el primer LMM con capacidad de conexión a tierra a nivel de píxel, que integra señales de audio transcribiéndolas en texto para enriquecer la comprensión del contexto del video. Nuestro marco utiliza un rastreador estándar y un nuevo módulo de conexión a tierra, lo que le permite localizar espacialmente objetos en videos siguiendo las instrucciones del usuario. Evaluamos PG-Video-LLaVA utilizando puntos de referencia generativos y de respuesta a preguntas basados en video e introducimos nuevos puntos de referencia diseñados específicamente para medir el rendimiento de conexión a tierra de objetos basada en indicaciones en videos. Además, proponemos el uso de Vicuna sobre GPT-3.5, como se utiliza en VideoChatGPT, para la evaluación comparativa de conversaciones basadas en video, lo que garantiza la reproducibilidad de los resultados, lo que es un problema con la naturaleza patentada de GPT-3.5. Nuestro marco se basa en el modelo LLaVA basado en imágenes de SoTA y extiende sus ventajas al dominio del video, lo que ofrece ganancias prometedoras en las tareas de conversación y conexión a tierra basadas en video.
Los esfuerzos recientes en modelos multimodales grandes (LMM), encabezados por GPT-4V [25], permiten conversaciones detalladas sobre imágenes, pero generalmente no se escalan bien a los videos. La magnitud de los datos de video se escala mucho más allá de otras modalidades debido a su volumen masivo en los medios sociales e Internet. Además, extender los LMM a los videos es un desafío debido a su dinámica compleja con un contexto temporal largo que debe entenderse con precisión.
Los enfoques de los LMM de video, como VideoChat [15], Video-LLaMA [45] y Video-ChatGPT [22] han demostrado capacidades en la comprensión y el diálogo de video, pero carecen de la característica crucial de la base visual. La base visual en videos tiene como objetivo asociar las respuestas LMM a objetos específicos dentro de la entrada de video. Para abordar esta brecha, presentamos PG-Video-LLaVA, el primer LMM de video capaz de localizar objetos que aparecen en las respuestas LMM. Esta tarea conduce a una mayor intratabilidad y demuestra una comprensión profunda del contenido de video.
En PG-Video-LLaVA, abordamos los desafíos únicos que plantean los datos de video. El modelo está diseñado para rastrear objetos dentro de videoclips más cortos que mantienen vistas de cámara consistentes, lo que permite una base visual precisa en todas las escenas y movimientos. Este seguimiento vincula segmentos espacio-temporales directamente a elementos de conversación, lo que mejora la comprensión contextual del modelo. Una característica destacada de PG-VideoLLaVA es su diseño modular, que permite una fácil integración con módulos de base existentes y la flexibilidad para adaptarse a futuras mejoras en la tecnología de base visual. Además, PG-Video-LLaVA enriquece sus capacidades al incorporar contexto de audio. Lo logra aprovechando el audio del video en una forma comprensible para LLM, lo que es particularmente útil en situaciones donde la información auditiva es esencial para la conversación. Esta inclusión amplía la comprensión del modelo, lo que lo hace más versátil para interpretar el contenido de video.
Además, este trabajo introduce un marco mejorado para la evaluación comparativa de modelos conversacionales basados en video, que se aleja de los enfoques anteriores [22] que usaban predominantemente el modelo propietario GPT-3.5-Turbo para la evaluación. Dado que GPT-3.5-Turbo está sujeto a cambios en cualquier momento y carece de transparencia debido a su naturaleza de código cerrado, presenta desafíos en términos de confiabilidad y reproducibilidad. Para abordar esto, proponemos el uso de Vicuna, un LLM de código abierto para la evaluación comparativa. Este cambio no solo mejora la reproducibilidad, sino que también mejora la transparencia en el proceso de evaluación. Evaluamos PG-Video-LLaVA utilizando nuestros puntos de referencia mejorados y mostramos mejoras notables sobre los modelos conversacionales de video existentes como VideoChatGPT [22] y Video-LLaMA [45] en diálogos sin fundamento, logrando un rendimiento de última generación (SoTA).
Las contribuciones clave de este trabajo son:
• Proponemos PG-Video-LLaVA, el primer LMM basado en video con capacidades de conexión a tierra a nivel de píxel, que presenta un diseño modular para una mayor flexibilidad.
• Al incorporar el contexto de audio, PG-Video-LLaVA mejora significativamente su comprensión del contenido de video, haciéndolo más completo y adecuado para escenarios donde la señal de audio es crucial para la comprensión del video (por ejemplo, diálogos y conversaciones, videos de noticias, etc.).
• Presentamos puntos de referencia cuantitativos mejorados para los modelos conversacionales basados en video. Nuestros puntos de referencia utilizan Vicuna LLM de código abierto para garantizar una mejor reproducibilidad y transparencia. También proponemos puntos de referencia para evaluar las capacidades de base de los modelos conversacionales basados en video.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.