Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Equipo Géminis, Google.
Conjunto de datos de entrenamiento
Discusión y conclusión, referencias.
Contribuciones y reconocimientos
Este informe presenta una nueva familia de modelos multimodales, Gemini, que exhibe capacidades notables en la comprensión de imágenes, audio, video y texto. La familia Gemini consta de tamaños Ultra, Pro y Nano, adecuados para aplicaciones que van desde tareas de razonamiento complejas hasta casos de uso con memoria limitada en el dispositivo. La evaluación en una amplia gama de puntos de referencia muestra que nuestro modelo Gemini Ultra más capaz avanza el estado del arte en 30 de 32 de estos puntos de referencia, en particular, es el primer modelo en lograr un desempeño humano experto en el examen de referencia MMLU, bien estudiado. y mejorar el estado del arte en cada uno de los 20 puntos de referencia multimodales que examinamos. Creemos que las nuevas capacidades de los modelos Gemini en razonamiento intermodal y comprensión del lenguaje permitirán una amplia variedad de casos de uso y analizamos nuestro enfoque para implementarlas de manera responsable para los usuarios.
Presentamos Gemini, una familia de modelos multimodales de gran capacidad desarrollados en Google. Entrenamos a Gemini de forma conjunta a través de datos de imagen, audio, video y texto con el propósito de construir un modelo con sólidas capacidades generalistas en todas las modalidades junto con comprensión y rendimiento de razonamiento de vanguardia en cada dominio respectivo.
Gemini 1.0, nuestra primera versión, viene en tres tamaños: Ultra para tareas altamente complejas, Pro para rendimiento mejorado y capacidad de implementación a escala, y Nano para aplicaciones en el dispositivo. Cada tamaño está diseñado específicamente para abordar diferentes limitaciones computacionales y requisitos de aplicación. Evaluamos el rendimiento de los modelos Gemini en un conjunto integral de puntos de referencia internos y externos que cubren una amplia gama de tareas de lenguaje, codificación, razonamiento y multimodales.
Gemini avanza en el modelado de lenguajes a gran escala (Anil et al., 2023; Brown et al., 2020; Chowdhery et al., 2023; Hoffmann et al., 2022; OpenAI, 2023a; Radford et al., 2019; Rae et al., 2021), comprensión de imágenes (Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022a), procesamiento de audio (Radford et al., 2023; Zhang et al., 2023) y comprensión de video (Alayrac et al., 2022; Chen et al., 2023). También se basa en el trabajo sobre modelos de secuencia (Sutskever et al., 2014), una larga historia de trabajo en aprendizaje profundo basado en redes neuronales (LeCun et al., 2015) y sistemas distribuidos de aprendizaje automático (Barham et al., 2022; Bradbury et al., 2018; Dean et al., 2012) que permiten una formación a gran escala.
Nuestro modelo más capaz, Gemini Ultra, logra nuevos resultados de última generación en 30 de los 32 puntos de referencia sobre los que informamos, incluidos 10 de 12 puntos de referencia populares de texto y razonamiento, 9 de 9 puntos de referencia de comprensión de imágenes, 6 de 6 puntos de referencia de comprensión de vídeo. y 5 de 5 puntos de referencia de reconocimiento de voz y traducción de voz. Gemini Ultra es el primer modelo que logra un desempeño humano-experto en MMLU (Hendrycks et al., 2021a), un destacado punto de referencia que evalúa el conocimiento y el razonamiento a través de un conjunto de exámenes, con una puntuación superior al 90 %. Más allá del texto, Gemini Ultra logra avances notables en tareas desafiantes de razonamiento multimodal. Por ejemplo, en el reciente punto de referencia MMMU (Yue et al., 2023), que comprende preguntas sobre imágenes en tareas multidisciplinarias que requieren conocimiento de la materia de nivel universitario y razonamiento deliberado, Gemini Ultra logra una nueva puntuación de vanguardia. del 62,4%, superando al mejor modelo anterior en más de 5 puntos porcentuales. Proporciona un aumento uniforme del rendimiento para la respuesta a preguntas en vídeo y los puntos de referencia de comprensión del audio.
La evaluación cualitativa muestra impresionantes capacidades de razonamiento intermodal, lo que permite que el modelo comprenda y razone a través de una secuencia de entrada de audio, imágenes y texto de forma nativa (consulte la Figura 5 y la Tabla 13). Considere el entorno educativo representado en la Figura 1 como ejemplo. Un profesor ha dibujado un problema de física de un esquiador bajando por una pendiente y un estudiante ha encontrado una solución. Utilizando las capacidades de razonamiento multimodal de Gemini, el modelo es capaz de comprender la escritura desordenada, comprender correctamente la formulación del problema, convertir tanto el problema como la solución a composición tipográfica matemática, identificar el paso específico del razonamiento en el que el estudiante se equivocó al resolver el problema y luego dar una solución correcta y elaborada al problema. Esto abre interesantes posibilidades educativas y creemos que las nuevas capacidades multimodales y de razonamiento de los modelos Gemini tienen aplicaciones espectaculares en muchos campos.
Las capacidades de razonamiento de los grandes modelos lingüísticos son prometedoras para crear agentes generalistas que puedan abordar problemas más complejos de varios pasos. El equipo de AlphaCode creó AlphaCode 2 (Leblond et al, 2023), un nuevo agente impulsado por Gemini, que combina las capacidades de razonamiento de Gemini con la búsqueda y el uso de herramientas para sobresalir en la resolución de problemas de programación competitivos. AlphaCode 2 se ubica entre el 15% superior de los participantes en la plataforma de programación competitiva Codeforces, una gran mejora con respecto a su predecesor de última generación en el 50% superior (Li et al., 2022).
Al mismo tiempo, avanzamos en la frontera de la eficiencia con Gemini Nano, una serie de pequeños modelos destinados a la implementación en el dispositivo. Estos modelos se destacan en tareas en el dispositivo, como resúmenes, comprensión de lectura, tareas de finalización de textos, y exhiben capacidades impresionantes en tareas de razonamiento, STEM, codificación, multimodales y multilingües en relación con sus tamaños.
En las siguientes secciones, primero brindamos una descripción general de la arquitectura del modelo, la infraestructura de capacitación y el conjunto de datos de capacitación. Luego presentamos evaluaciones detalladas de la familia de modelos Gemini, que cubren puntos de referencia bien estudiados y evaluaciones de preferencias humanas en texto, código, imagen, audio y video, que incluyen tanto el rendimiento en inglés como capacidades multilingües. También analizamos nuestro enfoque hacia el despliegue responsable, [2] incluido nuestro proceso de evaluación de impacto, desarrollo de políticas modelo, evaluaciones y mitigaciones de daños antes de tomar decisiones sobre el despliegue. Finalmente, analizamos las implicaciones más amplias de Gemini, sus limitaciones junto con sus aplicaciones potenciales, allanando el camino para una nueva era de investigación e innovación en IA.
[2] Planeamos actualizar este informe con más detalles antes de la disponibilidad general del modelo Gemini Ultra.