Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Equipe Gemini, Google.
Conjunto de dados de treinamento
Discussão e Conclusão, Referências
Contribuições e Agradecimentos
Este relatório apresenta uma nova família de modelos multimodais, Gemini, que apresenta capacidades notáveis em compreensão de imagem, áudio, vídeo e texto. A família Gemini consiste nos tamanhos Ultra, Pro e Nano, adequados para aplicações que vão desde tarefas complexas de raciocínio até casos de uso com restrição de memória no dispositivo. A avaliação em uma ampla gama de benchmarks mostra que nosso modelo Gemini Ultra mais capaz avança o estado da arte em 30 dos 32 desses benchmarks - sendo notavelmente o primeiro modelo a alcançar desempenho de especialista humano no benchmark de exame bem estudado MMLU, e melhorar o estado da arte em cada um dos 20 benchmarks multimodais que examinamos. Acreditamos que os novos recursos dos modelos Gemini em raciocínio intermodal e compreensão de linguagem permitirão uma ampla variedade de casos de uso e discutimos nossa abordagem para implantá-los de forma responsável para os usuários.
Apresentamos Gemini, uma família de modelos multimodais altamente capazes desenvolvidos no Google. Treinamos o Gemini em conjunto com dados de imagem, áudio, vídeo e texto com o propósito de construir um modelo com fortes capacidades generalistas em todas as modalidades, além de compreensão de ponta e desempenho de raciocínio em cada domínio respectivo.
Gemini 1.0, nossa primeira versão, vem em três tamanhos: Ultra para tarefas altamente complexas, Pro para desempenho aprimorado e capacidade de implantação em escala e Nano para aplicativos no dispositivo. Cada tamanho é especificamente adaptado para atender a diferentes limitações computacionais e requisitos de aplicação. Avaliamos o desempenho dos modelos Gemini em um conjunto abrangente de benchmarks internos e externos que abrangem uma ampla gama de tarefas de linguagem, codificação, raciocínio e multimodais.
Gemini avança o que há de mais moderno em modelagem de linguagem em grande escala (Anil et al., 2023; Brown et al., 2020; Chowdhery et al., 2023; Hoffmann et al., 2022; OpenAI, 2023a; Radford et al., 2022; OpenAI, 2023a; Radford et al. al., 2019; Rae et al., 2021), compreensão de imagem (Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022; Yu et al., 2022; al., 2022a), processamento de áudio (Radford et al., 2023; Zhang et al., 2023) e compreensão de vídeo (Alayrac et al., 2022; Chen et al., 2023). Também se baseia no trabalho em modelos de sequência (Sutskever et al., 2014), em uma longa história de trabalho em aprendizagem profunda baseada em redes neurais (LeCun et al., 2015) e em sistemas distribuídos de aprendizagem de máquina (Barham et al., 2022; Bradbury et al., 2018; Dean et al., 2012) que permitem treinamento em larga escala.
Nosso modelo mais capaz, Gemini Ultra, alcança novos resultados de última geração em 30 dos 32 benchmarks que reportamos, incluindo 10 dos 12 benchmarks populares de texto e raciocínio, 9 dos 9 benchmarks de compreensão de imagens, 6 dos 6 benchmarks de compreensão de vídeo e 5 de 5 benchmarks de reconhecimento de fala e tradução de fala. Gemini Ultra é o primeiro modelo a alcançar desempenho de especialista humano em MMLU (Hendrycks et al., 2021a) — um benchmark proeminente que testa conhecimento e raciocínio por meio de um conjunto de exames — com uma pontuação acima de 90%. Além do texto, o Gemini Ultra faz avanços notáveis em tarefas desafiadoras de raciocínio multimodal. Por exemplo, no recente benchmark MMMU (Yue et al., 2023), que compreende questões sobre imagens em tarefas multidisciplinares que exigem conhecimento do assunto de nível universitário e raciocínio deliberado, o Gemini Ultra alcança uma nova pontuação de última geração de 62,4%, superando o melhor modelo anterior em mais de 5 pontos percentuais. Ele fornece um aumento uniforme de desempenho para respostas a perguntas em vídeo e benchmarks de compreensão de áudio.
A avaliação qualitativa apresenta impressionantes capacidades de raciocínio intermodal, permitindo ao modelo compreender e raciocinar nativamente através de uma sequência de entrada de áudio, imagens e texto (ver Figura 5 e Tabela 13). Considere o ambiente educacional representado na Figura 1 como exemplo. Um professor desenhou um problema de física de um esquiador descendo uma ladeira e um aluno encontrou uma solução para ele. Usando os recursos de raciocínio multimodal do Gemini, o modelo é capaz de compreender a caligrafia confusa, compreender corretamente a formulação do problema, converter o problema e a solução em composição tipográfica matemática, identificar a etapa específica do raciocínio em que o aluno errou na resolução do problema e, em seguida, forneça uma solução correta e elaborada para o problema. Isto abre possibilidades educacionais estimulantes e acreditamos que as novas capacidades multimodais e de raciocínio dos modelos Gemini têm aplicações dramáticas em muitos campos.
As capacidades de raciocínio de grandes modelos de linguagem mostram-se promissoras na construção de agentes generalistas que possam resolver problemas mais complexos de várias etapas. A equipe AlphaCode construiu o AlphaCode 2 (Leblond et al, 2023), um novo agente movido pelo Gemini, que combina as capacidades de raciocínio do Gemini com pesquisa e uso de ferramentas para se destacar na resolução de problemas de programação competitivos. AlphaCode 2 está entre os 15% melhores participantes da plataforma de programação competitiva da Codeforce, uma grande melhoria em relação ao seu antecessor de última geração entre os 50% melhores (Li et al., 2022).
Paralelamente, avançamos a fronteira da eficiência com o Gemini Nano, uma série de pequenos modelos voltados para implantação em dispositivos. Esses modelos se destacam em tarefas no dispositivo, como resumo, compreensão de leitura, tarefas de conclusão de texto, e exibem capacidades impressionantes em tarefas de raciocínio, STEM, codificação, multimodais e multilíngues em relação aos seus tamanhos.
Nas seções a seguir, primeiro fornecemos uma visão geral da arquitetura do modelo, da infraestrutura de treinamento e do conjunto de dados de treinamento. Em seguida, apresentamos avaliações detalhadas da família de modelos Gemini, abrangendo benchmarks bem estudados e avaliações de preferência humana em texto, código, imagem, áudio e vídeo — que incluem desempenho em inglês e capacidades multilíngues. Também discutimos a nossa abordagem à implantação responsável, [2] incluindo o nosso processo de avaliações de impacto, desenvolvimento de políticas modelo, avaliações e mitigação de danos antes das decisões de implantação. Por último, discutimos as implicações mais amplas do Gemini, as suas limitações juntamente com as suas potenciais aplicações — abrindo caminho para uma nova era de investigação e inovação em IA.
[2] Planejamos atualizar este relatório com mais detalhes antes da disponibilidade geral do modelo Gemini Ultra.