Autores:
(1) Alberto Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antônio Roux;
(4) Arthur Mensch;
(5) Branca Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Floriano Bressand;
(11) Gianna Lengyel;
(12) Guilherme Bour;
(13) Guilherme Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) Maria Ana Lachaux;
(17) Pierre Estoque;
(18) Sandeep Subramanian;
(19) Sofia Yang;
(20) Szymon Antoniak;
(21) Dez Le Scao;
(22) Teófilo Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timóteo Lacroix;
(26) William El Sayed.
2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas
3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização
6 Conclusão, Agradecimentos e Referências
Apresentamos o Mixtral 8x7B, um modelo de linguagem Sparse Mixture of Experts (SMoE). O Mixtral tem a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta de 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede de roteadores seleciona dois especialistas para processar o estado atual e combinar suas saídas. Embora cada token veja apenas dois especialistas, os especialistas selecionados podem ser diferentes em cada passo de tempo. Como resultado, cada token tem acesso a 47B parâmetros, mas usa apenas 13B parâmetros ativos durante a inferência. O Mixtral foi treinado com um tamanho de contexto de 32k tokens e supera ou corresponde ao Llama 2 70B e GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera amplamente o Llama 2 70B em matemática, geração de código e benchmarks multilíngues. Também fornecemos um modelo ajustado para seguir instruções, Mixtral 8x7B – Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks humanos. Tanto o modelo base quanto o instruct são lançados sob a licença Apache 2.0.
Código : https://github.com/mistralai/mistral-src
Página da Web : https://mistral.ai/news/mixtral-of-experts/
Neste artigo, apresentamos o Mixtral 8x7B, um modelo de mistura esparsa de especialistas (SMoE) com pesos abertos, licenciado sob o Apache 2.0. O Mixtral supera o Llama 2 70B e o GPT-3.5 na maioria dos benchmarks. Como ele usa apenas um subconjunto de seus parâmetros para cada token, o Mixtral permite velocidade de inferência mais rápida em tamanhos de lote baixos e maior rendimento em tamanhos de lote grandes.
Mixtral é uma rede esparsa de mistura de especialistas. É um modelo somente decodificador em que o bloco feedforward escolhe de um conjunto de 8 grupos distintos de parâmetros. Em cada camada, para cada token, uma rede de roteadores escolhe dois desses grupos (os “especialistas”) para processar o token e combinar sua saída de forma aditiva. Essa técnica aumenta o número de parâmetros de um modelo enquanto controla o custo e a latência, pois o modelo usa apenas uma fração do conjunto total de parâmetros por token.
O Mixtral é pré-treinado com dados multilíngues usando um tamanho de contexto de 32k tokens. Ele corresponde ou excede o desempenho do Llama 2 70B e do GPT-3.5, em vários benchmarks. Em particular,
O Mixtral demonstra capacidades superiores em matemática, geração de código e tarefas que exigem entendimento multilíngue, superando significativamente o Llama 2 70B nesses domínios. Experimentos mostram que o Mixtral é capaz de recuperar informações com sucesso de sua janela de contexto de 32k tokens, independentemente do comprimento da sequência e da localização das informações na sequência.
Também apresentamos o Mixtral 8x7B – Instruct, um modelo de bate-papo ajustado para seguir instruções usando ajuste fino supervisionado e Otimização de Preferência Direta [25]. Seu desempenho supera notavelmente o do GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks de avaliação humana. O Mixtral – Instruct também demonstra vieses reduzidos e um perfil de sentimento mais equilibrado em benchmarks como BBQ e BOLD.
Lançamos o Mixtral 8x7B e o Mixtral 8x7B – Instruct sob a licença Apache 2.01, gratuita para uso acadêmico e comercial, garantindo ampla acessibilidade e potencial para diversas aplicações. Para permitir que a comunidade execute o Mixtral com uma pilha totalmente de código aberto, enviamos alterações para o projeto vLLM, que integra os kernels CUDA do Megablocks para inferência eficiente. O Skypilot também permite a implantação de endpoints vLLM em qualquer instância na nuvem.
Este artigo está disponível no arxiv sob licença CC 4.0.