paint-brush
Mixtral — um modelo de linguagem multilíngue treinado com um tamanho de contexto de 32k tokenspor@textmodels
520 leituras
520 leituras

Mixtral — um modelo de linguagem multilíngue treinado com um tamanho de contexto de 32k tokens

Muito longo; Para ler

Mixtral é uma mistura esparsa de modelo de especialistas (SMoE) com pesos abertos, licenciado sob Apache 2.0. Mixtral supera Llama 2 70B e GPT-3.5 na maioria dos benchmarks. É um modelo somente decodificador onde o bloco feedforward seleciona entre 8 grupos distintos de parâmetros.
featured image - Mixtral — um modelo de linguagem multilíngue treinado com um tamanho de contexto de 32k tokens
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Alberto Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antônio Roux;

(4) Arthur Mensch;

(5) Branca Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Floriano Bressand;

(11) Gianna Lengyel;

(12) Guilherme Bour;

(13) Guilherme Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Maria Ana Lachaux;

(17) Pierre Estoque;

(18) Sandeep Subramanian;

(19) Sofia Yang;

(20) Szymon Antoniak;

(21) Dez Le Scao;

(22) Teófilo Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timóteo Lacroix;

(26) William El Sayed.

Tabela de Links

Resumo e 1. Introdução

2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas

3 Resultados

3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização

4 Ajuste fino de instruções

5 Análise de roteamento

6 Conclusão, Agradecimentos e Referências

Resumo

Apresentamos o Mixtral 8x7B, um modelo de linguagem Sparse Mixture of Experts (SMoE). O Mixtral tem a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta de 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede de roteadores seleciona dois especialistas para processar o estado atual e combinar suas saídas. Embora cada token veja apenas dois especialistas, os especialistas selecionados podem ser diferentes em cada passo de tempo. Como resultado, cada token tem acesso a 47B parâmetros, mas usa apenas 13B parâmetros ativos durante a inferência. O Mixtral foi treinado com um tamanho de contexto de 32k tokens e supera ou corresponde ao Llama 2 70B e GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera amplamente o Llama 2 70B em matemática, geração de código e benchmarks multilíngues. Também fornecemos um modelo ajustado para seguir instruções, Mixtral 8x7B – Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks humanos. Tanto o modelo base quanto o instruct são lançados sob a licença Apache 2.0.


Código : https://github.com/mistralai/mistral-src


Página da Web : https://mistral.ai/news/mixtral-of-experts/

1 Introdução

Neste artigo, apresentamos o Mixtral 8x7B, um modelo de mistura esparsa de especialistas (SMoE) com pesos abertos, licenciado sob o Apache 2.0. O Mixtral supera o Llama 2 70B e o GPT-3.5 na maioria dos benchmarks. Como ele usa apenas um subconjunto de seus parâmetros para cada token, o Mixtral permite velocidade de inferência mais rápida em tamanhos de lote baixos e maior rendimento em tamanhos de lote grandes.


Mixtral é uma rede esparsa de mistura de especialistas. É um modelo somente decodificador em que o bloco feedforward escolhe de um conjunto de 8 grupos distintos de parâmetros. Em cada camada, para cada token, uma rede de roteadores escolhe dois desses grupos (os “especialistas”) para processar o token e combinar sua saída de forma aditiva. Essa técnica aumenta o número de parâmetros de um modelo enquanto controla o custo e a latência, pois o modelo usa apenas uma fração do conjunto total de parâmetros por token.


O Mixtral é pré-treinado com dados multilíngues usando um tamanho de contexto de 32k tokens. Ele corresponde ou excede o desempenho do Llama 2 70B e do GPT-3.5, em vários benchmarks. Em particular,


Figura 1: Camada Mixture of Experts. Cada vetor de entrada é atribuído a 2 dos 8 experts por um roteador. A saída da camada é a soma ponderada das saídas dos dois experts selecionados. No Mixtral, um expert é um bloco feedforward padrão como em uma arquitetura de transformador vanilla.


O Mixtral demonstra capacidades superiores em matemática, geração de código e tarefas que exigem entendimento multilíngue, superando significativamente o Llama 2 70B nesses domínios. Experimentos mostram que o Mixtral é capaz de recuperar informações com sucesso de sua janela de contexto de 32k tokens, independentemente do comprimento da sequência e da localização das informações na sequência.


Também apresentamos o Mixtral 8x7B – Instruct, um modelo de bate-papo ajustado para seguir instruções usando ajuste fino supervisionado e Otimização de Preferência Direta [25]. Seu desempenho supera notavelmente o do GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks de avaliação humana. O Mixtral – Instruct também demonstra vieses reduzidos e um perfil de sentimento mais equilibrado em benchmarks como BBQ e BOLD.


Lançamos o Mixtral 8x7B e o Mixtral 8x7B – Instruct sob a licença Apache 2.01, gratuita para uso acadêmico e comercial, garantindo ampla acessibilidade e potencial para diversas aplicações. Para permitir que a comunidade execute o Mixtral com uma pilha totalmente de código aberto, enviamos alterações para o projeto vLLM, que integra os kernels CUDA do Megablocks para inferência eficiente. O Skypilot também permite a implantação de endpoints vLLM em qualquer instância na nuvem.


Este artigo está disponível no arxiv sob licença CC 4.0.