Autores:  (1) Alberto Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antônio Roux;  (4) Arthur Mensch;  (5) Branca Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Floriano Bressand;  (11) Gianna Lengyel;  (12) Guilherme Bour;  (13) Guilherme Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) Maria Ana Lachaux;  (17) Pierre Estoque;  (18) Sandeep Subramanian;  (19) Sofia Yang;  (20) Szymon Antoniak;  (21) Dez Le Scao;  (22) Teófilo Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timóteo Lacroix;  (26) William El Sayed.  Tabela de Links   Resumo e 1. Introdução   2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas   3 Resultados   3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização   4 Ajuste fino de instruções   5 Análise de roteamento   6 Conclusão, Agradecimentos e Referências  Resumo  Apresentamos o Mixtral 8x7B, um modelo de linguagem Sparse Mixture of Experts (SMoE). O Mixtral tem a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta de 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede de roteadores seleciona dois especialistas para processar o estado atual e combinar suas saídas. Embora cada token veja apenas dois especialistas, os especialistas selecionados podem ser diferentes em cada passo de tempo. Como resultado, cada token tem acesso a 47B parâmetros, mas usa apenas 13B parâmetros ativos durante a inferência. O Mixtral foi treinado com um tamanho de contexto de 32k tokens e supera ou corresponde ao Llama 2 70B e GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera amplamente o Llama 2 70B em matemática, geração de código e benchmarks multilíngues. Também fornecemos um modelo ajustado para seguir instruções, Mixtral 8x7B – Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks humanos. Tanto o modelo base quanto o instruct são lançados sob a licença Apache 2.0.    : https://github.com/mistralai/mistral-src Código    : https://mistral.ai/news/mixtral-of-experts/ Página da Web  1 Introdução  Neste artigo, apresentamos o Mixtral 8x7B, um modelo de mistura esparsa de especialistas (SMoE) com pesos abertos, licenciado sob o Apache 2.0. O Mixtral supera o Llama 2 70B e o GPT-3.5 na maioria dos benchmarks. Como ele usa apenas um subconjunto de seus parâmetros para cada token, o Mixtral permite velocidade de inferência mais rápida em tamanhos de lote baixos e maior rendimento em tamanhos de lote grandes.  Mixtral é uma rede esparsa de mistura de especialistas. É um modelo somente decodificador em que o bloco feedforward escolhe de um conjunto de 8 grupos distintos de parâmetros. Em cada camada, para cada token, uma rede de roteadores escolhe dois desses grupos (os “especialistas”) para processar o token e combinar sua saída de forma aditiva. Essa técnica aumenta o número de parâmetros de um modelo enquanto controla o custo e a latência, pois o modelo usa apenas uma fração do conjunto total de parâmetros por token.  O Mixtral é pré-treinado com dados multilíngues usando um tamanho de contexto de 32k tokens. Ele corresponde ou excede o desempenho do Llama 2 70B e do GPT-3.5, em vários benchmarks. Em particular,   O Mixtral demonstra capacidades superiores em matemática, geração de código e tarefas que exigem entendimento multilíngue, superando significativamente o Llama 2 70B nesses domínios. Experimentos mostram que o Mixtral é capaz de recuperar informações com sucesso de sua janela de contexto de 32k tokens, independentemente do comprimento da sequência e da localização das informações na sequência.  Também apresentamos o Mixtral 8x7B – Instruct, um modelo de bate-papo ajustado para seguir instruções usando ajuste fino supervisionado e Otimização de Preferência Direta [25]. Seu desempenho supera notavelmente o do GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks de avaliação humana. O Mixtral – Instruct também demonstra vieses reduzidos e um perfil de sentimento mais equilibrado em benchmarks como BBQ e BOLD.  Lançamos o Mixtral 8x7B e o Mixtral 8x7B – Instruct sob a licença Apache 2.01, gratuita para uso acadêmico e comercial, garantindo ampla acessibilidade e potencial para diversas aplicações. Para permitir que a comunidade execute o Mixtral com uma pilha totalmente de código aberto, enviamos alterações para o projeto vLLM, que integra os kernels CUDA do Megablocks para inferência eficiente. O Skypilot também permite a implantação de endpoints vLLM em qualquer instância na nuvem.  Este artigo está   sob licença CC 4.0. disponível no arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este áudio é produzido no idioma original da história!

Mixtral — um modelo de linguagem multilíngue treinado com um tamanho de contexto de 32k tokens

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps