Autores:
(1) Albert Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antoine Roux;
(4) Arthur Mensch;
(5) Blanche Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Florian Bressand;
(11) Gianna Lengyel;
(12) Guillaume Bour;
(13) Guillaume Lampe;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) Marie-Anne Lachaux;
(17) Pierre Stock;
(18) Sandeep Subramanian;
(19) Sophia Yang;
(20) Szymon Antoniak;
(21) Teven Le Scao;
(22) Théophile Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timothée Lacroix;
(26) William El Sayed.
2 Detalles arquitectónicos e 2.1 Escasa mestura de expertos
3.1 Benchmarks multilingües, 3.2 Rendemento a longo alcance e 3.3 Bias Benchmarks
6 Conclusión, agradecementos e referencias
Presentamos Mixtral 8x7B, un modelo de linguaxe de mestura escasa de expertos (SMoE). Mixtral ten a mesma arquitectura que Mistral 7B, coa diferenza de que cada capa está composta por 8 bloques de avance (é dicir, expertos). Para cada token, en cada capa, unha rede de enrutadores selecciona dous expertos para procesar o estado actual e combinar as súas saídas. Aínda que cada ficha só ve dous expertos, os expertos seleccionados poden ser diferentes en cada paso. Como resultado, cada token ten acceso a 47B parámetros, pero só usa 13B parámetros activos durante a inferencia. Mixtral adestrouse cun tamaño de contexto de 32k tokens e supera ou coincide con Llama 2 70B e GPT-3.5 en todos os puntos de referencia avaliados. En particular, Mixtral supera enormemente a Llama 2 70B en matemáticas, xeración de código e benchmarks multilingües. Tamén ofrecemos un modelo afinado para seguir as instrucións, Mixtral 8x7B - Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B - modelo de chat en referencias humanas. Tanto o modelo base como o modelo de instrución publícanse baixo a licenza Apache 2.0.
Código : https://github.com/mistralai/mistral-src
Páxina web : https://mistral.ai/news/mixtral-of-experts/
Neste artigo, presentamos Mixtral 8x7B, un modelo de mestura escasa de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. Como só usa un subconxunto dos seus parámetros para cada token, Mixtral permite unha velocidade de inferencia máis rápida en tamaños de lotes baixos e un maior rendemento en tamaños de lotes grandes.
Mixtral é unha rede de escasa mestura de expertos. É un modelo só de decodificador onde o bloque de avance elixe un conxunto de 8 grupos distintos de parámetros. En cada capa, para cada token, unha rede de enrutadores escolle dous destes grupos (os "expertos") para procesar o token e combinar a súa saída aditiva. Esta técnica aumenta o número de parámetros dun modelo ao tempo que controla o custo e a latencia, xa que o modelo só usa unha fracción do conxunto total de parámetros por token.
Mixtral está adestrado previamente con datos multilingües usando un tamaño de contexto de 32k tokens. Iguala ou supera o rendemento de Llama 2 70B e GPT-3.5, en varios puntos de referencia. En particular,
Mixtral demostra capacidades superiores en matemáticas, xeración de código e tarefas que requiren comprensión multilingüe, superando significativamente a Llama 2 70B nestes dominios. Os experimentos mostran que Mixtral é capaz de recuperar información con éxito da súa ventá de contexto de 32k tokens, independentemente da lonxitude da secuencia e da localización da información na secuencia.
Tamén presentamos Mixtral 8x7B - Instruct, un modelo de chat axustado para seguir instrucións mediante a optimización supervisada de preferencias e a optimización directa [25]. O seu rendemento supera notablemente o de GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B: modelo de chat sobre referencias de avaliación humana. Mixtral - Instruct tamén demostra prexuízos reducidos e un perfil de sentimento máis equilibrado en puntos de referencia como BBQ e BOLD.
Lanzamos Mixtral 8x7B e Mixtral 8x7B - Instruír baixo a licenza Apache 2.01 , gratuíto para uso académico e comercial, garantindo unha ampla accesibilidade e potencial para diversas aplicacións. Para que a comunidade poida executar Mixtral cunha pila totalmente de código aberto, enviamos cambios ao proxecto vLLM, que integra núcleos CUDA de Megablocks para unha inferencia eficiente. Skypilot tamén permite a implantación de puntos finais vLLM en calquera instancia da nube.
Este documento está dispoñible en arxiv baixo a licenza CC 4.0.