paint-brush
Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens por@textmodels
527 lecturas
527 lecturas

Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens

Demasiado longo; Ler

Mixtral é unha mestura escasa de modelos de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. É un modelo só de decodificador onde o bloque de avance elixe entre 8 grupos distintos de parámetros.
featured image - Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Albert Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antoine Roux;

(4) Arthur Mensch;

(5) Blanche Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Florian Bressand;

(11) Gianna Lengyel;

(12) Guillaume Bour;

(13) Guillaume Lampe;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Marie-Anne Lachaux;

(17) Pierre Stock;

(18) Sandeep Subramanian;

(19) Sophia Yang;

(20) Szymon Antoniak;

(21) Teven Le Scao;

(22) Théophile Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timothée Lacroix;

(26) William El Sayed.

Táboa de ligazóns

Resumo e 1. Introdución

2 Detalles arquitectónicos e 2.1 Escasa mestura de expertos

3 Resultados

3.1 Benchmarks multilingües, 3.2 Rendemento a longo alcance e 3.3 Bias Benchmarks

4 Instrucións Axuste fino

5 Análise de rutas

6 Conclusión, agradecementos e referencias

Resumo

Presentamos Mixtral 8x7B, un modelo de linguaxe de mestura escasa de expertos (SMoE). Mixtral ten a mesma arquitectura que Mistral 7B, coa diferenza de que cada capa está composta por 8 bloques de avance (é dicir, expertos). Para cada token, en cada capa, unha rede de enrutadores selecciona dous expertos para procesar o estado actual e combinar as súas saídas. Aínda que cada ficha só ve dous expertos, os expertos seleccionados poden ser diferentes en cada paso. Como resultado, cada token ten acceso a 47B parámetros, pero só usa 13B parámetros activos durante a inferencia. Mixtral adestrouse cun tamaño de contexto de 32k tokens e supera ou coincide con Llama 2 70B e GPT-3.5 en todos os puntos de referencia avaliados. En particular, Mixtral supera enormemente a Llama 2 70B en matemáticas, xeración de código e benchmarks multilingües. Tamén ofrecemos un modelo afinado para seguir as instrucións, Mixtral 8x7B - Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B - modelo de chat en referencias humanas. Tanto o modelo base como o modelo de instrución publícanse baixo a licenza Apache 2.0.


Código : https://github.com/mistralai/mistral-src


Páxina web : https://mistral.ai/news/mixtral-of-experts/

1 Introdución

Neste artigo, presentamos Mixtral 8x7B, un modelo de mestura escasa de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. Como só usa un subconxunto dos seus parámetros para cada token, Mixtral permite unha velocidade de inferencia máis rápida en tamaños de lotes baixos e un maior rendemento en tamaños de lotes grandes.


Mixtral é unha rede de escasa mestura de expertos. É un modelo só de decodificador onde o bloque de avance elixe un conxunto de 8 grupos distintos de parámetros. En cada capa, para cada token, unha rede de enrutadores escolle dous destes grupos (os "expertos") para procesar o token e combinar a súa saída aditiva. Esta técnica aumenta o número de parámetros dun modelo ao tempo que controla o custo e a latencia, xa que o modelo só usa unha fracción do conxunto total de parámetros por token.


Mixtral está adestrado previamente con datos multilingües usando un tamaño de contexto de 32k tokens. Iguala ou supera o rendemento de Llama 2 70B e GPT-3.5, en varios puntos de referencia. En particular,


Figura 1: capa de mestura de expertos. Cada vector de entrada é asignado a 2 dos 8 expertos por un router. A saída da capa é a suma ponderada das saídas dos dous expertos seleccionados. En Mixtral, un experto é un bloque de avance estándar como nunha arquitectura de transformador de vainilla.


Mixtral demostra capacidades superiores en matemáticas, xeración de código e tarefas que requiren comprensión multilingüe, superando significativamente a Llama 2 70B nestes dominios. Os experimentos mostran que Mixtral é capaz de recuperar información con éxito da súa ventá de contexto de 32k tokens, independentemente da lonxitude da secuencia e da localización da información na secuencia.


Tamén presentamos Mixtral 8x7B - Instruct, un modelo de chat axustado para seguir instrucións mediante a optimización supervisada de preferencias e a optimización directa [25]. O seu rendemento supera notablemente o de GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B: modelo de chat sobre referencias de avaliación humana. Mixtral - Instruct tamén demostra prexuízos reducidos e un perfil de sentimento máis equilibrado en puntos de referencia como BBQ e BOLD.


Lanzamos Mixtral 8x7B e Mixtral 8x7B - Instruír baixo a licenza Apache 2.01 , gratuíto para uso académico e comercial, garantindo unha ampla accesibilidade e potencial para diversas aplicacións. Para que a comunidade poida executar Mixtral cunha pila totalmente de código aberto, enviamos cambios ao proxecto vLLM, que integra núcleos CUDA de Megablocks para unha inferencia eficiente. Skypilot tamén permite a implantación de puntos finais vLLM en calquera instancia da nube.


Este documento está dispoñible en arxiv baixo a licenza CC 4.0.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...