paint-brush
Mixtral: un modelo de lenguaje multilingüe entrenado con un tamaño de contexto de 32 000 tokenspor@textmodels
Nueva Historia

Mixtral: un modelo de lenguaje multilingüe entrenado con un tamaño de contexto de 32 000 tokens

Demasiado Largo; Para Leer

Mixtral es un modelo de mezcla dispersa de expertos (SMoE) con ponderaciones abiertas, con licencia Apache 2.0. Mixtral supera a Llama 2 70B y GPT-3.5 en la mayoría de los puntos de referencia. Es un modelo de solo decodificador donde el bloque de avance selecciona entre 8 grupos distintos de parámetros.
featured image - Mixtral: un modelo de lenguaje multilingüe entrenado con un tamaño de contexto de 32 000 tokens
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Alberto Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antoine Roux;

(4) Arturo Mensch;

(5) Blanca Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Florián Bressand;

(11) Gianna Lengyel;

(12) Guillermo Bour;

(13) Guillermo Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) María Ana Lachaux;

(17) Pedro Stock;

(18) Sandeep Subramanian;

(19) Sofía Yang;

(20) Simón Antoniak;

(21) Teven Le Scao;

(22) Théophile Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timothée Lacroix;

(26) William El Sayed.

Tabla de enlaces

Resumen y 1. Introducción

2 Detalles arquitectónicos y 2.1 Mezcla dispersa de expertos

3 resultados

3.1 Puntos de referencia multilingües, 3.2 Rendimiento a largo plazo y 3.3 Puntos de referencia de sesgo

4 Ajuste fino de instrucciones

5 Análisis de ruta

6 Conclusión, agradecimientos y referencias

Abstracto

Presentamos Mixtral 8x7B, un modelo de lenguaje de mezcla dispersa de expertos (SMoE). Mixtral tiene la misma arquitectura que Mistral 7B, con la diferencia de que cada capa está compuesta por 8 bloques de avance (es decir, expertos). Para cada token, en cada capa, una red de enrutadores selecciona dos expertos para procesar el estado actual y combinar sus resultados. Aunque cada token solo ve dos expertos, los expertos seleccionados pueden ser diferentes en cada paso de tiempo. Como resultado, cada token tiene acceso a 47 mil millones de parámetros, pero solo usa 13 mil millones de parámetros activos durante la inferencia. Mixtral se entrenó con un tamaño de contexto de 32 mil tokens y supera o iguala a Llama 2 70B y GPT-3.5 en todos los puntos de referencia evaluados. En particular, Mixtral supera ampliamente a Llama 2 70B en matemáticas, generación de código y puntos de referencia multilingües. También ofrecemos un modelo optimizado para seguir instrucciones, Mixtral 8x7B – Instruct, que supera a GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B – modelo de chat en las pruebas de referencia para humanos. Tanto el modelo básico como el de instrucciones se publican bajo la licencia Apache 2.0.


Código : https://github.com/mistralai/mistral-src


Página web : https://mistral.ai/news/mixtral-of-experts/

1 Introducción

En este artículo, presentamos Mixtral 8x7B, un modelo de mezcla dispersa de expertos (SMoE) con ponderaciones abiertas, con licencia Apache 2.0. Mixtral supera a Llama 2 70B y GPT-3.5 en la mayoría de los puntos de referencia. Como solo utiliza un subconjunto de sus parámetros para cada token, Mixtral permite una velocidad de inferencia más rápida en lotes de bajo tamaño y un mayor rendimiento en lotes de gran tamaño.


Mixtral es una red dispersa de mezcla de expertos. Es un modelo que solo utiliza decodificadores, donde el bloque de avance selecciona de un conjunto de 8 grupos distintos de parámetros. En cada capa, para cada token, una red de enrutadores elige dos de estos grupos (los "expertos") para procesar el token y combinar su salida de manera aditiva. Esta técnica aumenta la cantidad de parámetros de un modelo mientras controla el costo y la latencia, ya que el modelo solo usa una fracción del conjunto total de parámetros por token.


Mixtral está entrenado previamente con datos multilingües utilizando un tamaño de contexto de 32 000 tokens. Iguala o supera el rendimiento de Llama 2 70B y GPT-3.5 en varios puntos de referencia. En particular,


Figura 1: Capa Mixtura de Expertos. Cada vector de entrada es asignado a 2 de los 8 expertos por un enrutador. La salida de la capa es la suma ponderada de las salidas de los dos expertos seleccionados. En Mixtral, un experto es un bloque de retroalimentación estándar como en una arquitectura de transformador estándar.


Mixtral demuestra capacidades superiores en matemáticas, generación de código y tareas que requieren comprensión multilingüe, superando significativamente a Llama 2 70B en estos dominios. Los experimentos muestran que Mixtral puede recuperar con éxito información de su ventana de contexto de 32k tokens, independientemente de la longitud de la secuencia y la ubicación de la información en la secuencia.


También presentamos Mixtral 8x7B – Instruct, un modelo de chat optimizado para seguir instrucciones mediante un ajuste fino supervisado y optimización de preferencias directas [25]. Su rendimiento supera notablemente al de GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B – modelo de chat en los puntos de referencia de evaluación humana. Mixtral – Instruct también demuestra sesgos reducidos y un perfil de sentimiento más equilibrado en puntos de referencia como BBQ y BOLD.


Lanzamos Mixtral 8x7B y Mixtral 8x7B – Instruct bajo la licencia Apache 2.01, de forma gratuita para uso académico y comercial, lo que garantiza una amplia accesibilidad y potencial para diversas aplicaciones. Para permitir que la comunidad ejecute Mixtral con una pila de código abierto, enviamos cambios al proyecto vLLM, que integra núcleos CUDA de Megablocks para una inferencia eficiente. Skypilot también permite la implementación de puntos finales vLLM en cualquier instancia en la nube.


Este artículo está disponible en arxiv bajo licencia CC 4.0.