Autores:
(1) Alberto Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antoine Roux;
(4) Arturo Mensch;
(5) Blanca Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Florián Bressand;
(11) Gianna Lengyel;
(12) Guillermo Bour;
(13) Guillermo Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) María Ana Lachaux;
(17) Pedro Stock;
(18) Sandeep Subramanian;
(19) Sofía Yang;
(20) Simón Antoniak;
(21) Teven Le Scao;
(22) Théophile Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timothée Lacroix;
(26) William El Sayed.
2 Detalles arquitectónicos y 2.1 Mezcla dispersa de expertos
4 Ajuste fino de instrucciones
6 Conclusión, agradecimientos y referencias
Presentamos Mixtral 8x7B, un modelo de lenguaje de mezcla dispersa de expertos (SMoE). Mixtral tiene la misma arquitectura que Mistral 7B, con la diferencia de que cada capa está compuesta por 8 bloques de avance (es decir, expertos). Para cada token, en cada capa, una red de enrutadores selecciona dos expertos para procesar el estado actual y combinar sus resultados. Aunque cada token solo ve dos expertos, los expertos seleccionados pueden ser diferentes en cada paso de tiempo. Como resultado, cada token tiene acceso a 47 mil millones de parámetros, pero solo usa 13 mil millones de parámetros activos durante la inferencia. Mixtral se entrenó con un tamaño de contexto de 32 mil tokens y supera o iguala a Llama 2 70B y GPT-3.5 en todos los puntos de referencia evaluados. En particular, Mixtral supera ampliamente a Llama 2 70B en matemáticas, generación de código y puntos de referencia multilingües. También ofrecemos un modelo optimizado para seguir instrucciones, Mixtral 8x7B – Instruct, que supera a GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B – modelo de chat en las pruebas de referencia para humanos. Tanto el modelo básico como el de instrucciones se publican bajo la licencia Apache 2.0.
Código : https://github.com/mistralai/mistral-src
Página web : https://mistral.ai/news/mixtral-of-experts/
En este artículo, presentamos Mixtral 8x7B, un modelo de mezcla dispersa de expertos (SMoE) con ponderaciones abiertas, con licencia Apache 2.0. Mixtral supera a Llama 2 70B y GPT-3.5 en la mayoría de los puntos de referencia. Como solo utiliza un subconjunto de sus parámetros para cada token, Mixtral permite una velocidad de inferencia más rápida en lotes de bajo tamaño y un mayor rendimiento en lotes de gran tamaño.
Mixtral es una red dispersa de mezcla de expertos. Es un modelo que solo utiliza decodificadores, donde el bloque de avance selecciona de un conjunto de 8 grupos distintos de parámetros. En cada capa, para cada token, una red de enrutadores elige dos de estos grupos (los "expertos") para procesar el token y combinar su salida de manera aditiva. Esta técnica aumenta la cantidad de parámetros de un modelo mientras controla el costo y la latencia, ya que el modelo solo usa una fracción del conjunto total de parámetros por token.
Mixtral está entrenado previamente con datos multilingües utilizando un tamaño de contexto de 32 000 tokens. Iguala o supera el rendimiento de Llama 2 70B y GPT-3.5 en varios puntos de referencia. En particular,
Mixtral demuestra capacidades superiores en matemáticas, generación de código y tareas que requieren comprensión multilingüe, superando significativamente a Llama 2 70B en estos dominios. Los experimentos muestran que Mixtral puede recuperar con éxito información de su ventana de contexto de 32k tokens, independientemente de la longitud de la secuencia y la ubicación de la información en la secuencia.
También presentamos Mixtral 8x7B – Instruct, un modelo de chat optimizado para seguir instrucciones mediante un ajuste fino supervisado y optimización de preferencias directas [25]. Su rendimiento supera notablemente al de GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B – modelo de chat en los puntos de referencia de evaluación humana. Mixtral – Instruct también demuestra sesgos reducidos y un perfil de sentimiento más equilibrado en puntos de referencia como BBQ y BOLD.
Lanzamos Mixtral 8x7B y Mixtral 8x7B – Instruct bajo la licencia Apache 2.01, de forma gratuita para uso académico y comercial, lo que garantiza una amplia accesibilidad y potencial para diversas aplicaciones. Para permitir que la comunidad ejecute Mixtral con una pila de código abierto, enviamos cambios al proyecto vLLM, que integra núcleos CUDA de Megablocks para una inferencia eficiente. Skypilot también permite la implementación de puntos finales vLLM en cualquier instancia en la nube.
Este artículo está disponible en arxiv bajo licencia CC 4.0.