Autores:  (1) Albert Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antoine Roux;  (4) Arthur Mensch;  (5) Blanche Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Florian Bressand;  (11) Gianna Lengyel;  (12) Guillaume Bour;  (13) Guillaume Lampe;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) Marie-Anne Lachaux;  (17) Pierre Stock;  (18) Sandeep Subramanian;  (19) Sophia Yang;  (20) Szymon Antoniak;  (21) Teven Le Scao;  (22) Théophile Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timothée Lacroix;  (26) William El Sayed.  Táboa de ligazóns   Resumo e 1. Introdución   2 Detalles arquitectónicos e 2.1 Escasa mestura de expertos   3 Resultados   3.1 Benchmarks multilingües, 3.2 Rendemento a longo alcance e 3.3 Bias Benchmarks   4 Instrucións Axuste fino   5 Análise de rutas   6 Conclusión, agradecementos e referencias  Resumo  Presentamos Mixtral 8x7B, un modelo de linguaxe de mestura escasa de expertos (SMoE). Mixtral ten a mesma arquitectura que Mistral 7B, coa diferenza de que cada capa está composta por 8 bloques de avance (é dicir, expertos). Para cada token, en cada capa, unha rede de enrutadores selecciona dous expertos para procesar o estado actual e combinar as súas saídas. Aínda que cada ficha só ve dous expertos, os expertos seleccionados poden ser diferentes en cada paso. Como resultado, cada token ten acceso a 47B parámetros, pero só usa 13B parámetros activos durante a inferencia. Mixtral adestrouse cun tamaño de contexto de 32k tokens e supera ou coincide con Llama 2 70B e GPT-3.5 en todos os puntos de referencia avaliados. En particular, Mixtral supera enormemente a Llama 2 70B en matemáticas, xeración de código e benchmarks multilingües. Tamén ofrecemos un modelo afinado para seguir as instrucións, Mixtral 8x7B - Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B - modelo de chat en referencias humanas. Tanto o modelo base como o modelo de instrución publícanse baixo a licenza Apache 2.0.    : https://github.com/mistralai/mistral-src Código    : https://mistral.ai/news/mixtral-of-experts/ Páxina web  1 Introdución  Neste artigo, presentamos Mixtral 8x7B, un modelo de mestura escasa de expertos (SMoE) con pesos abertos, licenciado baixo Apache 2.0. Mixtral supera a Llama 2 70B e GPT-3.5 na maioría dos benchmarks. Como só usa un subconxunto dos seus parámetros para cada token, Mixtral permite unha velocidade de inferencia máis rápida en tamaños de lotes baixos e un maior rendemento en tamaños de lotes grandes.  Mixtral é unha rede de escasa mestura de expertos. É un modelo só de decodificador onde o bloque de avance elixe un conxunto de 8 grupos distintos de parámetros. En cada capa, para cada token, unha rede de enrutadores escolle dous destes grupos (os "expertos") para procesar o token e combinar a súa saída aditiva. Esta técnica aumenta o número de parámetros dun modelo ao tempo que controla o custo e a latencia, xa que o modelo só usa unha fracción do conxunto total de parámetros por token.  Mixtral está adestrado previamente con datos multilingües usando un tamaño de contexto de 32k tokens. Iguala ou supera o rendemento de Llama 2 70B e GPT-3.5, en varios puntos de referencia. En particular,   Mixtral demostra capacidades superiores en matemáticas, xeración de código e tarefas que requiren comprensión multilingüe, superando significativamente a Llama 2 70B nestes dominios. Os experimentos mostran que Mixtral é capaz de recuperar información con éxito da súa ventá de contexto de 32k tokens, independentemente da lonxitude da secuencia e da localización da información na secuencia.  Tamén presentamos Mixtral 8x7B - Instruct, un modelo de chat axustado para seguir instrucións mediante a optimización supervisada de preferencias e a optimización directa [25]. O seu rendemento supera notablemente o de GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B: modelo de chat sobre referencias de avaliación humana. Mixtral - Instruct tamén demostra prexuízos reducidos e un perfil de sentimento máis equilibrado en puntos de referencia como BBQ e BOLD.  Lanzamos Mixtral 8x7B e Mixtral 8x7B - Instruír baixo a licenza Apache 2.01 , gratuíto para uso académico e comercial, garantindo unha ampla accesibilidade e potencial para diversas aplicacións. Para que a comunidade poida executar Mixtral cunha pila totalmente de código aberto, enviamos cambios ao proxecto vLLM, que integra núcleos CUDA de Megablocks para unha inferencia eficiente. Skypilot tamén permite a implantación de puntos finais vLLM en calquera instancia da nube.  Este documento está   baixo a licenza CC 4.0. dispoñible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este audio está producido na lingua orixinal da historia!

Mixtral: un modelo lingüístico multilingüe adestrado cun tamaño de contexto de 32k tokens

About Author

COMENTARIOS

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Society Community!

HackerNoon Decoded 2024: Celebrating Our Remote Work Community!

HackerNoon Decoded 2024: Celebrating Our Tech Companies Community!

HackerNoon Decoded 2024: Celebrating Our Programming Community!

HackerNoon Decoded 2024: Celebrating Our Society Community!

HackerNoon Decoded 2024: Celebrating Our Remote Work Community!

HackerNoon Decoded 2024: Celebrating Our Tech Companies Community!

HackerNoon Decoded 2024: Celebrating Our Programming Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps