Tabla de enlaces   Resumen y 1. Introducción   2 Detalles arquitectónicos y 2.1 Mezcla dispersa de expertos   3 resultados   3.1 Puntos de referencia multilingües, 3.2 Rendimiento a largo plazo y 3.3 Puntos de referencia de sesgo   4 Ajuste fino de instrucciones   5 Análisis de ruta   6 Conclusión, agradecimientos y referencias  3 resultados  Comparamos Mixtral con Llama y volvemos a ejecutar todos los puntos de referencia con nuestro propio proceso de evaluación para lograr una comparación justa. Medimos el rendimiento en una amplia variedad de tareas categorizadas de la siguiente manera:    Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30] • Razonamiento de sentido común (0-shot):    NaturalQuestions [20], TriviaQA [19] • Conocimiento del mundo (5 disparos):    BoolQ [7], QuAC [5] • Comprensión lectora (0-shot):    GSM8K [9] (8 disparos) con maj@8 y MATH [17] (4 disparos) con maj@4 • Matemáticas:    Humaneval [4] (0 disparos) y MBPP [1] (3 disparos) • Código:    MMLU [16] (5 disparos), BBH [29] (3 disparos) y AGI Eval [34] (3-5 disparos, solo preguntas de opción múltiple en inglés)  • Resultados agregados populares:  Los resultados detallados de Mixtral, Mistral 7B y Llama 2 7B/13B/70B y Llama 1 34B[2] se presentan en la Tabla 2. La Figura 2 compara el rendimiento de Mixtral con los modelos Llama en diferentes categorías. Mixtral supera a Llama 2 70B en la mayoría de las métricas. En particular, Mixtral muestra un rendimiento superior en los puntos de referencia de código y matemáticas.    Comparamos nuestro desempeño con la familia Llama 2, con el objetivo de comprender la eficiencia de los modelos Mixtral en el espectro costo-rendimiento (ver Figura 3). Como modelo Mixtureof-Experts disperso, Mixtral solo usa 13 mil millones de parámetros activos para cada token. Con parámetros activos 5 veces más bajos, Mixtral puede superar a Llama 2 por 70 mil millones en la mayoría de las categorías. Tamaño y eficiencia.  Tenga en cuenta que este análisis se centra en el recuento de parámetros activos (consulte la Sección 2.1), que es directamente proporcional al costo de cómputo de inferencia, pero no considera los costos de memoria ni la utilización del hardware. Los costos de memoria para servir a Mixtral son proporcionales a su recuento de parámetros dispersos, 47B, que sigue siendo menor que el de Llama 2, 70B. En cuanto a la utilización del dispositivo, observamos que la capa SMoE introduce una sobrecarga adicional debido al mecanismo de enrutamiento y debido al aumento de las cargas de memoria cuando se ejecuta más de un experto por dispositivo. Son más adecuados para cargas de trabajo por lotes donde se puede alcanzar un buen grado de intensidad aritmética.  Comparación con Llama 2 70B y GPT-3.5. En la Tabla 3, informamos el rendimiento de Mixtral 8x7B en comparación con Llama 2 70B y GPT-3.5. Observamos que Mixtral tiene un rendimiento similar o superior a los otros dos modelos. En MMLU, Mixtral obtiene un mejor rendimiento, a pesar de su capacidad significativamente menor (47B tokens en comparación con 70B). Para MT Bench, informamos el rendimiento del último modelo GPT-3.5-Turbo disponible, gpt-3.5-turbo-1106.     En algunos puntos de referencia, existen algunas diferencias entre nuestro protocolo de evaluación y el informado en el artículo de Llama 2: 1) en MBPP, utilizamos el subconjunto verificado manualmente 2) en TriviaQA, no proporcionamos contextos de Wikipedia. Diferencias de evaluación.  Este artículo está   bajo licencia CC 4.0. disponible en arxiv  [2] Dado que Llama 2 34B no era de código abierto, informamos los resultados para Llama 1 34B.   Autores:  (1) Albert Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antoine Roux;  (4) Arturo Mensch;  (5) Blanca Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Florián Bressand;  (11) Gianna Lengyel;  (12) Guillermo Bour;  (13) Guillermo Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) María Ana Lachaux;  (17) Pedro Stock;  (18) Sandeep Subramanian;  (19) Sofía Yang;  (20) Simón Antoniak;  (21) Teven Le Scao;  (22) Théophile Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timothée Lacroix;  (26) William El Sayed.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este audio es producido en el idioma original de la historia!

Mixtral supera a Llama y GPT-3.5 en múltiples indicadores

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

El modelo Bitcoin UTXO, impulsando un ecosistema único

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

El modelo Bitcoin UTXO, impulsando un ecosistema único

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps