2 Detalles arquitectónicos y 2.1 Mezcla dispersa de expertos
4 Ajuste fino de instrucciones
6 Conclusión, agradecimientos y referencias
Comparamos Mixtral con Llama y volvemos a ejecutar todos los puntos de referencia con nuestro propio proceso de evaluación para lograr una comparación justa. Medimos el rendimiento en una amplia variedad de tareas categorizadas de la siguiente manera:
• Razonamiento de sentido común (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• Conocimiento del mundo (5 disparos): NaturalQuestions [20], TriviaQA [19]
• Comprensión lectora (0-shot): BoolQ [7], QuAC [5]
• Matemáticas: GSM8K [9] (8 disparos) con maj@8 y MATH [17] (4 disparos) con maj@4
• Código: Humaneval [4] (0 disparos) y MBPP [1] (3 disparos)
• Resultados agregados populares: MMLU [16] (5 disparos), BBH [29] (3 disparos) y AGI Eval [34] (3-5 disparos, solo preguntas de opción múltiple en inglés)
Los resultados detallados de Mixtral, Mistral 7B y Llama 2 7B/13B/70B y Llama 1 34B[2] se presentan en la Tabla 2. La Figura 2 compara el rendimiento de Mixtral con los modelos Llama en diferentes categorías. Mixtral supera a Llama 2 70B en la mayoría de las métricas. En particular, Mixtral muestra un rendimiento superior en los puntos de referencia de código y matemáticas.
Tamaño y eficiencia. Comparamos nuestro desempeño con la familia Llama 2, con el objetivo de comprender la eficiencia de los modelos Mixtral en el espectro costo-rendimiento (ver Figura 3). Como modelo Mixtureof-Experts disperso, Mixtral solo usa 13 mil millones de parámetros activos para cada token. Con parámetros activos 5 veces más bajos, Mixtral puede superar a Llama 2 por 70 mil millones en la mayoría de las categorías.
Tenga en cuenta que este análisis se centra en el recuento de parámetros activos (consulte la Sección 2.1), que es directamente proporcional al costo de cómputo de inferencia, pero no considera los costos de memoria ni la utilización del hardware. Los costos de memoria para servir a Mixtral son proporcionales a su recuento de parámetros dispersos, 47B, que sigue siendo menor que el de Llama 2, 70B. En cuanto a la utilización del dispositivo, observamos que la capa SMoE introduce una sobrecarga adicional debido al mecanismo de enrutamiento y debido al aumento de las cargas de memoria cuando se ejecuta más de un experto por dispositivo. Son más adecuados para cargas de trabajo por lotes donde se puede alcanzar un buen grado de intensidad aritmética.
Comparación con Llama 2 70B y GPT-3.5. En la Tabla 3, informamos el rendimiento de Mixtral 8x7B en comparación con Llama 2 70B y GPT-3.5. Observamos que Mixtral tiene un rendimiento similar o superior a los otros dos modelos. En MMLU, Mixtral obtiene un mejor rendimiento, a pesar de su capacidad significativamente menor (47B tokens en comparación con 70B). Para MT Bench, informamos el rendimiento del último modelo GPT-3.5-Turbo disponible, gpt-3.5-turbo-1106.
Diferencias de evaluación. En algunos puntos de referencia, existen algunas diferencias entre nuestro protocolo de evaluación y el informado en el artículo de Llama 2: 1) en MBPP, utilizamos el subconjunto verificado manualmente 2) en TriviaQA, no proporcionamos contextos de Wikipedia.
Este artículo está disponible en arxiv bajo licencia CC 4.0.
[2] Dado que Llama 2 34B no era de código abierto, informamos los resultados para Llama 1 34B.
Autores:
(1) Albert Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antoine Roux;
(4) Arturo Mensch;
(5) Blanca Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Florián Bressand;
(11) Gianna Lengyel;
(12) Guillermo Bour;
(13) Guillermo Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) María Ana Lachaux;
(17) Pedro Stock;
(18) Sandeep Subramanian;
(19) Sofía Yang;
(20) Simón Antoniak;
(21) Teven Le Scao;
(22) Théophile Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timothée Lacroix;
(26) William El Sayed.