2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas
3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização
6 Conclusão, Agradecimentos e Referências
Comparamos Mixtral com Llama e reexecutamos todos os benchmarks com nosso próprio pipeline de avaliação para uma comparação justa. Medimos o desempenho em uma ampla variedade de tarefas categorizadas da seguinte forma:
• Raciocínio de senso comum (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• Conhecimento Mundial (5-shot): NaturalQuestions [20], TriviaQA [19]
• Compreensão de leitura (0-tiro): BoolQ [7], QuAC [5]
• Matemática: GSM8K [9] (8 disparos) com maj@8 e MATH [17] (4 disparos) com maj@4
• Código: Humaneval [4] (0-tiro) e MBPP [1] (3-tiro)
• Resultados agregados populares: MMLU [16] (5-shot), BBH [29] (3-shot) e AGI Eval [34] (3-5-shot, apenas questões de múltipla escolha em inglês)
Resultados detalhados para Mixtral, Mistral 7B e Llama 2 7B/13B/70B e Llama 1 34B[2] são relatados na Tabela 2. A Figura 2 compara o desempenho do Mixtral com os modelos Llama em diferentes categorias. O Mixtral supera o Llama 2 70B na maioria das métricas. Em particular, o Mixtral exibe um desempenho superior em benchmarks de código e matemática.
Tamanho e eficiência. Comparamos nosso desempenho com a família Llama 2, visando entender a eficiência dos modelos Mixtral no espectro de custo-desempenho (veja a Figura 3). Como um modelo esparso Mixtureof-Experts, o Mixtral usa apenas 13B parâmetros ativos para cada token. Com 5x menos parâmetros ativos, o Mixtral é capaz de superar o Llama 2 70B na maioria das categorias.
Observe que esta análise foca na contagem de parâmetros ativos (veja a Seção 2.1), que é diretamente proporcional ao custo de computação de inferência, mas não considera os custos de memória e utilização de hardware. Os custos de memória para servir Mixtral são proporcionais à sua contagem de parâmetros esparsos, 47B, que ainda é menor que Llama 2 70B. Quanto à utilização do dispositivo, notamos que a camada SMoEs introduz sobrecarga adicional devido ao mecanismo de roteamento e devido ao aumento de cargas de memória ao executar mais de um especialista por dispositivo. Eles são mais adequados para cargas de trabalho em lote, onde se pode atingir um bom grau de intensidade aritmética.
Comparação com Llama 2 70B e GPT-3.5. Na Tabela 3, relatamos o desempenho do Mixtral 8x7B em comparação com Llama 2 70B e GPT-3.5. Observamos que o Mixtral tem desempenho semelhante ou superior aos outros dois modelos. No MMLU, o Mixtral obtém um desempenho melhor, apesar de sua capacidade significativamente menor (47B tokens em comparação com 70B). Para o MT Bench, relatamos o desempenho do modelo GPT-3.5-Turbo mais recente disponível, gpt-3.5-turbo-1106.
Diferenças de avaliação. Em alguns benchmarks, há algumas diferenças entre nosso protocolo de avaliação e o relatado no artigo Llama 2: 1) no MBPP, usamos o subconjunto verificado manualmente 2) no TriviaQA, não fornecemos contextos da Wikipedia.
Este artigo está disponível no arxiv sob licença CC 4.0.
[2] Como o Llama 2 34B não era de código aberto, relatamos os resultados para o Llama 1 34B.
Autores:
(1) Alberto Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antônio Roux;
(4) Arthur Mensch;
(5) Branca Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Floriano Bressand;
(11) Gianna Lengyel;
(12) Guilherme Bour;
(13) Guilherme Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) Maria Ana Lachaux;
(17) Pierre Estoque;
(18) Sandeep Subramanian;
(19) Sofia Yang;
(20) Szymon Antoniak;
(21) Dez Le Scao;
(22) Teófilo Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timóteo Lacroix;
(26) William El Sayed.