paint-brush
Mixtral supera Llama e GPT-3.5 em vários benchmarkspor@textmodels
Novo histórico

Mixtral supera Llama e GPT-3.5 em vários benchmarks

Muito longo; Para ler

O Mixtral 8x7B supera o Llama 2 70B e o GPT-3.5 em vários benchmarks, incluindo raciocínio de senso comum, matemática e geração de código. Com apenas 13B parâmetros ativos, o Mixtral atinge desempenho comparável ou superior, sendo mais eficiente do que seus equivalentes. Apesar de sua menor capacidade de 47B parâmetros, o Mixtral se destaca em métricas como MMLU e demonstra forte desempenho em uma variedade de tarefas, tornando-o uma escolha robusta para aplicativos de modelagem de linguagem.
featured image - Mixtral supera Llama e GPT-3.5 em vários benchmarks
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Tabela de Links

Resumo e 1. Introdução

2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas

3 Resultados

3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização

4 Ajuste fino de instruções

5 Análise de roteamento

6 Conclusão, Agradecimentos e Referências

3 Resultados

Comparamos Mixtral com Llama e reexecutamos todos os benchmarks com nosso próprio pipeline de avaliação para uma comparação justa. Medimos o desempenho em uma ampla variedade de tarefas categorizadas da seguinte forma:


• Raciocínio de senso comum (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• Conhecimento Mundial (5-shot): NaturalQuestions [20], TriviaQA [19]


• Compreensão de leitura (0-tiro): BoolQ [7], QuAC [5]


• Matemática: GSM8K [9] (8 disparos) com maj@8 e MATH [17] (4 disparos) com maj@4


• Código: Humaneval [4] (0-tiro) e MBPP [1] (3-tiro)


• Resultados agregados populares: MMLU [16] (5-shot), BBH [29] (3-shot) e AGI Eval [34] (3-5-shot, apenas questões de múltipla escolha em inglês)


Figura 2: Desempenho do Mixtral e de diferentes modelos Llama em uma ampla gama de benchmarks. Todos os modelos foram reavaliados em todas as métricas com nosso pipeline de avaliação para comparação precisa. O Mixtral supera ou iguala o Llama 2 70B em todos os benchmarks. Em particular, ele é muito superior em matemática e geração de código.


Tabela 2: Comparação do Mixtral com o Llama. O Mixtral supera ou iguala o desempenho do Llama 2 70B em quase todos os benchmarks populares, usando 5x menos parâmetros ativos durante a inferência.


Figura 3: Resultados em MMLU, raciocínio de senso comum, conhecimento de mundo e compreensão de leitura, matemática e código para Mistral (7B/8x7B) vs Llama 2 (7B/13B/70B). Mixtral supera amplamente Llama 2 70B em todos os benchmarks, exceto em benchmarks de compreensão de leitura ao usar parâmetros ativos 5x menores. Ele também é muito superior a Llama 2 70B em código e matemática.


Resultados detalhados para Mixtral, Mistral 7B e Llama 2 7B/13B/70B e Llama 1 34B[2] são relatados na Tabela 2. A Figura 2 compara o desempenho do Mixtral com os modelos Llama em diferentes categorias. O Mixtral supera o Llama 2 70B na maioria das métricas. Em particular, o Mixtral exibe um desempenho superior em benchmarks de código e matemática.


Tamanho e eficiência. Comparamos nosso desempenho com a família Llama 2, visando entender a eficiência dos modelos Mixtral no espectro de custo-desempenho (veja a Figura 3). Como um modelo esparso Mixtureof-Experts, o Mixtral usa apenas 13B parâmetros ativos para cada token. Com 5x menos parâmetros ativos, o Mixtral é capaz de superar o Llama 2 70B na maioria das categorias.


Observe que esta análise foca na contagem de parâmetros ativos (veja a Seção 2.1), que é diretamente proporcional ao custo de computação de inferência, mas não considera os custos de memória e utilização de hardware. Os custos de memória para servir Mixtral são proporcionais à sua contagem de parâmetros esparsos, 47B, que ainda é menor que Llama 2 70B. Quanto à utilização do dispositivo, notamos que a camada SMoEs introduz sobrecarga adicional devido ao mecanismo de roteamento e devido ao aumento de cargas de memória ao executar mais de um especialista por dispositivo. Eles são mais adequados para cargas de trabalho em lote, onde se pode atingir um bom grau de intensidade aritmética.


Comparação com Llama 2 70B e GPT-3.5. Na Tabela 3, relatamos o desempenho do Mixtral 8x7B em comparação com Llama 2 70B e GPT-3.5. Observamos que o Mixtral tem desempenho semelhante ou superior aos outros dois modelos. No MMLU, o Mixtral obtém um desempenho melhor, apesar de sua capacidade significativamente menor (47B tokens em comparação com 70B). Para o MT Bench, relatamos o desempenho do modelo GPT-3.5-Turbo mais recente disponível, gpt-3.5-turbo-1106.


Tabela 3: Comparação do Mixtral com o Llama 2 70B e o GPT-3.5. O Mixtral supera ou iguala o desempenho do Llama 2 70B e do GPT-3.5 na maioria das métricas.


Diferenças de avaliação. Em alguns benchmarks, há algumas diferenças entre nosso protocolo de avaliação e o relatado no artigo Llama 2: 1) no MBPP, usamos o subconjunto verificado manualmente 2) no TriviaQA, não fornecemos contextos da Wikipedia.


Este artigo está disponível no arxiv sob licença CC 4.0.


[2] Como o Llama 2 34B não era de código aberto, relatamos os resultados para o Llama 1 34B.


Autores:

(1) Alberto Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antônio Roux;

(4) Arthur Mensch;

(5) Branca Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Floriano Bressand;

(11) Gianna Lengyel;

(12) Guilherme Bour;

(13) Guilherme Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Maria Ana Lachaux;

(17) Pierre Estoque;

(18) Sandeep Subramanian;

(19) Sofia Yang;

(20) Szymon Antoniak;

(21) Dez Le Scao;

(22) Teófilo Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timóteo Lacroix;

(26) William El Sayed.