Tabela de Links   Resumo e 1. Introdução   2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas   3 Resultados   3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização   4 Ajuste fino de instruções   5 Análise de roteamento   6 Conclusão, Agradecimentos e Referências  3 Resultados  Comparamos Mixtral com Llama e reexecutamos todos os benchmarks com nosso próprio pipeline de avaliação para uma comparação justa. Medimos o desempenho em uma ampla variedade de tarefas categorizadas da seguinte forma:    Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30] • Raciocínio de senso comum (0-shot):    NaturalQuestions [20], TriviaQA [19] • Conhecimento Mundial (5-shot):    BoolQ [7], QuAC [5] • Compreensão de leitura (0-tiro):    GSM8K [9] (8 disparos) com maj@8 e MATH [17] (4 disparos) com maj@4 • Matemática:    Humaneval [4] (0-tiro) e MBPP [1] (3-tiro) • Código:    MMLU [16] (5-shot), BBH [29] (3-shot) e AGI Eval [34] (3-5-shot, apenas questões de múltipla escolha em inglês)  • Resultados agregados populares:  Resultados detalhados para Mixtral, Mistral 7B e Llama 2 7B/13B/70B e Llama 1 34B[2] são relatados na Tabela 2. A Figura 2 compara o desempenho do Mixtral com os modelos Llama em diferentes categorias. O Mixtral supera o Llama 2 70B na maioria das métricas. Em particular, o Mixtral exibe um desempenho superior em benchmarks de código e matemática.    Comparamos nosso desempenho com a família Llama 2, visando entender a eficiência dos modelos Mixtral no espectro de custo-desempenho (veja a Figura 3). Como um modelo esparso Mixtureof-Experts, o Mixtral usa apenas 13B parâmetros ativos para cada token. Com 5x menos parâmetros ativos, o Mixtral é capaz de superar o Llama 2 70B na maioria das categorias. Tamanho e eficiência.  Observe que esta análise foca na contagem de parâmetros ativos (veja a Seção 2.1), que é diretamente proporcional ao custo de computação de inferência, mas não considera os custos de memória e utilização de hardware. Os custos de memória para servir Mixtral são proporcionais à sua contagem de parâmetros esparsos, 47B, que ainda é menor que Llama 2 70B. Quanto à utilização do dispositivo, notamos que a camada SMoEs introduz sobrecarga adicional devido ao mecanismo de roteamento e devido ao aumento de cargas de memória ao executar mais de um especialista por dispositivo. Eles são mais adequados para cargas de trabalho em lote, onde se pode atingir um bom grau de intensidade aritmética.  Comparação com Llama 2 70B e GPT-3.5. Na Tabela 3, relatamos o desempenho do Mixtral 8x7B em comparação com Llama 2 70B e GPT-3.5. Observamos que o Mixtral tem desempenho semelhante ou superior aos outros dois modelos. No MMLU, o Mixtral obtém um desempenho melhor, apesar de sua capacidade significativamente menor (47B tokens em comparação com 70B). Para o MT Bench, relatamos o desempenho do modelo GPT-3.5-Turbo mais recente disponível, gpt-3.5-turbo-1106.     Em alguns benchmarks, há algumas diferenças entre nosso protocolo de avaliação e o relatado no artigo Llama 2: 1) no MBPP, usamos o subconjunto verificado manualmente 2) no TriviaQA, não fornecemos contextos da Wikipedia. Diferenças de avaliação.  Este artigo está   sob licença CC 4.0. disponível no arxiv  [2] Como o Llama 2 34B não era de código aberto, relatamos os resultados para o Llama 1 34B.   Autores:  (1) Alberto Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antônio Roux;  (4) Arthur Mensch;  (5) Branca Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Floriano Bressand;  (11) Gianna Lengyel;  (12) Guilherme Bour;  (13) Guilherme Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) Maria Ana Lachaux;  (17) Pierre Estoque;  (18) Sandeep Subramanian;  (19) Sofia Yang;  (20) Szymon Antoniak;  (21) Dez Le Scao;  (22) Teófilo Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timóteo Lacroix;  (26) William El Sayed.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este áudio é produzido no idioma original da história!

Mixtral supera Llama e GPT-3.5 em vários benchmarks

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Modelo Bitcoin UTXO, alimentando um ecossistema único

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Modelo Bitcoin UTXO, alimentando um ecossistema único

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps