paint-brush
Mixtral supera Llama e GPT-3.5 em vários benchmarks por@textmodels
158 leituras

Mixtral supera Llama e GPT-3.5 em vários benchmarks

por Writings, Papers and Blogs on Text Models
Writings, Papers and Blogs on Text Models HackerNoon profile picture

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs,...

4 min read2024/10/18
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
pt-flagPT
Leia esta história em português!
en-flagEN
Read this story in the original language, English!
bn-flagBN
এই গল্পটি বাংলায় পড়ুন!
es-flagES
Lee esta historia en Español!
ja-flagJA
この物語を日本語で読んでください!
ky-flagKY
Бул окуяны кыргызча окуңуз!
cs-flagCS
Přečtěte si tento příběh v češtině!
th-flagTH
อ่านเรื่องนี้เป็นภาษาไทย!
sr-flagSR
Прочитајте ову причу на српском!
mk-flagMK
Прочитајте ја оваа приказна на македонски!
sq-flagSQ
Lexojeni këtë histori në shqip!
da-flagDA
Læs denne historie på dansk!
ur-flagUR
اس کہانی کو اردو میں پڑھیں!
PT

Muito longo; Para ler

O Mixtral 8x7B supera o Llama 2 70B e o GPT-3.5 em vários benchmarks, incluindo raciocínio de senso comum, matemática e geração de código. Com apenas 13B parâmetros ativos, o Mixtral atinge desempenho comparável ou superior, sendo mais eficiente do que seus equivalentes. Apesar de sua menor capacidade de 47B parâmetros, o Mixtral se destaca em métricas como MMLU e demonstra forte desempenho em uma variedade de tarefas, tornando-o uma escolha robusta para aplicativos de modelagem de linguagem.
featured image - Mixtral supera Llama e GPT-3.5 em vários benchmarks
Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Tabela de Links

Resumo e 1. Introdução

2 Detalhes arquitetônicos e 2.1 Mistura esparsa de especialistas

3 Resultados

3.1 Benchmarks multilíngues, 3.2 Desempenho de longo alcance e 3.3 Benchmarks de polarização

4 Ajuste fino de instruções

5 Análise de roteamento

6 Conclusão, Agradecimentos e Referências

3 Resultados

Comparamos Mixtral com Llama e reexecutamos todos os benchmarks com nosso próprio pipeline de avaliação para uma comparação justa. Medimos o desempenho em uma ampla variedade de tarefas categorizadas da seguinte forma:


• Raciocínio de senso comum (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• Conhecimento Mundial (5-shot): NaturalQuestions [20], TriviaQA [19]


• Compreensão de leitura (0-tiro): BoolQ [7], QuAC [5]


• Matemática: GSM8K [9] (8 disparos) com maj@8 e MATH [17] (4 disparos) com maj@4


• Código: Humaneval [4] (0-tiro) e MBPP [1] (3-tiro)


• Resultados agregados populares: MMLU [16] (5-shot), BBH [29] (3-shot) e AGI Eval [34] (3-5-shot, apenas questões de múltipla escolha em inglês)


Figura 2: Desempenho do Mixtral e de diferentes modelos Llama em uma ampla gama de benchmarks. Todos os modelos foram reavaliados em todas as métricas com nosso pipeline de avaliação para comparação precisa. O Mixtral supera ou iguala o Llama 2 70B em todos os benchmarks. Em particular, ele é muito superior em matemática e geração de código.

Figura 2: Desempenho do Mixtral e de diferentes modelos Llama em uma ampla gama de benchmarks. Todos os modelos foram reavaliados em todas as métricas com nosso pipeline de avaliação para comparação precisa. O Mixtral supera ou iguala o Llama 2 70B em todos os benchmarks. Em particular, ele é muito superior em matemática e geração de código.


Tabela 2: Comparação do Mixtral com o Llama. O Mixtral supera ou iguala o desempenho do Llama 2 70B em quase todos os benchmarks populares, usando 5x menos parâmetros ativos durante a inferência.

Tabela 2: Comparação do Mixtral com o Llama. O Mixtral supera ou iguala o desempenho do Llama 2 70B em quase todos os benchmarks populares, usando 5x menos parâmetros ativos durante a inferência.


Figura 3: Resultados em MMLU, raciocínio de senso comum, conhecimento de mundo e compreensão de leitura, matemática e código para Mistral (7B/8x7B) vs Llama 2 (7B/13B/70B). Mixtral supera amplamente Llama 2 70B em todos os benchmarks, exceto em benchmarks de compreensão de leitura ao usar parâmetros ativos 5x menores. Ele também é muito superior a Llama 2 70B em código e matemática.

Figura 3: Resultados em MMLU, raciocínio de senso comum, conhecimento de mundo e compreensão de leitura, matemática e código para Mistral (7B/8x7B) vs Llama 2 (7B/13B/70B). Mixtral supera amplamente Llama 2 70B em todos os benchmarks, exceto em benchmarks de compreensão de leitura ao usar parâmetros ativos 5x menores. Ele também é muito superior a Llama 2 70B em código e matemática.


Resultados detalhados para Mixtral, Mistral 7B e Llama 2 7B/13B/70B e Llama 1 34B[2] são relatados na Tabela 2. A Figura 2 compara o desempenho do Mixtral com os modelos Llama em diferentes categorias. O Mixtral supera o Llama 2 70B na maioria das métricas. Em particular, o Mixtral exibe um desempenho superior em benchmarks de código e matemática.


Tamanho e eficiência. Comparamos nosso desempenho com a família Llama 2, visando entender a eficiência dos modelos Mixtral no espectro de custo-desempenho (veja a Figura 3). Como um modelo esparso Mixtureof-Experts, o Mixtral usa apenas 13B parâmetros ativos para cada token. Com 5x menos parâmetros ativos, o Mixtral é capaz de superar o Llama 2 70B na maioria das categorias.


Observe que esta análise foca na contagem de parâmetros ativos (veja a Seção 2.1), que é diretamente proporcional ao custo de computação de inferência, mas não considera os custos de memória e utilização de hardware. Os custos de memória para servir Mixtral são proporcionais à sua contagem de parâmetros esparsos, 47B, que ainda é menor que Llama 2 70B. Quanto à utilização do dispositivo, notamos que a camada SMoEs introduz sobrecarga adicional devido ao mecanismo de roteamento e devido ao aumento de cargas de memória ao executar mais de um especialista por dispositivo. Eles são mais adequados para cargas de trabalho em lote, onde se pode atingir um bom grau de intensidade aritmética.


Comparação com Llama 2 70B e GPT-3.5. Na Tabela 3, relatamos o desempenho do Mixtral 8x7B em comparação com Llama 2 70B e GPT-3.5. Observamos que o Mixtral tem desempenho semelhante ou superior aos outros dois modelos. No MMLU, o Mixtral obtém um desempenho melhor, apesar de sua capacidade significativamente menor (47B tokens em comparação com 70B). Para o MT Bench, relatamos o desempenho do modelo GPT-3.5-Turbo mais recente disponível, gpt-3.5-turbo-1106.


Tabela 3: Comparação do Mixtral com o Llama 2 70B e o GPT-3.5. O Mixtral supera ou iguala o desempenho do Llama 2 70B e do GPT-3.5 na maioria das métricas.

Tabela 3: Comparação do Mixtral com o Llama 2 70B e o GPT-3.5. O Mixtral supera ou iguala o desempenho do Llama 2 70B e do GPT-3.5 na maioria das métricas.


Diferenças de avaliação. Em alguns benchmarks, há algumas diferenças entre nosso protocolo de avaliação e o relatado no artigo Llama 2: 1) no MBPP, usamos o subconjunto verificado manualmente 2) no TriviaQA, não fornecemos contextos da Wikipedia.


Este artigo está disponível no arxiv sob licença CC 4.0.


[2] Como o Llama 2 34B não era de código aberto, relatamos os resultados para o Llama 1 34B.


Autores:

(1) Alberto Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antônio Roux;

(4) Arthur Mensch;

(5) Branca Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Floriano Bressand;

(11) Gianna Lengyel;

(12) Guilherme Bour;

(13) Guilherme Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Maria Ana Lachaux;

(17) Pierre Estoque;

(18) Sandeep Subramanian;

(19) Sofia Yang;

(20) Szymon Antoniak;

(21) Dez Le Scao;

(22) Teófilo Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timóteo Lacroix;

(26) William El Sayed.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here