paint-brush
Mixtral překonává Llama a GPT-3.5 ve více benchmarkechpodle@textmodels
158 čtení

Mixtral překonává Llama a GPT-3.5 ve více benchmarkech

Příliš dlouho; Číst

Mixtral 8x7B překonává Llama 2 70B a GPT-3.5 v mnoha benchmarcích, včetně logického uvažování, matematiky a generování kódu. S pouhými 13B aktivními parametry dosahuje Mixtral srovnatelného nebo vynikajícího výkonu a zároveň je efektivnější než jeho protějšky. Navzdory své menší kapacitě 47B parametrů vyniká Mixtral v metrikách jako MMLU a prokazuje silný výkon v celé řadě úloh, což z něj činí robustní volbu pro aplikace jazykového modelování.
featured image - Mixtral překonává Llama a GPT-3.5 ve více benchmarkech
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Tabulka odkazů

Abstrakt a 1. Úvod

2 Architektonické detaily a 2.1 Řídká směs odborníků

3 Výsledky

3.1 Multilingual benchmarks, 3.2 Long range performance, and 3.3 Bias Benchmarks

4 Instrukce Jemné doladění

5 Analýza směrování

6 Závěr, poděkování a odkazy

3 Výsledky

Porovnáváme Mixtral s Llamou a znovu spouštíme všechny benchmarky s naším vlastním hodnotícím kanálem pro spravedlivé srovnání. Měříme výkon u široké řady úkolů rozdělených do následujících kategorií:


• Commonsense Reasoning (0 snímků): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• World Knowledge (5 snímků): NaturalQuestions [20], TriviaQA [19]


• Čtení s porozuměním (0 snímků): BoolQ [7], QuAC [5]


• Matematika: GSM8K [9] (8 snímků) s maj@8 a MATH [17] (4 snímky) s maj@4


• Kód: Humaneval [4] (0 snímků) a MBPP [1] (3 snímky)


• Oblíbené agregované výsledky: MMLU [16] (5 snímků), BBH [29] (3 snímky) a AGI Eval [34] (3–5 snímků, pouze anglické otázky s výběrem z více odpovědí)


Obrázek 2: Výkon Mixtralu a různých modelů Llama na široké škále benchmarků. Všechny modely byly přehodnoceny na všech metrikách pomocí našeho hodnotícího kanálu pro přesné srovnání. Mixtral překonává nebo odpovídá Llama 2 70B ve všech benchmarcích. Zejména je výrazně lepší v matematice a generování kódu.


Tabulka 2: Srovnání Mixtralu s Llamou. Mixtral překonává nebo se vyrovná výkonu Llama 2 70B na téměř všech populárních benchmarcích, zatímco během inference používá 5x méně aktivních parametrů.


Obrázek 3: Výsledky na MMLU, uvažování zdravým rozumem, znalost světa a porozumění čtenému textu, matematika a kód pro Mistral (7B/8x7B) vs. Llama 2 (7B/13B/70B). Mixtral z velké části překonává Llama 2 70B ve všech benchmarcích, kromě benchmarků čtení s porozuměním při použití 5x nižších aktivních parametrů. Je také mnohem lepší než Llama 2 70B v kódu a matematice.


Podrobné výsledky pro Mixtral, Mistral 7B a Llama 2 7B/13B/70B a Llama 1 34B[2] jsou uvedeny v tabulce 2. Obrázek 2 porovnává výkonnost Mixtralu s modely Llama v různých kategoriích. Mixtral překonává Llama 2 70B ve většině metrik. Zejména Mixtral vykazuje vynikající výkon v kódových a matematických benchmarcích.


Velikost a účinnost. Porovnáváme náš výkon s řadou Llama 2, abychom porozuměli účinnosti modelů Mixtral ve spektru nákladů a výkonu (viz obrázek 3). Jako řídký model Mixtureof-Experts používá Mixtral pouze 13B aktivních parametrů pro každý token. S 5x nižšími aktivními parametry je Mixtral schopen překonat Llama 2 70B napříč většinou kategorií.


Všimněte si, že tato analýza se zaměřuje na počet aktivních parametrů (viz část 2.1), který je přímo úměrný nákladům na odvození výpočtu, ale nezohledňuje náklady na paměť a využití hardwaru. Náklady na paměť pro obsluhu Mixtralu jsou úměrné jeho řídkému počtu parametrů, 47B, což je stále méně než u Llama 2 70B. Pokud jde o využití zařízení, poznamenáváme, že vrstva SMoEs zavádí další režii kvůli mechanismu směrování a kvůli zvýšenému zatížení paměti při provozu více než jednoho experta na zařízení. Jsou vhodnější pro dávkové zátěže, kde lze dosáhnout dobrého stupně aritmetické náročnosti.


Srovnání s Llama 2 70B a GPT-3.5. V tabulce 3 uvádíme výkon Mixtral 8x7B ve srovnání s Llama 2 70B a GPT-3.5. Pozorujeme, že Mixtral funguje podobně nebo nad ostatními dvěma modely. Na MMLU dosahuje Mixtral lepšího výkonu i přes výrazně menší kapacitu (47B tokenů oproti 70B). Pro MT Bench uvádíme výkon nejnovějšího dostupného modelu GPT-3.5-Turbo, gpt-3.5-turbo-1106.


Tabulka 3: Srovnání Mixtralu s Llama 2 70B a GPT-3.5. Mixtral překonává nebo odpovídá výkonu Llama 2 70B a GPT-3.5 ve většině metrik.


Rozdíly v hodnocení. U některých benchmarků existují určité rozdíly mezi naším vyhodnocovacím protokolem a protokolem uvedeným v článku Llama 2: 1) na MBPP, používáme ručně ověřenou podmnožinu 2) na TriviaQA, neposkytujeme kontexty Wikipedie.


Tento dokument je dostupný na arxiv pod licencí CC 4.0.


[2] Protože Llama 2 34B nebyla open-source, uvádíme výsledky pro Llama 1 34B.


autoři:

(1) Albert Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antoine Roux;

(4) Arthur Mensch;

(5) Blanche Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Florian Bressand;

(11) Gianna Lengyel;

(12) Guillaume Bour;

(13) Guillaume Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Marie-Anne Lachaux;

(17) Pierre Stock;

(18) Sandeep Subramanian;

(19) Sophia Yang;

(20) Szymon Antoniak;

(21) Teven Le Scao;

(22) Théophile Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timothée Lacroix;

(26) William El Sayed.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...