2 Architektonické detaily a 2.1 Řídká směs odborníků
3.1 Multilingual benchmarks, 3.2 Long range performance, and 3.3 Bias Benchmarks
Porovnáváme Mixtral s Llamou a znovu spouštíme všechny benchmarky s naším vlastním hodnotícím kanálem pro spravedlivé srovnání. Měříme výkon u široké řady úkolů rozdělených do následujících kategorií:
• Commonsense Reasoning (0 snímků): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• World Knowledge (5 snímků): NaturalQuestions [20], TriviaQA [19]
• Čtení s porozuměním (0 snímků): BoolQ [7], QuAC [5]
• Matematika: GSM8K [9] (8 snímků) s maj@8 a MATH [17] (4 snímky) s maj@4
• Kód: Humaneval [4] (0 snímků) a MBPP [1] (3 snímky)
• Oblíbené agregované výsledky: MMLU [16] (5 snímků), BBH [29] (3 snímky) a AGI Eval [34] (3–5 snímků, pouze anglické otázky s výběrem z více odpovědí)
Podrobné výsledky pro Mixtral, Mistral 7B a Llama 2 7B/13B/70B a Llama 1 34B[2] jsou uvedeny v tabulce 2. Obrázek 2 porovnává výkonnost Mixtralu s modely Llama v různých kategoriích. Mixtral překonává Llama 2 70B ve většině metrik. Zejména Mixtral vykazuje vynikající výkon v kódových a matematických benchmarcích.
Velikost a účinnost. Porovnáváme náš výkon s řadou Llama 2, abychom porozuměli účinnosti modelů Mixtral ve spektru nákladů a výkonu (viz obrázek 3). Jako řídký model Mixtureof-Experts používá Mixtral pouze 13B aktivních parametrů pro každý token. S 5x nižšími aktivními parametry je Mixtral schopen překonat Llama 2 70B napříč většinou kategorií.
Všimněte si, že tato analýza se zaměřuje na počet aktivních parametrů (viz část 2.1), který je přímo úměrný nákladům na odvození výpočtu, ale nezohledňuje náklady na paměť a využití hardwaru. Náklady na paměť pro obsluhu Mixtralu jsou úměrné jeho řídkému počtu parametrů, 47B, což je stále méně než u Llama 2 70B. Pokud jde o využití zařízení, poznamenáváme, že vrstva SMoEs zavádí další režii kvůli mechanismu směrování a kvůli zvýšenému zatížení paměti při provozu více než jednoho experta na zařízení. Jsou vhodnější pro dávkové zátěže, kde lze dosáhnout dobrého stupně aritmetické náročnosti.
Srovnání s Llama 2 70B a GPT-3.5. V tabulce 3 uvádíme výkon Mixtral 8x7B ve srovnání s Llama 2 70B a GPT-3.5. Pozorujeme, že Mixtral funguje podobně nebo nad ostatními dvěma modely. Na MMLU dosahuje Mixtral lepšího výkonu i přes výrazně menší kapacitu (47B tokenů oproti 70B). Pro MT Bench uvádíme výkon nejnovějšího dostupného modelu GPT-3.5-Turbo, gpt-3.5-turbo-1106.
Rozdíly v hodnocení. U některých benchmarků existují určité rozdíly mezi naším vyhodnocovacím protokolem a protokolem uvedeným v článku Llama 2: 1) na MBPP, používáme ručně ověřenou podmnožinu 2) na TriviaQA, neposkytujeme kontexty Wikipedie.
Tento dokument je dostupný na arxiv pod licencí CC 4.0.
[2] Protože Llama 2 34B nebyla open-source, uvádíme výsledky pro Llama 1 34B.
autoři:
(1) Albert Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antoine Roux;
(4) Arthur Mensch;
(5) Blanche Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Florian Bressand;
(11) Gianna Lengyel;
(12) Guillaume Bour;
(13) Guillaume Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) Marie-Anne Lachaux;
(17) Pierre Stock;
(18) Sandeep Subramanian;
(19) Sophia Yang;
(20) Szymon Antoniak;
(21) Teven Le Scao;
(22) Théophile Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timothée Lacroix;
(26) William El Sayed.