Tabulka odkazů   Abstrakt a 1. Úvod   2 Architektonické detaily a 2.1 Řídká směs odborníků   3 Výsledky   3.1 Multilingual benchmarks, 3.2 Long range performance, and 3.3 Bias Benchmarks   4 Instrukce Jemné doladění   5 Analýza směrování   6 Závěr, poděkování a odkazy  3 Výsledky  Porovnáváme Mixtral s Llamou a znovu spouštíme všechny benchmarky s naším vlastním hodnotícím kanálem pro spravedlivé srovnání. Měříme výkon u široké řady úkolů rozdělených do následujících kategorií:    Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30] • Commonsense Reasoning (0 snímků):    NaturalQuestions [20], TriviaQA [19] • World Knowledge (5 snímků):    BoolQ [7], QuAC [5] • Čtení s porozuměním (0 snímků):    GSM8K [9] (8 snímků) s maj@8 a MATH [17] (4 snímky) s maj@4 • Matematika:    Humaneval [4] (0 snímků) a MBPP [1] (3 snímky) • Kód:    MMLU [16] (5 snímků), BBH [29] (3 snímky) a AGI Eval [34] (3–5 snímků, pouze anglické otázky s výběrem z více odpovědí)  • Oblíbené agregované výsledky:  Podrobné výsledky pro Mixtral, Mistral 7B a Llama 2 7B/13B/70B a Llama 1 34B[2] jsou uvedeny v tabulce 2. Obrázek 2 porovnává výkonnost Mixtralu s modely Llama v různých kategoriích. Mixtral překonává Llama 2 70B ve většině metrik. Zejména Mixtral vykazuje vynikající výkon v kódových a matematických benchmarcích.    Porovnáváme náš výkon s řadou Llama 2, abychom porozuměli účinnosti modelů Mixtral ve spektru nákladů a výkonu (viz obrázek 3). Jako řídký model Mixtureof-Experts používá Mixtral pouze 13B aktivních parametrů pro každý token. S 5x nižšími aktivními parametry je Mixtral schopen překonat Llama 2 70B napříč většinou kategorií. Velikost a účinnost.  Všimněte si, že tato analýza se zaměřuje na počet aktivních parametrů (viz část 2.1), který je přímo úměrný nákladům na odvození výpočtu, ale nezohledňuje náklady na paměť a využití hardwaru. Náklady na paměť pro obsluhu Mixtralu jsou úměrné jeho řídkému počtu parametrů, 47B, což je stále méně než u Llama 2 70B. Pokud jde o využití zařízení, poznamenáváme, že vrstva SMoEs zavádí další režii kvůli mechanismu směrování a kvůli zvýšenému zatížení paměti při provozu více než jednoho experta na zařízení. Jsou vhodnější pro dávkové zátěže, kde lze dosáhnout dobrého stupně aritmetické náročnosti.  Srovnání s Llama 2 70B a GPT-3.5. V tabulce 3 uvádíme výkon Mixtral 8x7B ve srovnání s Llama 2 70B a GPT-3.5. Pozorujeme, že Mixtral funguje podobně nebo nad ostatními dvěma modely. Na MMLU dosahuje Mixtral lepšího výkonu i přes výrazně menší kapacitu (47B tokenů oproti 70B). Pro MT Bench uvádíme výkon nejnovějšího dostupného modelu GPT-3.5-Turbo, gpt-3.5-turbo-1106.     U některých benchmarků existují určité rozdíly mezi naším vyhodnocovacím protokolem a protokolem uvedeným v článku Llama 2: 1) na MBPP, používáme ručně ověřenou podmnožinu 2) na TriviaQA, neposkytujeme kontexty Wikipedie. Rozdíly v hodnocení.  Tento dokument je   pod licencí CC 4.0. dostupný na arxiv  [2] Protože Llama 2 34B nebyla open-source, uvádíme výsledky pro Llama 1 34B.   autoři:  (1) Albert Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antoine Roux;  (4) Arthur Mensch;  (5) Blanche Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Florian Bressand;  (11) Gianna Lengyel;  (12) Guillaume Bour;  (13) Guillaume Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) Marie-Anne Lachaux;  (17) Pierre Stock;  (18) Sandeep Subramanian;  (19) Sophia Yang;  (20) Szymon Antoniak;  (21) Teven Le Scao;  (22) Théophile Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timothée Lacroix;  (26) William El Sayed.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Tento zvuk je produkován v původním jazyce příběhu!

Mixtral překonává Llama a GPT-3.5 ve více benchmarkech

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps