193 čtení

Mixtral překonává Llama a GPT-3.5 ve více benchmarkech

podle Writings, Papers and Blogs on Text Models4m2024/10/18

Příliš dlouho; Číst

Mixtral 8x7B překonává Llama 2 70B a GPT-3.5 v mnoha benchmarcích, včetně logického uvažování, matematiky a generování kódu. S pouhými 13B aktivními parametry dosahuje Mixtral srovnatelného nebo vynikajícího výkonu a zároveň je efektivnější než jeho protějšky. Navzdory své menší kapacitě 47B parametrů vyniká Mixtral v metrikách jako MMLU a prokazuje silný výkon v celé řadě úloh, což z něj činí robustní volbu pro aplikace jazykového modelování.

featured image - Mixtral překonává Llama a GPT-3.5 ve více benchmarkech

Tabulka odkazů

Abstrakt a 1. Úvod

2 Architektonické detaily a 2.1 Řídká směs odborníků

3 Výsledky

3.1 Multilingual benchmarks, 3.2 Long range performance, and 3.3 Bias Benchmarks

4 Instrukce Jemné doladění

5 Analýza směrování

6 Závěr, poděkování a odkazy

3 Výsledky

Porovnáváme Mixtral s Llamou a znovu spouštíme všechny benchmarky s naším vlastním hodnotícím kanálem pro spravedlivé srovnání. Měříme výkon u široké řady úkolů rozdělených do následujících kategorií:

• Commonsense Reasoning (0 snímků): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]

• World Knowledge (5 snímků): NaturalQuestions [20], TriviaQA [19]

• Čtení s porozuměním (0 snímků): BoolQ [7], QuAC [5]

• Matematika: GSM8K [9] (8 snímků) s maj@8 a MATH [17] (4 snímky) s maj@4

• Kód: Humaneval [4] (0 snímků) a MBPP [1] (3 snímky)

• Oblíbené agregované výsledky: MMLU [16] (5 snímků), BBH [29] (3 snímky) a AGI Eval [34] (3–5 snímků, pouze anglické otázky s výběrem z více odpovědí)

Podrobné výsledky pro Mixtral, Mistral 7B a Llama 2 7B/13B/70B a Llama 1 34B[2] jsou uvedeny v tabulce 2. Obrázek 2 porovnává výkonnost Mixtralu s modely Llama v různých kategoriích. Mixtral překonává Llama 2 70B ve většině metrik. Zejména Mixtral vykazuje vynikající výkon v kódových a matematických benchmarcích.

Velikost a účinnost. Porovnáváme náš výkon s řadou Llama 2, abychom porozuměli účinnosti modelů Mixtral ve spektru nákladů a výkonu (viz obrázek 3). Jako řídký model Mixtureof-Experts používá Mixtral pouze 13B aktivních parametrů pro každý token. S 5x nižšími aktivními parametry je Mixtral schopen překonat Llama 2 70B napříč většinou kategorií.

Všimněte si, že tato analýza se zaměřuje na počet aktivních parametrů (viz část 2.1), který je přímo úměrný nákladům na odvození výpočtu, ale nezohledňuje náklady na paměť a využití hardwaru. Náklady na paměť pro obsluhu Mixtralu jsou úměrné jeho řídkému počtu parametrů, 47B, což je stále méně než u Llama 2 70B. Pokud jde o využití zařízení, poznamenáváme, že vrstva SMoEs zavádí další režii kvůli mechanismu směrování a kvůli zvýšenému zatížení paměti při provozu více než jednoho experta na zařízení. Jsou vhodnější pro dávkové zátěže, kde lze dosáhnout dobrého stupně aritmetické náročnosti.

Srovnání s Llama 2 70B a GPT-3.5. V tabulce 3 uvádíme výkon Mixtral 8x7B ve srovnání s Llama 2 70B a GPT-3.5. Pozorujeme, že Mixtral funguje podobně nebo nad ostatními dvěma modely. Na MMLU dosahuje Mixtral lepšího výkonu i přes výrazně menší kapacitu (47B tokenů oproti 70B). Pro MT Bench uvádíme výkon nejnovějšího dostupného modelu GPT-3.5-Turbo, gpt-3.5-turbo-1106.

Rozdíly v hodnocení. U některých benchmarků existují určité rozdíly mezi naším vyhodnocovacím protokolem a protokolem uvedeným v článku Llama 2: 1) na MBPP, používáme ručně ověřenou podmnožinu 2) na TriviaQA, neposkytujeme kontexty Wikipedie.