Autori:
(1) Albert Q. Jiang;
(2) Alexandre Sablayrolles;
(3) Antoine Roux;
(4) Arthur Mensch;
(5) Blanche Savary;
(6) Chris Bamford;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) Emma Bou Hanna;
(10) Florian Bressand;
(11) Gianna Lengyel;
(12) Guillaume Bour;
(13) Guillaume Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) Marie-Anne Lachaux;
(17) Pierre Stock;
(18) Sandeep Subramanian;
(19) Sophia Yang;
(20) Szymon Antoniak;
(21) Teven Le Scao;
(22) Théophile Gervet;
(23) Thibaut Lavril;
(24) Thomas Wang;
(25) Timothée Lacroix;
(26) William El Sayed.
2 Architektonické detaily a 2.1 Riedka zmes odborníkov
3.1 Viacjazyčné benchmarky, 3.2 Long range performance a 3.3 Bias Benchmarks
Predstavujeme Mixtral 8x7B, jazykový model Sparse Mixture of Experts (SMoE). Mixtral má rovnakú architektúru ako Mistral 7B s tým rozdielom, že každá vrstva je zložená z 8 dopredných blokov (tj expertov). Pre každý token v každej vrstve sieť smerovača vyberie dvoch odborníkov, ktorí spracujú aktuálny stav a skombinujú ich výstupy. Aj keď každý token vidí iba dvoch expertov, vybraní experti sa môžu v každom časovom kroku líšiť. Výsledkom je, že každý token má prístup k parametrom 47B, ale počas odvodzovania používa iba 13B aktívnych parametrov. Mixtral bol trénovaný s kontextovou veľkosťou 32 000 tokenov a vo všetkých hodnotených benchmarkoch prekonáva alebo zodpovedá Llama 2 70B a GPT-3.5. Najmä Mixtral výrazne prevyšuje Llama 2 70B v matematike, generovaní kódu a viacjazyčných benchmarkoch. Poskytujeme tiež model vyladený podľa pokynov, Mixtral 8x7B – Instruct, ktorý prekonáva GPT-3.5 Turbo, Claude-2.1, Gemini Pro a Llama 2 70B – chatovací model v ľudských benchmarkoch. Základný aj návodový model sú vydané pod licenciou Apache 2.0.
Kód : https://github.com/mistralai/mistral-src
Webová stránka : https://mistral.ai/news/mixtral-of-experts/
V tomto článku predstavujeme Mixtral 8x7B, riedku zmes expertného modelu (SMoE) s otvorenými váhami, licencovaný pod Apache 2.0. Mixtral prekonáva Llama 2 70B a GPT-3.5 vo väčšine benchmarkov. Keďže používa iba podmnožinu svojich parametrov pre každý token, Mixtral umožňuje vyššiu rýchlosť odvodzovania pri nízkych veľkostiach dávok a vyššiu priepustnosť pri veľkých veľkostiach dávok.
Mixtral je riedka sieť expertov. Ide o model len s dekodérom, kde dopredný blok vyberá zo sady 8 rôznych skupín parametrov. Na každej vrstve, pre každý token, sieť smerovača vyberie dve z týchto skupín („expertov“) na spracovanie tokenu a aditívne spojenie ich výstupu. Táto technika zvyšuje počet parametrov modelu a zároveň kontroluje náklady a latenciu, pretože model používa iba zlomok celkovej množiny parametrov na token.
Mixtral je predtrénovaný s viacjazyčnými údajmi s použitím veľkosti kontextu 32 000 tokenov. Buď zodpovedá alebo prevyšuje výkon Llama 2 70B a GPT-3.5 v niekoľkých benchmarkoch. najmä
Mixtral demonštruje vynikajúce schopnosti v matematike, generovaní kódu a úlohách, ktoré vyžadujú viacjazyčné porozumenie, čím výrazne prevyšuje Llama 2 70B v týchto doménach. Experimenty ukazujú, že Mixtral je schopný úspešne získať informácie zo svojho kontextového okna s 32 000 tokenmi, bez ohľadu na dĺžku sekvencie a umiestnenie informácií v sekvencii.
Predstavujeme tiež Mixtral 8x7B – Instruct, model chatu vyladený tak, aby plnil pokyny pomocou doladenia pod dohľadom a priamej optimalizácie preferencií [25]. Jeho výkon výrazne prevyšuje model GPT-3.5 Turbo, Claude-2.1, Gemini Pro a Llama 2 70B – chatovací model na ľudských hodnotiacich testoch. Mixtral – Instruct tiež demonštruje znížené zaujatosti a vyváženejší profil sentimentu v benchmarkoch, ako sú BBQ a BOLD.
Uvoľňujeme Mixtral 8x7B aj Mixtral 8x7B – Instruct pod licenciou Apache 2.01, bezplatne pre akademické a komerčné použitie, čo zaisťuje širokú dostupnosť a potenciál pre rôzne aplikácie. Aby sme komunite umožnili spustiť Mixtral s plne otvoreným zdrojovým zásobníkom, predložili sme zmeny v projekte vLLM, ktorý integruje jadrá Megablocks CUDA pre efektívne odvodenie. Skypilot tiež umožňuje nasadenie koncových bodov vLLM na ľubovoľnú inštanciu v cloude.
Tento dokument je dostupný na arxiv pod licenciou CC 4.0.