Autori:  (1) Albert Q. Jiang;  (2) Alexandre Sablayrolles;  (3) Antoine Roux;  (4) Arthur Mensch;  (5) Blanche Savary;  (6) Chris Bamford;  (7) Devendra Singh Chaplot;  (8) Diego de las Casas;  (9) Emma Bou Hanna;  (10) Florian Bressand;  (11) Gianna Lengyel;  (12) Guillaume Bour;  (13) Guillaume Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) Marie-Anne Lachaux;  (17) Pierre Stock;  (18) Sandeep Subramanian;  (19) Sophia Yang;  (20) Szymon Antoniak;  (21) Teven Le Scao;  (22) Théophile Gervet;  (23) Thibaut Lavril;  (24) Thomas Wang;  (25) Timothée Lacroix;  (26) William El Sayed.  Tabuľka odkazov   Abstrakt a 1. Úvod   2 Architektonické detaily a 2.1 Riedka zmes odborníkov   3 Výsledky   3.1 Viacjazyčné benchmarky, 3.2 Long range performance a 3.3 Bias Benchmarks   4 Pokyny Jemné doladenie   5 Analýza smerovania   6 Záver, poďakovanie a odkazy  Abstraktné  Predstavujeme Mixtral 8x7B, jazykový model Sparse Mixture of Experts (SMoE). Mixtral má rovnakú architektúru ako Mistral 7B s tým rozdielom, že každá vrstva je zložená z 8 dopredných blokov (tj expertov). Pre každý token v každej vrstve sieť smerovača vyberie dvoch odborníkov, ktorí spracujú aktuálny stav a skombinujú ich výstupy. Aj keď každý token vidí iba dvoch expertov, vybraní experti sa môžu v každom časovom kroku líšiť. Výsledkom je, že každý token má prístup k parametrom 47B, ale počas odvodzovania používa iba 13B aktívnych parametrov. Mixtral bol trénovaný s kontextovou veľkosťou 32 000 tokenov a vo všetkých hodnotených benchmarkoch prekonáva alebo zodpovedá Llama 2 70B a GPT-3.5. Najmä Mixtral výrazne prevyšuje Llama 2 70B v matematike, generovaní kódu a viacjazyčných benchmarkoch. Poskytujeme tiež model vyladený podľa pokynov, Mixtral 8x7B – Instruct, ktorý prekonáva GPT-3.5 Turbo, Claude-2.1, Gemini Pro a Llama 2 70B – chatovací model v ľudských benchmarkoch. Základný aj návodový model sú vydané pod licenciou Apache 2.0.    : https://github.com/mistralai/mistral-src Kód    : https://mistral.ai/news/mixtral-of-experts/ Webová stránka  1 Úvod  V tomto článku predstavujeme Mixtral 8x7B, riedku zmes expertného modelu (SMoE) s otvorenými váhami, licencovaný pod Apache 2.0. Mixtral prekonáva Llama 2 70B a GPT-3.5 vo väčšine benchmarkov. Keďže používa iba podmnožinu svojich parametrov pre každý token, Mixtral umožňuje vyššiu rýchlosť odvodzovania pri nízkych veľkostiach dávok a vyššiu priepustnosť pri veľkých veľkostiach dávok.  Mixtral je riedka sieť expertov. Ide o model len s dekodérom, kde dopredný blok vyberá zo sady 8 rôznych skupín parametrov. Na každej vrstve, pre každý token, sieť smerovača vyberie dve z týchto skupín („expertov“) na spracovanie tokenu a aditívne spojenie ich výstupu. Táto technika zvyšuje počet parametrov modelu a zároveň kontroluje náklady a latenciu, pretože model používa iba zlomok celkovej množiny parametrov na token.  Mixtral je predtrénovaný s viacjazyčnými údajmi s použitím veľkosti kontextu 32 000 tokenov. Buď zodpovedá alebo prevyšuje výkon Llama 2 70B a GPT-3.5 v niekoľkých benchmarkoch. najmä   Mixtral demonštruje vynikajúce schopnosti v matematike, generovaní kódu a úlohách, ktoré vyžadujú viacjazyčné porozumenie, čím výrazne prevyšuje Llama 2 70B v týchto doménach. Experimenty ukazujú, že Mixtral je schopný úspešne získať informácie zo svojho kontextového okna s 32 000 tokenmi, bez ohľadu na dĺžku sekvencie a umiestnenie informácií v sekvencii.  Predstavujeme tiež Mixtral 8x7B – Instruct, model chatu vyladený tak, aby plnil pokyny pomocou doladenia pod dohľadom a priamej optimalizácie preferencií [25]. Jeho výkon výrazne prevyšuje model GPT-3.5 Turbo, Claude-2.1, Gemini Pro a Llama 2 70B – chatovací model na ľudských hodnotiacich testoch. Mixtral – Instruct tiež demonštruje znížené zaujatosti a vyváženejší profil sentimentu v benchmarkoch, ako sú BBQ a BOLD.  Uvoľňujeme Mixtral 8x7B aj Mixtral 8x7B – Instruct pod licenciou Apache 2.01, bezplatne pre akademické a komerčné použitie, čo zaisťuje širokú dostupnosť a potenciál pre rôzne aplikácie. Aby sme komunite umožnili spustiť Mixtral s plne otvoreným zdrojovým zásobníkom, predložili sme zmeny v projekte vLLM, ktorý integruje jadrá Megablocks CUDA pre efektívne odvodenie. Skypilot tiež umožňuje nasadenie koncových bodov vLLM na ľubovoľnú inštanciu v cloude.  Tento dokument je   pod licenciou CC 4.0. dostupný na arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Tento zvuk je vyrobený v pôvodnom jazyku príbehu!

Mixtral — viacjazyčný jazykový model trénovaný s veľkosťou kontextu 32 000 tokenov

About Author

KOMENTÁRE

ZAVISTE ŠTÍTKY

TENTO ČLÁNOK BOL PREDSTAVENÝ V

Related Stories

112 Stories To Learn About Hackernoon Community

When Blood Told

THE CRAB-SPIDER

16 Best Sklearn Datasets for Building Machine Learning Models

112 Stories To Learn About Hackernoon Community

When Blood Told

THE CRAB-SPIDER

16 Best Sklearn Datasets for Building Machine Learning Models

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps