paint-brush
Mixtral – en flersproget sprogmodel trænet med en kontekststørrelse på 32k tokens ved@textmodels
Ny historie

Mixtral – en flersproget sprogmodel trænet med en kontekststørrelse på 32k tokens

For langt; At læse

Mixtral er en sparsom blanding af ekspertmodeller (SMoE) med åbne vægte, licenseret under Apache 2.0. Mixtral overgår Llama 2 70B og GPT-3.5 på de fleste benchmarks. Det er en dekoder-only model, hvor feedforward-blokken vælger fra 8 forskellige grupper af parametre.
featured image - Mixtral – en flersproget sprogmodel trænet med en kontekststørrelse på 32k tokens
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Forfattere:

(1) Albert Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antoine Roux;

(4) Arthur Mensch;

(5) Blanche Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Florian Bressand;

(11) Gianna Lengyel;

(12) Guillaume Bour;

(13) Guillaume Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Marie-Anne Lachaux;

(17) Pierre Stock;

(18) Sandeep Subramanian;

(19) Sophia Yang;

(20) Szymon Antoniak;

(21) Teven Le Scao;

(22) Théophile Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timothée Lacroix;

(26) William El Sayed.

Tabel over links

Abstrakt og 1. Indledning

2 Arkitektoniske detaljer og 2.1 Sparsom blanding af eksperter

3 resultater

3.1 Flersprogede benchmarks, 3.2 Lang rækkevidde og 3.3 Bias Benchmarks

4 Instruktion Finjustering

5 Routing analyse

6 Konklusion, anerkendelser og referencer

Abstrakt

Vi introducerer Mixtral 8x7B, en sparse blanding af eksperter (SMoE) sprogmodel. Mixtral har samme arkitektur som Mistral 7B, med den forskel at hvert lag er sammensat af 8 feedforward blokke (dvs. eksperter). For hvert token, på hvert lag, udvælger et routernetværk to eksperter til at behandle den aktuelle tilstand og kombinere deres output. Selvom hvert token kun ser to eksperter, kan de udvalgte eksperter være forskellige på hvert tidspunkt. Som et resultat har hvert token adgang til 47B parametre, men bruger kun 13B aktive parametre under inferens. Mixtral blev trænet med en kontekststørrelse på 32.000 tokens, og den overgår eller matcher Llama 2 70B og GPT-3.5 på tværs af alle evaluerede benchmarks. Især er Mixtral langt bedre end Llama 2 70B med hensyn til matematik, kodegenerering og flersprogede benchmarks. Vi leverer også en model, der er finjusteret til at følge instruktionerne, Mixtral 8x7B – Instruct, der overgår GPT-3.5 Turbo, Claude-2.1, Gemini Pro og Llama 2 70B – chatmodel på menneskelige benchmarks. Både basis- og instruktionsmodellen er frigivet under Apache 2.0-licensen.


Kode : https://github.com/mistralai/mistral-src


Hjemmeside : https://mistral.ai/news/mixtral-of-experts/

1 Indledning

I dette papir præsenterer vi Mixtral 8x7B, en sparsom blanding af ekspertmodeller (SMoE) med åbne vægte, licenseret under Apache 2.0. Mixtral overgår Llama 2 70B og GPT-3.5 på de fleste benchmarks. Da det kun bruger et undersæt af dets parametre for hvert token, tillader Mixtral hurtigere inferenshastighed ved lave batchstørrelser og højere gennemløb ved store batchstørrelser.


Mixtral er et sparsomt netværk af eksperter. Det er en dekoder-only model, hvor feedforward-blokken vælger fra et sæt af 8 forskellige grupper af parametre. Ved hvert lag, for hvert token, vælger et routernetværk to af disse grupper ("eksperterne") til at behandle tokenet og kombinere deres output additivt. Denne teknik øger antallet af parametre for en model, mens den kontrollerer omkostninger og latens, da modellen kun bruger en brøkdel af det samlede sæt af parametre pr. token.


Mixtral er fortrænet med flersprogede data ved hjælp af en kontekststørrelse på 32k tokens. Den matcher eller overgår ydelsen af Llama 2 70B og GPT-3.5 over flere benchmarks. Især


Figur 1: Blanding af ekspertlag. Hver inputvektor er tildelt 2 af de 8 eksperter af en router. Lagets output er den vægtede sum af output fra de to udvalgte eksperter. I Mixtral er en ekspert en standard feedforward-blok som i en vaniljetransformatorarkitektur.


Mixtral demonstrerer overlegne evner inden for matematik, kodegenerering og opgaver, der kræver flersproget forståelse, hvilket er væsentligt bedre end Llama 2 70B på disse domæner. Eksperimenter viser, at Mixtral med succes er i stand til at hente information fra sit kontekstvindue på 32k tokens, uanset sekvenslængden og placeringen af informationen i sekvensen.


Vi præsenterer også Mixtral 8x7B – Instruct, en chatmodel, der er finjusteret til at følge instruktioner ved hjælp af overvåget finjustering og direkte præferenceoptimering [25]. Dens ydeevne overgår mærkbart den for GPT-3.5 Turbo, Claude-2.1, Gemini Pro og Llama 2 70B – chatmodel på benchmarks for menneskelig evaluering. Mixtral – Instruct demonstrerer også reducerede skævheder og en mere afbalanceret følelsesprofil i benchmarks som BBQ og BOLD.


Vi frigiver både Mixtral 8x7B og Mixtral 8x7B – Instruct under Apache 2.0-licensen1, gratis til akademisk og kommerciel brug, hvilket sikrer bred tilgængelighed og potentiale for forskellige applikationer. For at gøre det muligt for fællesskabet at køre Mixtral med en fuldt åben kildekode-stak, indsendte vi ændringer til vLLM-projektet, som integrerer Megablocks CUDA-kerner til effektiv inferens. Skypilot tillader også udrulning af vLLM-endepunkter på enhver forekomst i skyen.


Dette papir er tilgængeligt på arxiv under CC 4.0-licens.