paint-brush
Mixtral tejkalon Llama dhe GPT-3.5 në shumë standardenga@textmodels
Histori e re

Mixtral tejkalon Llama dhe GPT-3.5 në shumë standarde

Shume gjate; Te lexosh

Mixtral 8x7B tejkalon Llama 2 70B dhe GPT-3.5 në standarde të shumta, duke përfshirë arsyetimin e zakonshëm, matematikën dhe gjenerimin e kodit. Me vetëm 13B parametra aktivë, Mixtral arrin performancë të krahasueshme ose superiore ndërkohë që është më efikas se homologët e tij. Pavarësisht kapacitetit të tij më të vogël prej 47 B parametrash, Mixtral shkëlqen në metrikë si MMLU dhe demonstron performancë të fortë në një sërë detyrash, duke e bërë atë një zgjedhje të fortë për aplikacionet e modelimit të gjuhës.
featured image - Mixtral tejkalon Llama dhe GPT-3.5 në shumë standarde
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Tabela e lidhjeve

Abstrakt dhe 1. Hyrje

2 Detaje arkitekturore dhe 2.1 Përzierje e rrallë e ekspertëve

3 Rezultate

3.1 Standardet shumëgjuhëshe, 3.2 Performanca me rreze të gjatë dhe 3.3 Paragjykimet

4 Udhëzim Rregullimi i imët

5 Analiza e rrugëzimit

6 Përfundime, Mirënjohje dhe Referenca

3 Rezultate

Ne e krahasojmë Mixtral me Llama dhe i rishikojmë të gjitha standardet me linjën tonë të vlerësimit për krahasim të drejtë. Ne matim performancën në një shumëllojshmëri të gjerë detyrash të kategorizuara si më poshtë:


• Arsyetimi Commonsense (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Sfida [8], CommonsenseQA [30]


• Njohuri Botërore (5-shot): Natyrore Pyetje [20], TriviaQA [19]


• Kuptimi i leximit (0-shot): BoolQ [7], QuAC [5]


• Matematikë: GSM8K [9] (8-shot) me maj@8 dhe MATH [17] (4-shot) me maj@4


• Kodi: Humaneval [4] (0-shot) dhe MBPP [1] (3-shot)


• Rezultatet e grumbulluara të njohura: MMLU [16] (5 goditje), BBH [29] (3 goditje) dhe AGI Eval [34] (3-5 pikë, vetëm pyetje në anglisht me zgjedhje të shumëfishta)


Figura 2: Performanca e modeleve Mixtral dhe të ndryshme Llama në një gamë të gjerë standardesh. Të gjitha modelet u rivlerësuan në të gjitha metrikat me tubacionin tonë të vlerësimit për krahasim të saktë. Mixtral performon më mirë ose përputhet me Llama 2 70B në të gjitha standardet. Në veçanti, ai është jashtëzakonisht superior në matematikë dhe gjenerimin e kodeve.


Tabela 2: Krahasimi i Mixtralit me Llamën. Mixtral performon më mirë ose përputhet me performancën e Llama 2 70B në pothuajse të gjitha standardet e njohura, ndërsa përdor 5x më pak parametra aktivë gjatë përfundimit.


Figura 3: Rezultatet në MMLU, arsyetimi i logjikshëm, njohuritë botërore dhe të kuptuarit e leximit, matematika dhe kodi për Mistral (7B/8x7B) vs Llama 2 (7B/13B/70B). Mixtral në masë të madhe tejkalon Llama 2 70B në të gjitha standardet, me përjashtim të standardeve të leximit të të kuptuarit ndërsa përdor parametra aktivë 5 herë më të ulët. Është gjithashtu shumë superior ndaj Llama 2 70B në kod dhe matematikë.


Rezultatet e detajuara për Mixtral, Mistral 7B dhe Llama 2 7B/13B/70B dhe Llama 1 34B[2] janë raportuar në Tabelën 2. Figura 2 krahason performancën e Mixtral me modelet Llama në kategori të ndryshme. Mixtral tejkalon Llama 2 70B në shumicën e metrikave. Në veçanti, Mixtral shfaq një performancë superiore në standardet e kodit dhe matematikës.


Madhësia dhe efikasiteti. Ne e krahasojmë performancën tonë me familjen Llama 2, duke synuar të kuptojmë efikasitetin e modeleve Mixtral në spektrin e performancës së kostos (shih Figurën 3). Si një model i rrallë Mixtureof-Experts, Mixtral përdor vetëm 13B parametra aktivë për çdo shenjë. Me parametra aktivë 5 herë më të ulët, Mixtral është në gjendje të tejkalojë Llama 2 70B në shumicën e kategorive.


Vini re se kjo analizë fokusohet në numërimin e parametrave aktivë (shih seksionin 2.1), i cili është drejtpërdrejt proporcional me koston e llogaritjes së konkluzionit, por nuk merr parasysh kostot e memories dhe përdorimin e harduerit. Kostot e kujtesës për servirjen e Mixtral janë proporcionale me numrin e rrallë të parametrave të tij, 47B, që është akoma më i vogël se Llama 2 70B. Për sa i përket përdorimit të pajisjes, vërejmë se shtresa SMoEs paraqet shpenzime shtesë për shkak të mekanizmit të rrugëzimit dhe për shkak të rritjes së ngarkesave të memories kur funksionon më shumë se një ekspert për pajisje. Ato janë më të përshtatshme për ngarkesat e punës në grup, ku mund të arrihet një shkallë e mirë e intensitetit aritmetik.


Krahasimi me Llama 2 70B dhe GPT-3.5. Në tabelën 3, ne raportojmë performancën e Mixtral 8x7B krahasuar me Llama 2 70B dhe GPT-3.5. Vërejmë se Mixtral funksionon në mënyrë të ngjashme ose mbi dy modelet e tjera. Në MMLU, Mixtral merr një performancë më të mirë, pavarësisht nga kapaciteti i tij dukshëm më i vogël (47B argumente në krahasim me 70B). Për MT Bench, ne raportojmë performancën e modelit më të fundit GPT-3.5-Turbo të disponueshëm, gpt-3.5-turbo-1106.


Tabela 3: Krahasimi i Mixtral me Llama 2 70B dhe GPT-3.5. Mixtral performon më mirë ose përputhet me performancën Llama 2 70B dhe GPT-3.5 në shumicën e metrikave.


Dallimet në vlerësim. Në disa standarde, ka disa dallime midis protokollit tonë të vlerësimit dhe atij të raportuar në punimin Llama 2: 1) në MBPP, ne përdorim nëngrupin e verifikuar me dorë 2) në TriviaQA, nuk ofrojmë kontekste të Wikipedia-s.


Ky dokument është i disponueshëm në arxiv nën licencën CC 4.0.


[2] Meqenëse Llama 2 34B nuk ishte me burim të hapur, ne raportojmë rezultatet për Llama 1 34B.


Autorët:

(1) Albert Q. Jiang;

(2) Alexandre Sablayrolles;

(3) Antoine Roux;

(4) Arthur Mensch;

(5) Blanche Savary;

(6) Chris Bamford;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) Emma Bou Hanna;

(10) Florian Bressand;

(11) Gianna Lengyel;

(12) Guillaume Bour;

(13) Guillaume Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) Marie-Anne Lachaux;

(17) Pierre Stock;

(18) Sandeep Subramanian;

(19) Sophia Yang;

(20) Szymon Antoniak;

(21) Teven Le Scao;

(22) Theophile Gervet;

(23) Thibaut Lavril;

(24) Thomas Wang;

(25) Timothée Lacroix;

(26) William El Sayed.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

VARUR TAGS

KY ARTIKU U PARAQIT NË...