158 lexime

Mixtral tejkalon Llama dhe GPT-3.5 në shumë standarde

nga Writings, Papers and Blogs on Text Models4m2024/10/18

Shume gjate; Te lexosh

Mixtral 8x7B tejkalon Llama 2 70B dhe GPT-3.5 në standarde të shumta, duke përfshirë arsyetimin e zakonshëm, matematikën dhe gjenerimin e kodit. Me vetëm 13B parametra aktivë, Mixtral arrin performancë të krahasueshme ose superiore ndërkohë që është më efikas se homologët e tij. Pavarësisht kapacitetit të tij më të vogël prej 47 B parametrash, Mixtral shkëlqen në metrikë si MMLU dhe demonstron performancë të fortë në një sërë detyrash, duke e bërë atë një zgjedhje të fortë për aplikacionet e modelimit të gjuhës.

featured image - Mixtral tejkalon Llama dhe GPT-3.5 në shumë standarde

Tabela e lidhjeve

Abstrakt dhe 1. Hyrje

2 Detaje arkitekturore dhe 2.1 Përzierje e rrallë e ekspertëve

3 Rezultate

3.1 Standardet shumëgjuhëshe, 3.2 Performanca me rreze të gjatë dhe 3.3 Paragjykimet

4 Udhëzim Rregullimi i imët

5 Analiza e rrugëzimit

6 Përfundime, Mirënjohje dhe Referenca

3 Rezultate

Ne e krahasojmë Mixtral me Llama dhe i rishikojmë të gjitha standardet me linjën tonë të vlerësimit për krahasim të drejtë. Ne matim performancën në një shumëllojshmëri të gjerë detyrash të kategorizuara si më poshtë:

• Arsyetimi Commonsense (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Sfida [8], CommonsenseQA [30]

• Njohuri Botërore (5-shot): Natyrore Pyetje [20], TriviaQA [19]

• Kuptimi i leximit (0-shot): BoolQ [7], QuAC [5]

• Matematikë: GSM8K [9] (8-shot) me maj@8 dhe MATH [17] (4-shot) me maj@4

• Kodi: Humaneval [4] (0-shot) dhe MBPP [1] (3-shot)

• Rezultatet e grumbulluara të njohura: MMLU [16] (5 goditje), BBH [29] (3 goditje) dhe AGI Eval [34] (3-5 pikë, vetëm pyetje në anglisht me zgjedhje të shumëfishta)

Rezultatet e detajuara për Mixtral, Mistral 7B dhe Llama 2 7B/13B/70B dhe Llama 1 34B[2] janë raportuar në Tabelën 2. Figura 2 krahason performancën e Mixtral me modelet Llama në kategori të ndryshme. Mixtral tejkalon Llama 2 70B në shumicën e metrikave. Në veçanti, Mixtral shfaq një performancë superiore në standardet e kodit dhe matematikës.

Madhësia dhe efikasiteti. Ne e krahasojmë performancën tonë me familjen Llama 2, duke synuar të kuptojmë efikasitetin e modeleve Mixtral në spektrin e performancës së kostos (shih Figurën 3). Si një model i rrallë Mixtureof-Experts, Mixtral përdor vetëm 13B parametra aktivë për çdo shenjë. Me parametra aktivë 5 herë më të ulët, Mixtral është në gjendje të tejkalojë Llama 2 70B në shumicën e kategorive.

Vini re se kjo analizë fokusohet në numërimin e parametrave aktivë (shih seksionin 2.1), i cili është drejtpërdrejt proporcional me koston e llogaritjes së konkluzionit, por nuk merr parasysh kostot e memories dhe përdorimin e harduerit. Kostot e kujtesës për servirjen e Mixtral janë proporcionale me numrin e rrallë të parametrave të tij, 47B, që është akoma më i vogël se Llama 2 70B. Për sa i përket përdorimit të pajisjes, vërejmë se shtresa SMoEs paraqet shpenzime shtesë për shkak të mekanizmit të rrugëzimit dhe për shkak të rritjes së ngarkesave të memories kur funksionon më shumë se një ekspert për pajisje. Ato janë më të përshtatshme për ngarkesat e punës në grup, ku mund të arrihet një shkallë e mirë e intensitetit aritmetik.

Krahasimi me Llama 2 70B dhe GPT-3.5. Në tabelën 3, ne raportojmë performancën e Mixtral 8x7B krahasuar me Llama 2 70B dhe GPT-3.5. Vërejmë se Mixtral funksionon në mënyrë të ngjashme ose mbi dy modelet e tjera. Në MMLU, Mixtral merr një performancë më të mirë, pavarësisht nga kapaciteti i tij dukshëm më i vogël (47B argumente në krahasim me 70B). Për MT Bench, ne raportojmë performancën e modelit më të fundit GPT-3.5-Turbo të disponueshëm, gpt-3.5-turbo-1106.

Dallimet në vlerësim. Në disa standarde, ka disa dallime midis protokollit tonë të vlerësimit dhe atij të raportuar në punimin Llama 2: 1) në MBPP, ne përdorim nëngrupin e verifikuar me dorë 2) në TriviaQA, nuk ofrojmë kontekste të Wikipedia-s.