paint-brush
Mixtral бир нече көрсөткүчтөр боюнча Llama жана GPT-3.5тен ашып кететтарабынан@textmodels
Жаңы тарых

Mixtral бир нече көрсөткүчтөр боюнча Llama жана GPT-3.5тен ашып кетет

тарабынан Writings, Papers and Blogs on Text Models4m2024/10/18
Read on Terminal Reader

өтө узун; Окуу

Mixtral 8x7B көптөгөн көрсөткүчтөр боюнча Llama 2 70B жана GPT-3.5тен ашып кетет, анын ичинде акылга сыярлык ой жүгүртүү, математика жана кодду түзүү. 13B гана активдүү параметрлери менен, Mixtral өзүнүн кесиптештерине караганда натыйжалуураак болуп, салыштырмалуу же жогорку көрсөткүчтөргө жетишет. 47B параметрлеринин азыраак сыйымдуулугуна карабастан, Mixtral MMLU сыяктуу метрикалар боюнча артыкчылыкка ээ жана бир катар тапшырмаларда күчтүү аткарууну көрсөтүп, тилди моделдөө колдонмолору үчүн ишенимдүү тандоо болуп саналат.
featured image - Mixtral бир нече көрсөткүчтөр боюнча Llama жана GPT-3.5тен ашып кетет
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Шилтемелер таблицасы

Аннотация жана 1. Киришүү

2 Архитектуралык деталдар жана 2.1 Эксперттердин сейрек аралашмасы

3 Жыйынтыктар

3.1 Көп тилдүү эталондор, 3.2 Узак аралыктагы аткаруу жана 3.3 Bias Benchmarks

4 Көрсөтмө Толук тууралоо

5 Маршруттук анализ

6 Корутунду, Ыраазычылык жана Шилтемелер

3 Жыйынтыктар

Биз Mixtral менен Лламаны салыштырабыз жана адилеттүү салыштыруу үчүн бардык көрсөткүчтөрдү өзүбүздүн баалоо түтүгүбүз менен кайра иштетебиз. Биз төмөнкүдөй категорияларга бөлүнгөн ар кандай тапшырмалар боюнча аткарууну өлчөйбүз:


• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• World Knowledge (5-катуу): NaturalQuestions [20], TriviaQA [19]


• Окууну түшүнүү (0-ок): BoolQ [7], QuAC [5]


• Математика: GSM8K [9] (8-катуу) maj@8 жана MATH [17] (4-катуу) менен maj@4


• Код: Humaneval [4] (0-атуу) жана MBPP [1] (3-катуу)


• Популярдуу топтолгон жыйынтыктар: MMLU [16] (5-атуу), BBH [29] (3-атуу) жана AGI Eval [34] (3-5-катуу, англисче көп тандоо суроолору гана)


2-сүрөт: Mixtral жана ар кандай Llama моделдерин эталондордун кеңири диапазону боюнча аткаруу. Бардык моделдер так салыштыруу үчүн биздин баалоо түтүгү менен бардык көрсөткүчтөр боюнча кайра бааланды. Mixtral бардык көрсөткүчтөр боюнча Llama 2 70Bден ашып кетет же дал келет. Тактап айтканда, ал математика жана кодду түзүү боюнча абдан жогору.


Таблица 2: Микстралды лама менен салыштыруу. Mixtral дээрлик бардык популярдуу эталондор боюнча Llama 2 70B көрсөткүчүнөн ашып кетет же дал келет, ошол эле учурда тыянак чыгарууда активдүү параметрлерди 5 эсе азыраак колдонот.


3-сүрөт: MMLU боюнча жыйынтыктар, акылга сыярлык ой жүгүртүү, дүйнө таануу жана окууну түшүнүү, математика жана Mistral (7B/8x7B) vs Llama 2 (7B/13B/70B) үчүн код. Mixtral Llama 2 70B'ден 5 эсе азыраак активдүү параметрлерди колдонуу менен окууну түшүнүү көрсөткүчтөрүнөн башка бардык көрсөткүчтөр боюнча кыйла ашып кетет. Ошондой эле код жана математика боюнча Llama 2 70Bден бир топ жогору.


Mixtral, Mistral 7B жана Llama 2 7B/13B/70B жана Llama 1 34B[2] боюнча толук натыйжалар 2-таблицада келтирилген. 2-сүрөт Mixtral менен Llama моделдеринин ар кандай категориялардагы көрсөткүчтөрүн салыштырат. Mixtral көпчүлүк көрсөткүчтөр боюнча Llama 2 70Bдан ашып кетет. Атап айтканда, Mixtral код жана математика көрсөткүчтөрүндө жогорку көрсөткүчтөрдү көрсөтөт.


Өлчөмү жана эффективдүүлүгү. Mixtral моделдеринин эффективдүүлүгүн түшүнүүнү максат кылып, Llama 2 үй-бүлөсү менен өз ишибизди салыштырабыз (3-сүрөттү караңыз). Mixtureof-Experts сейрек модели катары, Mixtral ар бир токен үчүн 13B гана активдүү параметрлерди колдонот. 5x төмөн активдүү параметрлери менен, Mixtral көпчүлүк категориялар боюнча Llama 2 70B ашып кете алат.


Эскертүү, бул талдоо жигердүү параметрдин эсебине багытталган (2.1-бөлүмдү караңыз), ал жыйынтык чыгаруунун наркына түз пропорционалдуу, бирок эстутум чыгымдарын жана аппараттык каражаттарды колдонууну эске албайт. Mixtral кызматын көрсөтүү үчүн эстутум чыгымдары анын сейрек параметр санына пропорционалдуу, 47B, бул дагы эле Llama 2 70Bден кичине. Түзмөктү колдонууга келсек, SMoEs катмары маршрутташтыруу механизминен жана ар бир түзмөктө бирден ашык экспертти иштеткенде эстутум жүктөмүнүн көбөйүшүнө байланыштуу кошумча чыгымдарды киргизерин белгилейбиз. Алар арифметикалык интенсивдүүлүктүн жакшы даражасына жете турган топтомдук жүктөмдөр үчүн ылайыктуу.


Llama 2 70B жана GPT-3.5 менен салыштыруу. 3-таблицада Llama 2 70B жана GPT-3.5 менен салыштырганда Mixtral 8x7B көрсөткүчүн билдиребиз. Биз Mixtral эки башка моделге окшош же жогору аткарарын байкап жатабыз. MMLUде Mixtral бир кыйла азыраак кубаттуулугуна карабастан, жакшыраак көрсөткүчтөргө ээ (70Вге салыштырмалуу 47В токендер). MT Bench үчүн биз эң акыркы GPT-3.5-Turbo моделинин иштөөсү жөнүндө кабарлайбыз, gpt-3.5-turbo-1106.


3-таблица: Микстралды Llama 2 70B жана GPT-3.5 менен салыштыруу. Mixtral көпчүлүк көрсөткүчтөр боюнча Llama 2 70B жана GPT-3.5 көрсөткүчтөрүнөн ашып кетет же дал келет.


Баалоо айырмачылыктары. Кээ бир эталондор боюнча, биздин баалоо протоколу менен Llama 2 документинде баяндалган протоколдун ортосунда айрым айырмачылыктар бар: 1) MBPP боюнча, биз колго текшерилген подтопту колдонобуз 2) TriviaQA боюнча, биз Wikipedia контексттерин бербейбиз.



[2] Llama 2 34B ачык булак болбогондуктан, биз Llama 1 34B боюнча жыйынтыктарды билдиребиз.


Авторлор:

(1) Альберт К. Цзян;

(2) Александр Саблайроллес;

(3) Антуан Ру;

(4) Артур Менш;

(5) Бланш Савари;

(6) Крис Бэмфорд;

(7) Девендра Сингх Чаплот;

(8) Диего де лас Касас;

(9) Эмма Бу Ханна;

(10) Флориан Брессан;

(11) Джанна Ленгйел;

(12) Гийом Бур;

(13) Гийом Лампл;

(14) Лелио Ренар Лаво;

(15) Lucile Saulnier;

(16) Мари-Эн Лашо;

(17) Pierre Stock;

(18) Сандип Субраманиан;

(19) София Янг;

(20) Шимон Антониак;

(21) Тевен Ле Скао;

(22) Теофил Гервет;

(23) Тибо Лаврил;

(24) Томас Ванг;

(25) Timothée Lacroix;

(26) William El Sayed.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

ТАГИП АЛУУ

БУЛ МАКАЛА БЕРИЛГЕН...