2 Архитектуралык деталдар жана 2.1 Эксперттердин сейрек аралашмасы
3.1 Көп тилдүү эталондор, 3.2 Узак аралыктагы аткаруу жана 3.3 Bias Benchmarks
6 Корутунду, Ыраазычылык жана Шилтемелер
Биз Mixtral менен Лламаны салыштырабыз жана адилеттүү салыштыруу үчүн бардык көрсөткүчтөрдү өзүбүздүн баалоо түтүгүбүз менен кайра иштетебиз. Биз төмөнкүдөй категорияларга бөлүнгөн ар кандай тапшырмалар боюнча аткарууну өлчөйбүз:
• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• World Knowledge (5-катуу): NaturalQuestions [20], TriviaQA [19]
• Окууну түшүнүү (0-ок): BoolQ [7], QuAC [5]
• Математика: GSM8K [9] (8-катуу) maj@8 жана MATH [17] (4-катуу) менен maj@4
• Код: Humaneval [4] (0-атуу) жана MBPP [1] (3-катуу)
• Популярдуу топтолгон жыйынтыктар: MMLU [16] (5-атуу), BBH [29] (3-атуу) жана AGI Eval [34] (3-5-катуу, англисче көп тандоо суроолору гана)
Mixtral, Mistral 7B жана Llama 2 7B/13B/70B жана Llama 1 34B[2] боюнча толук натыйжалар 2-таблицада келтирилген. 2-сүрөт Mixtral менен Llama моделдеринин ар кандай категориялардагы көрсөткүчтөрүн салыштырат. Mixtral көпчүлүк көрсөткүчтөр боюнча Llama 2 70Bдан ашып кетет. Атап айтканда, Mixtral код жана математика көрсөткүчтөрүндө жогорку көрсөткүчтөрдү көрсөтөт.
Өлчөмү жана эффективдүүлүгү. Mixtral моделдеринин эффективдүүлүгүн түшүнүүнү максат кылып, Llama 2 үй-бүлөсү менен өз ишибизди салыштырабыз (3-сүрөттү караңыз). Mixtureof-Experts сейрек модели катары, Mixtral ар бир токен үчүн 13B гана активдүү параметрлерди колдонот. 5x төмөн активдүү параметрлери менен, Mixtral көпчүлүк категориялар боюнча Llama 2 70B ашып кете алат.
Эскертүү, бул талдоо жигердүү параметрдин эсебине багытталган (2.1-бөлүмдү караңыз), ал жыйынтык чыгаруунун наркына түз пропорционалдуу, бирок эстутум чыгымдарын жана аппараттык каражаттарды колдонууну эске албайт. Mixtral кызматын көрсөтүү үчүн эстутум чыгымдары анын сейрек параметр санына пропорционалдуу, 47B, бул дагы эле Llama 2 70Bден кичине. Түзмөктү колдонууга келсек, SMoEs катмары маршрутташтыруу механизминен жана ар бир түзмөктө бирден ашык экспертти иштеткенде эстутум жүктөмүнүн көбөйүшүнө байланыштуу кошумча чыгымдарды киргизерин белгилейбиз. Алар арифметикалык интенсивдүүлүктүн жакшы даражасына жете турган топтомдук жүктөмдөр үчүн ылайыктуу.
Llama 2 70B жана GPT-3.5 менен салыштыруу. 3-таблицада Llama 2 70B жана GPT-3.5 менен салыштырганда Mixtral 8x7B көрсөткүчүн билдиребиз. Биз Mixtral эки башка моделге окшош же жогору аткарарын байкап жатабыз. MMLUде Mixtral бир кыйла азыраак кубаттуулугуна карабастан, жакшыраак көрсөткүчтөргө ээ (70Вге салыштырмалуу 47В токендер). MT Bench үчүн биз эң акыркы GPT-3.5-Turbo моделинин иштөөсү жөнүндө кабарлайбыз, gpt-3.5-turbo-1106.
Баалоо айырмачылыктары. Кээ бир эталондор боюнча, биздин баалоо протоколу менен Llama 2 документинде баяндалган протоколдун ортосунда айрым айырмачылыктар бар: 1) MBPP боюнча, биз колго текшерилген подтопту колдонобуз 2) TriviaQA боюнча, биз Wikipedia контексттерин бербейбиз.
Бул кагаз архивде CC 4.0 лицензиясы боюнча жеткиликтүү .
[2] Llama 2 34B ачык булак болбогондуктан, биз Llama 1 34B боюнча жыйынтыктарды билдиребиз.
Авторлор:
(1) Альберт К. Цзян;
(2) Александр Саблайроллес;
(3) Антуан Ру;
(4) Артур Менш;
(5) Бланш Савари;
(6) Крис Бэмфорд;
(7) Девендра Сингх Чаплот;
(8) Диего де лас Касас;
(9) Эмма Бу Ханна;
(10) Флориан Брессан;
(11) Джанна Ленгйел;
(12) Гийом Бур;
(13) Гийом Лампл;
(14) Лелио Ренар Лаво;
(15) Lucile Saulnier;
(16) Мари-Эн Лашо;
(17) Pierre Stock;
(18) Сандип Субраманиан;
(19) София Янг;
(20) Шимон Антониак;
(21) Тевен Ле Скао;
(22) Теофил Гервет;
(23) Тибо Лаврил;
(24) Томас Ванг;
(25) Timothée Lacroix;
(26) William El Sayed.