158 окуулар

Mixtral бир нече көрсөткүчтөр боюнча Llama жана GPT-3.5тен ашып кетет

тарабынан Writings, Papers and Blogs on Text Models4m2024/10/18

өтө узун; Окуу

Mixtral 8x7B көптөгөн көрсөткүчтөр боюнча Llama 2 70B жана GPT-3.5тен ашып кетет, анын ичинде акылга сыярлык ой жүгүртүү, математика жана кодду түзүү. 13B гана активдүү параметрлери менен, Mixtral өзүнүн кесиптештерине караганда натыйжалуураак болуп, салыштырмалуу же жогорку көрсөткүчтөргө жетишет. 47B параметрлеринин азыраак сыйымдуулугуна карабастан, Mixtral MMLU сыяктуу метрикалар боюнча артыкчылыкка ээ жана бир катар тапшырмаларда күчтүү аткарууну көрсөтүп, тилди моделдөө колдонмолору үчүн ишенимдүү тандоо болуп саналат.

featured image - Mixtral бир нече көрсөткүчтөр боюнча Llama жана GPT-3.5тен ашып кетет

Шилтемелер таблицасы

Аннотация жана 1. Киришүү

2 Архитектуралык деталдар жана 2.1 Эксперттердин сейрек аралашмасы

3 Жыйынтыктар

3.1 Көп тилдүү эталондор, 3.2 Узак аралыктагы аткаруу жана 3.3 Bias Benchmarks

4 Көрсөтмө Толук тууралоо

5 Маршруттук анализ

6 Корутунду, Ыраазычылык жана Шилтемелер

3 Жыйынтыктар

Биз Mixtral менен Лламаны салыштырабыз жана адилеттүү салыштыруу үчүн бардык көрсөткүчтөрдү өзүбүздүн баалоо түтүгүбүз менен кайра иштетебиз. Биз төмөнкүдөй категорияларга бөлүнгөн ар кандай тапшырмалар боюнча аткарууну өлчөйбүз:

• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]

• World Knowledge (5-катуу): NaturalQuestions [20], TriviaQA [19]

• Окууну түшүнүү (0-ок): BoolQ [7], QuAC [5]

• Математика: GSM8K [9] (8-катуу) maj@8 жана MATH [17] (4-катуу) менен maj@4

• Код: Humaneval [4] (0-атуу) жана MBPP [1] (3-катуу)

• Популярдуу топтолгон жыйынтыктар: MMLU [16] (5-атуу), BBH [29] (3-атуу) жана AGI Eval [34] (3-5-катуу, англисче көп тандоо суроолору гана)

Mixtral, Mistral 7B жана Llama 2 7B/13B/70B жана Llama 1 34B[2] боюнча толук натыйжалар 2-таблицада келтирилген. 2-сүрөт Mixtral менен Llama моделдеринин ар кандай категориялардагы көрсөткүчтөрүн салыштырат. Mixtral көпчүлүк көрсөткүчтөр боюнча Llama 2 70Bдан ашып кетет. Атап айтканда, Mixtral код жана математика көрсөткүчтөрүндө жогорку көрсөткүчтөрдү көрсөтөт.

Өлчөмү жана эффективдүүлүгү. Mixtral моделдеринин эффективдүүлүгүн түшүнүүнү максат кылып, Llama 2 үй-бүлөсү менен өз ишибизди салыштырабыз (3-сүрөттү караңыз). Mixtureof-Experts сейрек модели катары, Mixtral ар бир токен үчүн 13B гана активдүү параметрлерди колдонот. 5x төмөн активдүү параметрлери менен, Mixtral көпчүлүк категориялар боюнча Llama 2 70B ашып кете алат.

Эскертүү, бул талдоо жигердүү параметрдин эсебине багытталган (2.1-бөлүмдү караңыз), ал жыйынтык чыгаруунун наркына түз пропорционалдуу, бирок эстутум чыгымдарын жана аппараттык каражаттарды колдонууну эске албайт. Mixtral кызматын көрсөтүү үчүн эстутум чыгымдары анын сейрек параметр санына пропорционалдуу, 47B, бул дагы эле Llama 2 70Bден кичине. Түзмөктү колдонууга келсек, SMoEs катмары маршрутташтыруу механизминен жана ар бир түзмөктө бирден ашык экспертти иштеткенде эстутум жүктөмүнүн көбөйүшүнө байланыштуу кошумча чыгымдарды киргизерин белгилейбиз. Алар арифметикалык интенсивдүүлүктүн жакшы даражасына жете турган топтомдук жүктөмдөр үчүн ылайыктуу.

Llama 2 70B жана GPT-3.5 менен салыштыруу. 3-таблицада Llama 2 70B жана GPT-3.5 менен салыштырганда Mixtral 8x7B көрсөткүчүн билдиребиз. Биз Mixtral эки башка моделге окшош же жогору аткарарын байкап жатабыз. MMLUде Mixtral бир кыйла азыраак кубаттуулугуна карабастан, жакшыраак көрсөткүчтөргө ээ (70Вге салыштырмалуу 47В токендер). MT Bench үчүн биз эң акыркы GPT-3.5-Turbo моделинин иштөөсү жөнүндө кабарлайбыз, gpt-3.5-turbo-1106.

Баалоо айырмачылыктары. Кээ бир эталондор боюнча, биздин баалоо протоколу менен Llama 2 документинде баяндалган протоколдун ортосунда айрым айырмачылыктар бар: 1) MBPP боюнча, биз колго текшерилген подтопту колдонобуз 2) TriviaQA боюнча, биз Wikipedia контексттерин бербейбиз.