paint-brush
Mixtral ایک سے زیادہ بینچ مارکس میں Llama اور GPT-3.5 سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔کی طرف سے@textmodels
138 ریڈنگز

Mixtral ایک سے زیادہ بینچ مارکس میں Llama اور GPT-3.5 سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔

کی طرف سے Writings, Papers and Blogs on Text Models4m2024/10/18
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

Mixtral 8x7B متعدد بینچ مارکس میں Llama 2 70B اور GPT-3.5 کو پیچھے چھوڑ دیتا ہے، بشمول کامن سینس استدلال، ریاضی، اور کوڈ جنریشن۔ صرف 13B فعال پیرامیٹرز کے ساتھ، Mixtral اپنے ہم منصبوں سے زیادہ موثر ہونے کے ساتھ موازنہ یا اعلیٰ کارکردگی حاصل کرتا ہے۔ 47B پیرامیٹرز کی اپنی چھوٹی صلاحیت کے باوجود، Mixtral MMLU جیسے میٹرکس میں سبقت لے جاتا ہے اور مختلف کاموں میں مضبوط کارکردگی کا مظاہرہ کرتا ہے، جو اسے زبان کی ماڈلنگ ایپلی کیشنز کے لیے ایک مضبوط انتخاب بناتا ہے۔
featured image - Mixtral ایک سے زیادہ بینچ مارکس میں Llama اور GPT-3.5 سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

لنکس کی میز

خلاصہ اور 1. تعارف

2 آرکیٹیکچرل تفصیلات اور 2.1 ماہرین کا اسپارس مرکب

3 نتائج

3.1 کثیر لسانی بینچ مارکس، 3.2 لمبی رینج کی کارکردگی، اور 3.3 تعصب بینچ مارکس

4 ہدایات فائن ٹیوننگ

5 روٹنگ کا تجزیہ

6 نتیجہ، اعترافات، اور حوالہ جات

3 نتائج

ہم Mixtral کا Llama سے موازنہ کرتے ہیں، اور منصفانہ موازنہ کے لیے اپنی اپنی تشخیصی پائپ لائن کے ساتھ تمام بینچ مارکس کو دوبارہ چلاتے ہیں۔ ہم مختلف قسم کے کاموں پر کارکردگی کی پیمائش کرتے ہیں جن کی درجہ بندی درج ذیل ہے:


• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• عالمی علم (5 شاٹ): قدرتی سوالات [20]، TriviaQA [19]


• پڑھنے کی سمجھ (0 شاٹ): BoolQ [7]، QuAC [5]


• ریاضی: GSM8K [9] (8-shot) maj@8 کے ساتھ اور MATH [17] (4-shot) maj@4 کے ساتھ


• کوڈ: Humaneval [4] (0-shot) اور MBPP [1] (3-shot)


• مقبول مجموعی نتائج: MMLU [16] (5-shot)، BBH [29] (3-shot)، اور AGI Eval [34] (3-5-shot، صرف انگریزی کثیر انتخابی سوالات)


شکل 2: بینچ مارکس کی وسیع رینج پر Mixtral اور مختلف لاما ماڈلز کی کارکردگی۔ تمام ماڈلز کا درست موازنہ کے لیے ہماری تشخیصی پائپ لائن کے ساتھ تمام میٹرکس پر دوبارہ جائزہ لیا گیا۔ Mixtral آؤٹ پرفارم کرتا ہے یا Llama 2 70B کو تمام بینچ مارکس پر ملتا ہے۔ خاص طور پر، یہ ریاضی اور کوڈ جنریشن میں بہت برتر ہے۔


جدول 2: لاما کے ساتھ مکسٹرل کا موازنہ۔ Mixtral تقریباً تمام مقبول بینچ مارکس پر Llama 2 70B کی کارکردگی سے بہتر کارکردگی کا مظاہرہ کرتا ہے یا اندازہ کے دوران 5x کم فعال پیرامیٹرز استعمال کرتا ہے۔


شکل 3: MMLU پر نتائج، کامن سینس استدلال، عالمی علم اور پڑھنے کی سمجھ، ریاضی اور کوڈ برائے Mistral (7B/8x7B) بمقابلہ Llama 2 (7B/13B/70B)۔ Mixtral بڑی حد تک Llama 2 70B کو تمام بینچ مارکس پر بہتر کارکردگی کا مظاہرہ کرتا ہے، سوائے 5x کم فعال پیرامیٹرز کا استعمال کرتے ہوئے فہمی بینچ مارکس کو پڑھنے کے۔ یہ کوڈ اور ریاضی پر Llama 2 70B سے بھی کافی بہتر ہے۔


Mixtral، Mistral 7B اور Llama 2 7B/13B/70B اور Llama 1 34B[2] کے تفصیلی نتائج ٹیبل 2 میں بتائے گئے ہیں۔ شکل 2 مختلف زمروں میں Mixtral کی کارکردگی کا Llama ماڈل کے ساتھ موازنہ کرتا ہے۔ Mixtral نے زیادہ تر میٹرکس میں Llama 2 70B کو پیچھے چھوڑ دیا۔ خاص طور پر، Mixtral کوڈ اور ریاضی کے بینچ مارکس میں اعلیٰ کارکردگی دکھاتا ہے۔


سائز اور کارکردگی۔ ہم اپنی کارکردگی کا موازنہ Llama 2 فیملی سے کرتے ہیں، جس کا مقصد لاگت کی کارکردگی کے سپیکٹرم میں Mixtral ماڈلز کی کارکردگی کو سمجھنا ہے (شکل 3 دیکھیں)۔ ایک ویرل مکسچر آف ایکسپرٹس ماڈل کے طور پر، Mixtral ہر ٹوکن کے لیے صرف 13B فعال پیرامیٹرز استعمال کرتا ہے۔ 5x کم فعال پیرامیٹرز کے ساتھ، Mixtral زیادہ تر زمروں میں Llama 2 70B کو پیچھے چھوڑنے کے قابل ہے۔


نوٹ کریں کہ یہ تجزیہ فعال پیرامیٹر کی گنتی پر مرکوز ہے (سیکشن 2.1 دیکھیں)، جو براہ راست تخمینہ کمپیوٹ لاگت کے متناسب ہے، لیکن میموری کی لاگت اور ہارڈ ویئر کے استعمال پر غور نہیں کرتا ہے۔ Mixtral کو پیش کرنے کے لیے میموری کی لاگت اس کے اسپارس پیرامیٹر کی گنتی، 47B کے متناسب ہے، جو ابھی بھی Llama 2 70B سے چھوٹی ہے۔ جہاں تک ڈیوائس کے استعمال کا تعلق ہے، ہم نوٹ کرتے ہیں کہ SMoEs پرت روٹنگ میکانزم کی وجہ سے اور فی ڈیوائس ایک سے زیادہ ماہر چلانے پر میموری بوجھ میں اضافے کی وجہ سے اضافی اوور ہیڈ متعارف کراتی ہے۔ یہ بیچ والے کام کے بوجھ کے لیے زیادہ موزوں ہیں جہاں کوئی ریاضی کی شدت کی اچھی ڈگری تک پہنچ سکتا ہے۔


Llama 2 70B اور GPT-3.5 کے ساتھ موازنہ۔ جدول 3 میں، ہم Llama 2 70B اور GPT-3.5 کے مقابلے Mixtral 8x7B کی کارکردگی کی اطلاع دیتے ہیں۔ ہم مشاہدہ کرتے ہیں کہ Mixtral اسی طرح یا دو دیگر ماڈلز سے اوپر کارکردگی کا مظاہرہ کرتا ہے۔ MMLU پر، Mixtral اپنی نمایاں طور پر چھوٹی صلاحیت (70B کے مقابلے میں 47B ٹوکن) کے باوجود بہتر کارکردگی حاصل کرتا ہے۔ MT بینچ کے لیے، ہم دستیاب جدید ترین GPT-3.5-Turbo ماڈل، gpt-3.5-turbo-1106 کی کارکردگی کی اطلاع دیتے ہیں۔


جدول 3: Mixtral کا Llama 2 70B اور GPT-3.5 کے ساتھ موازنہ۔ Mixtral سب سے زیادہ میٹرکس پر Llama 2 70B اور GPT-3.5 کی کارکردگی سے بہتر یا مماثل ہے۔


تشخیص کے اختلافات۔ کچھ بینچ مارکس پر، ہمارے تشخیصی پروٹوکول اور لاما 2 پیپر میں رپورٹ کردہ کے درمیان کچھ فرق ہیں: 1) MBPP پر، ہم ہاتھ سے تصدیق شدہ سب سیٹ استعمال کرتے ہیں 2) TriviaQA پر، ہم ویکیپیڈیا کے سیاق و سباق فراہم نہیں کرتے ہیں۔


یہ کاغذ CC 4.0 لائسنس کے تحت arxiv پر دستیاب ہے۔


[2] چونکہ Llama 2 34B اوپن سورس نہیں تھا، ہم Llama 1 34B کے نتائج کی اطلاع دیتے ہیں۔


مصنفین:

(1) البرٹ کیو جیانگ؛

(2) الیگزینڈر سبیلرولیس؛

(3) Antoine Roux;

(4) آرتھر مینش؛

(5) بلانچ سیوری؛

(6) Chris Bamford;

(7) دیویندر سنگھ چاپلوٹ؛

(8) ڈیاگو ڈی لاس کاساس؛

(9) ایما بو حنا؛

(10) فلورین بریسینڈ؛

(11) گیانا لینگیل؛

(12) Guillaume Bour;

(13) Guillaume Lample؛

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier؛

(16) Marie-Anne Lachaux;

(17) پیئر اسٹاک؛

(18) سندیپ سبرامنیم؛

(19) صوفیہ یانگ؛

(20) Szymon Antoniak؛

(21) Teven Le Scao;

(22) Théophile Gervet؛

(23) Thibaut Lavril;

(24) تھامس وانگ؛

(25) Timothée Lacroix;

(26) ولیم السید۔