2 آرکیٹیکچرل تفصیلات اور 2.1 ماہرین کا اسپارس مرکب
3.1 کثیر لسانی بینچ مارکس، 3.2 لمبی رینج کی کارکردگی، اور 3.3 تعصب بینچ مارکس
6 نتیجہ، اعترافات، اور حوالہ جات
ہم Mixtral کا Llama سے موازنہ کرتے ہیں، اور منصفانہ موازنہ کے لیے اپنی اپنی تشخیصی پائپ لائن کے ساتھ تمام بینچ مارکس کو دوبارہ چلاتے ہیں۔ ہم مختلف قسم کے کاموں پر کارکردگی کی پیمائش کرتے ہیں جن کی درجہ بندی درج ذیل ہے:
• Commonsense Reasoning (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]
• عالمی علم (5 شاٹ): قدرتی سوالات [20]، TriviaQA [19]
• پڑھنے کی سمجھ (0 شاٹ): BoolQ [7]، QuAC [5]
• ریاضی: GSM8K [9] (8-shot) maj@8 کے ساتھ اور MATH [17] (4-shot) maj@4 کے ساتھ
• کوڈ: Humaneval [4] (0-shot) اور MBPP [1] (3-shot)
• مقبول مجموعی نتائج: MMLU [16] (5-shot)، BBH [29] (3-shot)، اور AGI Eval [34] (3-5-shot، صرف انگریزی کثیر انتخابی سوالات)
Mixtral، Mistral 7B اور Llama 2 7B/13B/70B اور Llama 1 34B[2] کے تفصیلی نتائج ٹیبل 2 میں بتائے گئے ہیں۔ شکل 2 مختلف زمروں میں Mixtral کی کارکردگی کا Llama ماڈل کے ساتھ موازنہ کرتا ہے۔ Mixtral نے زیادہ تر میٹرکس میں Llama 2 70B کو پیچھے چھوڑ دیا۔ خاص طور پر، Mixtral کوڈ اور ریاضی کے بینچ مارکس میں اعلیٰ کارکردگی دکھاتا ہے۔
سائز اور کارکردگی۔ ہم اپنی کارکردگی کا موازنہ Llama 2 فیملی سے کرتے ہیں، جس کا مقصد لاگت کی کارکردگی کے سپیکٹرم میں Mixtral ماڈلز کی کارکردگی کو سمجھنا ہے (شکل 3 دیکھیں)۔ ایک ویرل مکسچر آف ایکسپرٹس ماڈل کے طور پر، Mixtral ہر ٹوکن کے لیے صرف 13B فعال پیرامیٹرز استعمال کرتا ہے۔ 5x کم فعال پیرامیٹرز کے ساتھ، Mixtral زیادہ تر زمروں میں Llama 2 70B کو پیچھے چھوڑنے کے قابل ہے۔
نوٹ کریں کہ یہ تجزیہ فعال پیرامیٹر کی گنتی پر مرکوز ہے (سیکشن 2.1 دیکھیں)، جو براہ راست تخمینہ کمپیوٹ لاگت کے متناسب ہے، لیکن میموری کی لاگت اور ہارڈ ویئر کے استعمال پر غور نہیں کرتا ہے۔ Mixtral کو پیش کرنے کے لیے میموری کی لاگت اس کے اسپارس پیرامیٹر کی گنتی، 47B کے متناسب ہے، جو ابھی بھی Llama 2 70B سے چھوٹی ہے۔ جہاں تک ڈیوائس کے استعمال کا تعلق ہے، ہم نوٹ کرتے ہیں کہ SMoEs پرت روٹنگ میکانزم کی وجہ سے اور فی ڈیوائس ایک سے زیادہ ماہر چلانے پر میموری بوجھ میں اضافے کی وجہ سے اضافی اوور ہیڈ متعارف کراتی ہے۔ یہ بیچ والے کام کے بوجھ کے لیے زیادہ موزوں ہیں جہاں کوئی ریاضی کی شدت کی اچھی ڈگری تک پہنچ سکتا ہے۔
Llama 2 70B اور GPT-3.5 کے ساتھ موازنہ۔ جدول 3 میں، ہم Llama 2 70B اور GPT-3.5 کے مقابلے Mixtral 8x7B کی کارکردگی کی اطلاع دیتے ہیں۔ ہم مشاہدہ کرتے ہیں کہ Mixtral اسی طرح یا دو دیگر ماڈلز سے اوپر کارکردگی کا مظاہرہ کرتا ہے۔ MMLU پر، Mixtral اپنی نمایاں طور پر چھوٹی صلاحیت (70B کے مقابلے میں 47B ٹوکن) کے باوجود بہتر کارکردگی حاصل کرتا ہے۔ MT بینچ کے لیے، ہم دستیاب جدید ترین GPT-3.5-Turbo ماڈل، gpt-3.5-turbo-1106 کی کارکردگی کی اطلاع دیتے ہیں۔
تشخیص کے اختلافات۔ کچھ بینچ مارکس پر، ہمارے تشخیصی پروٹوکول اور لاما 2 پیپر میں رپورٹ کردہ کے درمیان کچھ فرق ہیں: 1) MBPP پر، ہم ہاتھ سے تصدیق شدہ سب سیٹ استعمال کرتے ہیں 2) TriviaQA پر، ہم ویکیپیڈیا کے سیاق و سباق فراہم نہیں کرتے ہیں۔
یہ کاغذ CC 4.0 لائسنس کے تحت arxiv پر دستیاب ہے۔
[2] چونکہ Llama 2 34B اوپن سورس نہیں تھا، ہم Llama 1 34B کے نتائج کی اطلاع دیتے ہیں۔
مصنفین:
(1) البرٹ کیو جیانگ؛
(2) الیگزینڈر سبیلرولیس؛
(3) Antoine Roux;
(4) آرتھر مینش؛
(5) بلانچ سیوری؛
(6) Chris Bamford;
(7) دیویندر سنگھ چاپلوٹ؛
(8) ڈیاگو ڈی لاس کاساس؛
(9) ایما بو حنا؛
(10) فلورین بریسینڈ؛
(11) گیانا لینگیل؛
(12) Guillaume Bour;
(13) Guillaume Lample؛
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier؛
(16) Marie-Anne Lachaux;
(17) پیئر اسٹاک؛
(18) سندیپ سبرامنیم؛
(19) صوفیہ یانگ؛
(20) Szymon Antoniak؛
(21) Teven Le Scao;
(22) Théophile Gervet؛
(23) Thibaut Lavril;
(24) تھامس وانگ؛
(25) Timothée Lacroix;
(26) ولیم السید۔