paint-brush
Mixtral เหนือกว่า Llama และ GPT-3.5 ในเกณฑ์มาตรฐานต่างๆโดย@textmodels
138 การอ่าน

Mixtral เหนือกว่า Llama และ GPT-3.5 ในเกณฑ์มาตรฐานต่างๆ

นานเกินไป; อ่าน

Mixtral 8x7B เหนือกว่า Llama 2 70B และ GPT-3.5 ในเกณฑ์มาตรฐานมากมาย รวมถึงการใช้เหตุผลตามสามัญสำนึก คณิตศาสตร์ และการสร้างโค้ด ด้วยพารามิเตอร์ที่ใช้งานเพียง 13 พันล้านตัว Mixtral จึงให้ประสิทธิภาพที่เทียบเท่าหรือเหนือกว่าในขณะที่มีประสิทธิภาพมากกว่าคู่แข่ง แม้จะมีความจุที่น้อยกว่าคือ 47 พันล้านพารามิเตอร์ แต่ Mixtral ก็โดดเด่นในเมตริกต่างๆ เช่น MMLU และแสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในงานต่างๆ ทำให้เป็นตัวเลือกที่มั่นคงสำหรับแอปพลิเคชันการสร้างแบบจำลองภาษา
featured image - Mixtral เหนือกว่า Llama และ GPT-3.5 ในเกณฑ์มาตรฐานต่างๆ
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

ตารางลิงค์

บทคัดย่อ และ 1. บทนำ

2 รายละเอียดทางสถาปัตยกรรม และ 2.1 การผสมผสานของผู้เชี่ยวชาญที่เบาบาง

3 ผลลัพธ์

3.1 เกณฑ์มาตรฐานหลายภาษา 3.2 ประสิทธิภาพระยะไกล และ 3.3 เกณฑ์มาตรฐานความลำเอียง

4. การปรับแต่งคำแนะนำ

5 การวิเคราะห์เส้นทาง

6 บทสรุป คำขอบคุณ และเอกสารอ้างอิง

3 ผลลัพธ์

เราเปรียบเทียบ Mixtral กับ Llama และรันเกณฑ์มาตรฐานทั้งหมดใหม่อีกครั้งโดยใช้ขั้นตอนการประเมินของเราเองเพื่อการเปรียบเทียบที่ยุติธรรม เราวัดประสิทธิภาพในงานที่หลากหลายซึ่งแบ่งประเภทดังนี้:


• การใช้เหตุผลสามัญสำนึก (0 ช็อต): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]


• ความรู้เกี่ยวกับโลก (5 ช็อต): NaturalQuestions [20], TriviaQA [19]


• การอ่านจับใจความ (0-shot): BoolQ [7], QuAC [5]


• คณิตศาสตร์: GSM8K [9] (8-shot) ด้วย maj@8 และ MATH [17] (4-shot) ด้วย maj@4


• รหัส: Humaneval [4] (0 นัด) และ MBPP [1] (3 นัด)


• ผลรวมคะแนนยอดนิยม: MMLU [16] (5 ช็อต), BBH [29] (3 ช็อต) และ AGI Eval [34] (3 ช็อต, คำถามแบบเลือกตอบภาษาอังกฤษเท่านั้น)


รูปที่ 2: ประสิทธิภาพของ Mixtral และโมเดล Llama ที่แตกต่างกันในเกณฑ์มาตรฐานที่หลากหลาย โมเดลทั้งหมดได้รับการประเมินใหม่ในทุกเมตริกโดยใช้ขั้นตอนการประเมินของเราเพื่อการเปรียบเทียบที่แม่นยำ Mixtral มีประสิทธิภาพเหนือกว่าหรือเท่ากับ Llama 2 70B ในเกณฑ์มาตรฐานทั้งหมด โดยเฉพาะอย่างยิ่ง Mixtral เหนือกว่าอย่างมากในด้านคณิตศาสตร์และการสร้างโค้ด


ตาราง 2: การเปรียบเทียบระหว่าง Mixtral กับ Llama Mixtral มีประสิทธิภาพเหนือกว่าหรือเท่ากับ Llama 2 70B ในเกณฑ์มาตรฐานยอดนิยมเกือบทั้งหมด ในขณะที่ใช้พารามิเตอร์ที่ใช้งานน้อยกว่า 5 เท่าในระหว่างการอนุมาน


รูปที่ 3: ผลลัพธ์จากการทดสอบ MMLU การใช้เหตุผลตามสามัญสำนึก ความรู้เกี่ยวกับโลกและความเข้าใจในการอ่าน คณิตศาสตร์และโค้ดสำหรับ Mistral (7B/8x7B) เทียบกับ Llama 2 (7B/13B/70B) Mixtral มีประสิทธิภาพเหนือกว่า Llama 2 70B อย่างมากในการทดสอบประสิทธิภาพทั้งหมด ยกเว้นการทดสอบความเข้าใจในการอ่านในขณะที่ใช้พารามิเตอร์ที่ใช้งานต่ำกว่า 5 เท่า นอกจากนี้ยังเหนือกว่า Llama 2 70B อย่างมากในการทดสอบรหัสและคณิตศาสตร์


ผลลัพธ์โดยละเอียดสำหรับ Mixtral, Mistral 7B และ Llama 2 7B/13B/70B และ Llama 1 34B[2] มีรายงานอยู่ในตารางที่ 2 รูปที่ 2 เปรียบเทียบประสิทธิภาพของ Mixtral กับโมเดล Llama ในหมวดหมู่ต่างๆ Mixtral เหนือกว่า Llama 2 70B ในตัวชี้วัดส่วนใหญ่ โดยเฉพาะอย่างยิ่ง Mixtral แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในเกณฑ์มาตรฐานโค้ดและคณิตศาสตร์


ขนาดและประสิทธิภาพ เราเปรียบเทียบประสิทธิภาพของเรากับตระกูล Llama 2 โดยมุ่งหวังที่จะทำความเข้าใจประสิทธิภาพของโมเดล Mixtral ในแง่ของต้นทุน-ประสิทธิภาพ (ดูรูปที่ 3) ในฐานะโมเดล Mixtureof-Experts แบบเบาบาง Mixtral ใช้พารามิเตอร์ที่ใช้งานอยู่เพียง 13 พันล้านตัวสำหรับแต่ละโทเค็น ด้วยพารามิเตอร์ที่ใช้งานอยู่ต่ำกว่า 5 เท่า Mixtral จึงสามารถทำงานได้ดีกว่า Llama 2 70 พันล้านตัวในหมวดหมู่ส่วนใหญ่


โปรดทราบว่าการวิเคราะห์นี้มุ่งเน้นไปที่จำนวนพารามิเตอร์ที่ใช้งานอยู่ (ดูหัวข้อ 2.1) ซึ่งเป็นสัดส่วนโดยตรงกับต้นทุนการคำนวณอนุมาน แต่ไม่ได้พิจารณาต้นทุนหน่วยความจำและการใช้ฮาร์ดแวร์ ต้นทุนหน่วยความจำสำหรับการให้บริการ Mixtral เป็นสัดส่วนกับจำนวนพารามิเตอร์แบบเบาบาง 47B ซึ่งยังคงเล็กกว่า Llama 2 70B สำหรับการใช้อุปกรณ์ เราทราบว่าเลเยอร์ SMoEs นำเสนอค่าใช้จ่ายเพิ่มเติมเนื่องจากกลไกการกำหนดเส้นทางและเนื่องจากภาระหน่วยความจำที่เพิ่มขึ้นเมื่อเรียกใช้ผู้เชี่ยวชาญมากกว่าหนึ่งคนต่ออุปกรณ์ เลเยอร์นี้เหมาะสำหรับเวิร์กโหลดแบบแบตช์มากกว่า ซึ่งสามารถเข้าถึงความเข้มข้นทางคณิตศาสตร์ได้ดี


การเปรียบเทียบกับ Llama 2 70B และ GPT-3.5 ในตารางที่ 3 เราจะรายงานประสิทธิภาพของ Mixtral 8x7B เมื่อเปรียบเทียบกับ Llama 2 70B และ GPT-3.5 เราจะพบว่า Mixtral มีประสิทธิภาพใกล้เคียงกันหรือดีกว่าสองรุ่นอื่น ๆ ใน MMLU Mixtral มีประสิทธิภาพที่ดีกว่า แม้จะมีความจุที่น้อยกว่าอย่างเห็นได้ชัด (47 พันล้านโทเค็นเมื่อเทียบกับ 70 พันล้านโทเค็น) สำหรับ MT Bench เราจะรายงานประสิทธิภาพของรุ่น GPT-3.5-Turbo ล่าสุดที่มีจำหน่าย ซึ่งก็คือ gpt-3.5-turbo-1106


ตารางที่ 3: การเปรียบเทียบระหว่าง Mixtral กับ Llama 2 70B และ GPT-3.5 Mixtral มีประสิทธิภาพเหนือกว่าหรือเท่ากับ Llama 2 70B และ GPT-3.5 ในตัวชี้วัดส่วนใหญ่


ความแตกต่างในการประเมิน ในเกณฑ์มาตรฐานบางรายการ มีความแตกต่างบางประการระหว่างโปรโตคอลการประเมินของเราและโปรโตคอลที่รายงานในเอกสาร Llama 2: 1) ใน MBPP เราใช้ชุดย่อยที่ตรวจยืนยันด้วยมือ 2) ใน TriviaQA เราไม่ได้ให้บริบทของ Wikipedia


เอกสารนี้ เผยแพร่บน arxiv ภายใต้ใบอนุญาต CC 4.0


[2] เนื่องจาก Llama 2 34B ไม่ใช่โอเพนซอร์ส เราจึงรายงานผลลัพธ์สำหรับ Llama 1 34B


ผู้แต่ง:

(1) อัลเบิร์ต คิว เจียง;

(2) อเล็กซานเดอร์ ซาเบลย์โรลส์;

(3) อองตวน รูซ์;

(4) อาร์เธอร์ เมนช์;

(5) บล็องช์ ซาวารี;

(6) คริส แบมฟอร์ด;

(7) เทเวนทระ สิงห์ ชาพล็อท;

(8) ดิเอโก เดอ ลาส คาซัส;

(9) เอ็มม่า บู ฮานน่า;

(10) ฟลอเรียน เบรสแซนด์;

(11) จิอันน่า เลงเยล;

(12) กีโยม บัวร์;

(13) กีโยม ลัมเปิล;

(14) เลลิโอ เรอนาร์ ลาวอด;

(15) ลูซิล ซอลนิเยร์;

(16) มารี-แอนน์ ลาโชซ์;

(17) ปิแอร์ สต๊อก;

(18) สันดีป สุบรามาเนียน;

(19) โซเฟีย หยาง;

(20) ซิมอน แอนโทเนียก;

(21) เทเวน เลอ สเกา;

(22) เธโอไฟล์ เฌร์เวต์;

(23) ทิโบต์ ลาวริล;

(24) โทมัส หว่อง;

(25) ทิโมธี ลาครัวซ์;

(26) วิลเลียม เอล ซาเยด