paint-brush
মিক্সট্রাল একাধিক বেঞ্চমার্ক জুড়ে লামা এবং GPT-3.5কে ছাড়িয়ে যায়দ্বারা@textmodels
নতুন ইতিহাস

মিক্সট্রাল একাধিক বেঞ্চমার্ক জুড়ে লামা এবং GPT-3.5কে ছাড়িয়ে যায়

দ্বারা Writings, Papers and Blogs on Text Models4m2024/10/18
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

Mixtral 8x7B কমনসেন্স যুক্তি, গণিত এবং কোড জেনারেশন সহ অসংখ্য বেঞ্চমার্কে Llama 2 70B এবং GPT-3.5কে ছাড়িয়ে গেছে। শুধুমাত্র 13B সক্রিয় পরামিতিগুলির সাথে, Mixtral তুলনীয় বা উচ্চতর কর্মক্ষমতা অর্জন করে যখন তার সমকক্ষের তুলনায় আরো দক্ষ হয়। 47B প্যারামিটারের ছোট ক্ষমতা থাকা সত্ত্বেও, Mixtral MMLU-এর মতো মেট্রিক্সে উৎকর্ষ সাধন করে এবং বিভিন্ন কাজ জুড়ে দৃঢ় কর্মক্ষমতা প্রদর্শন করে, এটি ভাষা মডেলিং অ্যাপ্লিকেশনের জন্য একটি শক্তিশালী পছন্দ করে তোলে।
featured image - মিক্সট্রাল একাধিক বেঞ্চমার্ক জুড়ে লামা এবং GPT-3.5কে ছাড়িয়ে যায়
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লিঙ্কের টেবিল

বিমূর্ত এবং 1. ভূমিকা

2 আর্কিটেকচারাল বিশদ এবং 2.1 বিশেষজ্ঞদের স্পার্স মিশ্রণ

3 ফলাফল

3.1 বহুভাষিক বেঞ্চমার্ক, 3.2 দীর্ঘ পরিসরের কর্মক্ষমতা, এবং 3.3 বায়াস বেঞ্চমার্ক

4 নির্দেশনা ফাইন-টিউনিং

5 রাউটিং বিশ্লেষণ

6 উপসংহার, স্বীকৃতি, এবং রেফারেন্স

3 ফলাফল

আমরা মিক্সট্রালকে লামার সাথে তুলনা করি এবং ন্যায্য তুলনা করার জন্য আমাদের নিজস্ব মূল্যায়ন পাইপলাইনের সাথে সমস্ত মানদণ্ড পুনরায় চালাই। আমরা নিম্নলিখিত হিসাবে শ্রেণীবদ্ধ করা বিভিন্ন কাজের উপর কর্মক্ষমতা পরিমাপ করি:


• কমনসেন্স রিজনিং (0-শট): হেলাসওয়াগ [৩২], উইনোগ্রান্ডে [২৬], পিআইকিউএ [৩], এসআইকিউএ [২৭], ওপেনবুককিউএ [২২], এআরসি-ইজি, এআরসি-চ্যালেঞ্জ [৮], কমনসেন্সকিউএ [৩০]


• বিশ্ব জ্ঞান (5-শট): প্রাকৃতিক প্রশ্ন [20], ট্রিভিয়াকিউএ [19]


• রিডিং কম্প্রিহেনশন (0-শট): BoolQ [7], QuAC [5]


• গণিত: GSM8K [9] (8-শট) maj@8 সহ এবং MATH [17] (4-শট) maj@4 সহ


• কোড: মানবিক [4] (0-শট) এবং MBPP [1] (3-শট)


• জনপ্রিয় সমষ্টিগত ফলাফল: MMLU [16] (5-শট), BBH [29] (3-শট), এবং AGI ইভাল [34] (3-5-শট, শুধুমাত্র ইংরেজি একাধিক-পছন্দের প্রশ্ন)


চিত্র 2: বেঞ্চমার্কের বিস্তৃত পরিসরে মিক্সট্রাল এবং বিভিন্ন লামা মডেলের পারফরম্যান্স। সঠিক তুলনার জন্য আমাদের মূল্যায়ন পাইপলাইনের সাথে সমস্ত মেট্রিক্সে সমস্ত মডেলের পুনঃমূল্যায়ন করা হয়েছিল। মিক্সট্রাল সব বেঞ্চমার্কে Llama 2 70B-এর সাথে মিলে যায়। বিশেষ করে, এটি গণিত এবং কোড জেনারেশনে ব্যাপকভাবে উন্নত।


সারণি 2: লামার সাথে মিক্সট্রালের তুলনা। অনুমানের সময় 5x কম সক্রিয় প্যারামিটার ব্যবহার করে মিক্সট্রাল প্রায় সব জনপ্রিয় বেঞ্চমার্কে Llama 2 70B পারফরম্যান্সের সাথে মিলে যায়।


চিত্র 3: MMLU, কমনসেন্স যুক্তি, বিশ্ব জ্ঞান এবং পড়ার বোধগম্যতা, মিস্ট্রাল (7B/8x7B) বনাম লামা 2 (7B/13B/70B) এর জন্য গণিত এবং কোডের ফলাফল। Mixtral মূলত Llama 2 70B কে 5x কম সক্রিয় প্যারামিটার ব্যবহার করার সময় বোঝার বেঞ্চমার্ক পড়ার ক্ষেত্রে ব্যতীত সমস্ত বেঞ্চমার্কে ছাড়িয়ে যায়। এটি কোড এবং গণিতের ক্ষেত্রে Llama 2 70B-এর থেকেও উচ্চতর।


Mixtral, Mistral 7B এবং Llama 2 7B/13B/70B এবং Llama 1 34B[2]-এর বিস্তারিত ফলাফল সারণি 2-এ রিপোর্ট করা হয়েছে। চিত্র 2 বিভিন্ন বিভাগে লামা মডেলের সাথে মিক্সট্রালের কর্মক্ষমতা তুলনা করে। মিক্সট্রাল বেশিরভাগ মেট্রিক্স জুড়ে Llama 2 70B কে ছাড়িয়ে গেছে। বিশেষ করে, Mixtral কোড এবং গণিত বেঞ্চমার্কে একটি উচ্চতর কর্মক্ষমতা প্রদর্শন করে।


আকার এবং দক্ষতা। আমরা আমাদের পারফরম্যান্সকে লামা 2 পরিবারের সাথে তুলনা করি, খরচ-পারফরম্যান্স বর্ণালীতে মিক্সট্রাল মডেলের দক্ষতা বোঝার লক্ষ্যে (চিত্র 3 দেখুন)। বিক্ষিপ্ত মিশ্রণের-বিশেষজ্ঞ মডেল হিসাবে, Mixtral প্রতিটি টোকেনের জন্য শুধুমাত্র 13B সক্রিয় প্যারামিটার ব্যবহার করে। 5x কম সক্রিয় প্যারামিটার সহ, Mixtral বেশিরভাগ বিভাগে Llama 2 70B কে ছাড়িয়ে যেতে সক্ষম।


মনে রাখবেন যে এই বিশ্লেষণটি সক্রিয় প্যারামিটার গণনার উপর ফোকাস করে (বিভাগ 2.1 দেখুন), যা অনুমান গণনা খরচের সাথে সরাসরি সমানুপাতিক, কিন্তু মেমরি খরচ এবং হার্ডওয়্যার ব্যবহার বিবেচনা করে না। Mixtral পরিবেশন করার জন্য মেমরি খরচ তার স্পার্স প্যারামিটার কাউন্ট, 47B এর সমানুপাতিক, যা Llama 2 70B থেকে এখনও ছোট। ডিভাইস ব্যবহারের ক্ষেত্রে, আমরা লক্ষ্য করি যে SMoEs স্তরটি রাউটিং প্রক্রিয়ার কারণে এবং প্রতি ডিভাইসে একাধিক বিশেষজ্ঞ চালানোর সময় মেমরির লোড বৃদ্ধির কারণে অতিরিক্ত ওভারহেড প্রবর্তন করে। এগুলি ব্যাচড ওয়ার্কলোডের জন্য আরও উপযুক্ত যেখানে কেউ গাণিতিক তীব্রতার একটি ভাল ডিগ্রিতে পৌঁছতে পারে।


Llama 2 70B এবং GPT-3.5 এর সাথে তুলনা করুন। সারণি 3-এ, আমরা Llama 2 70B এবং GPT-3.5-এর তুলনায় মিক্সট্রাল 8x7B-এর কর্মক্ষমতা প্রতিবেদন করি। আমরা লক্ষ্য করি যে Mixtral একইভাবে বা অন্য দুটি মডেলের উপরে কাজ করে। MMLU তে, Mixtral এর উল্লেখযোগ্যভাবে ছোট ক্ষমতা থাকা সত্ত্বেও (70B এর তুলনায় 47B টোকেন) একটি ভাল পারফরম্যান্স পায়। MT বেঞ্চের জন্য, আমরা উপলব্ধ সর্বশেষ GPT-3.5-Turbo মডেল, gpt-3.5-turbo-1106-এর কর্মক্ষমতা রিপোর্ট করি।


সারণি 3: Llama 2 70B এবং GPT-3.5 এর সাথে মিক্সট্রালের তুলনা। মিক্সট্রাল বেশির ভাগ মেট্রিক্সে Llama 2 70B এবং GPT-3.5 পারফরম্যান্সের সাথে মিলে যায়।


মূল্যায়ন পার্থক্য. কিছু বেঞ্চমার্কে, আমাদের মূল্যায়ন প্রোটোকল এবং Llama 2 পেপারে রিপোর্ট করা একটির মধ্যে কিছু পার্থক্য রয়েছে: 1) MBPP-তে, আমরা হাতে-যাচাই করা উপসেট ব্যবহার করি 2) TriviaQA-তে, আমরা উইকিপিডিয়া প্রসঙ্গ সরবরাহ করি না।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[২] যেহেতু Llama 2 34B ওপেন সোর্সড ছিল না, তাই আমরা Llama 1 34B-এর ফলাফল রিপোর্ট করি।


লেখক:

(1) আলবার্ট কিউ জিয়াং;

(2) আলেকজান্ডার সাব্লেরোলস;

(3) অ্যান্টোইন রাউক্স;

(4) আর্থার মেনশ;

(5) Blanche Savary;

(6) ক্রিস ব্যামফোর্ড;

(৭) দেবেন্দ্র সিং চ্যাপলট;

(8) দিয়েগো দে লাস কাসাস;

(9) এমা বো হান্না;

(10) ফ্লোরিয়ান ব্রেস্যান্ড;

(11) জিয়ানা লেঙ্গেল;

(12) Guillaume Bour;

(13) Guillaume Lample;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) মারি-অ্যান ল্যাচক্স;

(17) পিয়েরে স্টক;

(18) সন্দীপ সুব্রামানিয়ান;

(19) সোফিয়া ইয়াং;

(20) Szymon Antoniak;

(21) তেভেন লে স্কাও;

(22) থিওফাইল গারভেট;

(23) Thibaut Lavril;

(24) টমাস ওয়াং;

(25) টিমোথি ল্যাক্রোইক্স;

(26) উইলিয়াম এল সাইদ।