2 আর্কিটেকচারাল বিশদ এবং 2.1 বিশেষজ্ঞদের স্পার্স মিশ্রণ
3.1 বহুভাষিক বেঞ্চমার্ক, 3.2 দীর্ঘ পরিসরের কর্মক্ষমতা, এবং 3.3 বায়াস বেঞ্চমার্ক
6 উপসংহার, স্বীকৃতি, এবং রেফারেন্স
আমরা মিক্সট্রালকে লামার সাথে তুলনা করি এবং ন্যায্য তুলনা করার জন্য আমাদের নিজস্ব মূল্যায়ন পাইপলাইনের সাথে সমস্ত মানদণ্ড পুনরায় চালাই। আমরা নিম্নলিখিত হিসাবে শ্রেণীবদ্ধ করা বিভিন্ন কাজের উপর কর্মক্ষমতা পরিমাপ করি:
• কমনসেন্স রিজনিং (0-শট): হেলাসওয়াগ [৩২], উইনোগ্রান্ডে [২৬], পিআইকিউএ [৩], এসআইকিউএ [২৭], ওপেনবুককিউএ [২২], এআরসি-ইজি, এআরসি-চ্যালেঞ্জ [৮], কমনসেন্সকিউএ [৩০]
• বিশ্ব জ্ঞান (5-শট): প্রাকৃতিক প্রশ্ন [20], ট্রিভিয়াকিউএ [19]
• রিডিং কম্প্রিহেনশন (0-শট): BoolQ [7], QuAC [5]
• গণিত: GSM8K [9] (8-শট) maj@8 সহ এবং MATH [17] (4-শট) maj@4 সহ
• কোড: মানবিক [4] (0-শট) এবং MBPP [1] (3-শট)
• জনপ্রিয় সমষ্টিগত ফলাফল: MMLU [16] (5-শট), BBH [29] (3-শট), এবং AGI ইভাল [34] (3-5-শট, শুধুমাত্র ইংরেজি একাধিক-পছন্দের প্রশ্ন)
Mixtral, Mistral 7B এবং Llama 2 7B/13B/70B এবং Llama 1 34B[2]-এর বিস্তারিত ফলাফল সারণি 2-এ রিপোর্ট করা হয়েছে। চিত্র 2 বিভিন্ন বিভাগে লামা মডেলের সাথে মিক্সট্রালের কর্মক্ষমতা তুলনা করে। মিক্সট্রাল বেশিরভাগ মেট্রিক্স জুড়ে Llama 2 70B কে ছাড়িয়ে গেছে। বিশেষ করে, Mixtral কোড এবং গণিত বেঞ্চমার্কে একটি উচ্চতর কর্মক্ষমতা প্রদর্শন করে।
আকার এবং দক্ষতা। আমরা আমাদের পারফরম্যান্সকে লামা 2 পরিবারের সাথে তুলনা করি, খরচ-পারফরম্যান্স বর্ণালীতে মিক্সট্রাল মডেলের দক্ষতা বোঝার লক্ষ্যে (চিত্র 3 দেখুন)। বিক্ষিপ্ত মিশ্রণের-বিশেষজ্ঞ মডেল হিসাবে, Mixtral প্রতিটি টোকেনের জন্য শুধুমাত্র 13B সক্রিয় প্যারামিটার ব্যবহার করে। 5x কম সক্রিয় প্যারামিটার সহ, Mixtral বেশিরভাগ বিভাগে Llama 2 70B কে ছাড়িয়ে যেতে সক্ষম।
মনে রাখবেন যে এই বিশ্লেষণটি সক্রিয় প্যারামিটার গণনার উপর ফোকাস করে (বিভাগ 2.1 দেখুন), যা অনুমান গণনা খরচের সাথে সরাসরি সমানুপাতিক, কিন্তু মেমরি খরচ এবং হার্ডওয়্যার ব্যবহার বিবেচনা করে না। Mixtral পরিবেশন করার জন্য মেমরি খরচ তার স্পার্স প্যারামিটার কাউন্ট, 47B এর সমানুপাতিক, যা Llama 2 70B থেকে এখনও ছোট। ডিভাইস ব্যবহারের ক্ষেত্রে, আমরা লক্ষ্য করি যে SMoEs স্তরটি রাউটিং প্রক্রিয়ার কারণে এবং প্রতি ডিভাইসে একাধিক বিশেষজ্ঞ চালানোর সময় মেমরির লোড বৃদ্ধির কারণে অতিরিক্ত ওভারহেড প্রবর্তন করে। এগুলি ব্যাচড ওয়ার্কলোডের জন্য আরও উপযুক্ত যেখানে কেউ গাণিতিক তীব্রতার একটি ভাল ডিগ্রিতে পৌঁছতে পারে।
Llama 2 70B এবং GPT-3.5 এর সাথে তুলনা করুন। সারণি 3-এ, আমরা Llama 2 70B এবং GPT-3.5-এর তুলনায় মিক্সট্রাল 8x7B-এর কর্মক্ষমতা প্রতিবেদন করি। আমরা লক্ষ্য করি যে Mixtral একইভাবে বা অন্য দুটি মডেলের উপরে কাজ করে। MMLU তে, Mixtral এর উল্লেখযোগ্যভাবে ছোট ক্ষমতা থাকা সত্ত্বেও (70B এর তুলনায় 47B টোকেন) একটি ভাল পারফরম্যান্স পায়। MT বেঞ্চের জন্য, আমরা উপলব্ধ সর্বশেষ GPT-3.5-Turbo মডেল, gpt-3.5-turbo-1106-এর কর্মক্ষমতা রিপোর্ট করি।
মূল্যায়ন পার্থক্য. কিছু বেঞ্চমার্কে, আমাদের মূল্যায়ন প্রোটোকল এবং Llama 2 পেপারে রিপোর্ট করা একটির মধ্যে কিছু পার্থক্য রয়েছে: 1) MBPP-তে, আমরা হাতে-যাচাই করা উপসেট ব্যবহার করি 2) TriviaQA-তে, আমরা উইকিপিডিয়া প্রসঙ্গ সরবরাহ করি না।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[২] যেহেতু Llama 2 34B ওপেন সোর্সড ছিল না, তাই আমরা Llama 1 34B-এর ফলাফল রিপোর্ট করি।
লেখক:
(1) আলবার্ট কিউ জিয়াং;
(2) আলেকজান্ডার সাব্লেরোলস;
(3) অ্যান্টোইন রাউক্স;
(4) আর্থার মেনশ;
(5) Blanche Savary;
(6) ক্রিস ব্যামফোর্ড;
(৭) দেবেন্দ্র সিং চ্যাপলট;
(8) দিয়েগো দে লাস কাসাস;
(9) এমা বো হান্না;
(10) ফ্লোরিয়ান ব্রেস্যান্ড;
(11) জিয়ানা লেঙ্গেল;
(12) Guillaume Bour;
(13) Guillaume Lample;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) মারি-অ্যান ল্যাচক্স;
(17) পিয়েরে স্টক;
(18) সন্দীপ সুব্রামানিয়ান;
(19) সোফিয়া ইয়াং;
(20) Szymon Antoniak;
(21) তেভেন লে স্কাও;
(22) থিওফাইল গারভেট;
(23) Thibaut Lavril;
(24) টমাস ওয়াং;
(25) টিমোথি ল্যাক্রোইক্স;
(26) উইলিয়াম এল সাইদ।