লিঙ্কের টেবিল   বিমূর্ত এবং 1. ভূমিকা   2 আর্কিটেকচারাল বিশদ এবং 2.1 বিশেষজ্ঞদের স্পার্স মিশ্রণ   3 ফলাফল   3.1 বহুভাষিক বেঞ্চমার্ক, 3.2 দীর্ঘ পরিসরের কর্মক্ষমতা, এবং 3.3 বায়াস বেঞ্চমার্ক   4 নির্দেশনা ফাইন-টিউনিং   5 রাউটিং বিশ্লেষণ   6 উপসংহার, স্বীকৃতি, এবং রেফারেন্স  3 ফলাফল  আমরা মিক্সট্রালকে লামার সাথে তুলনা করি এবং ন্যায্য তুলনা করার জন্য আমাদের নিজস্ব মূল্যায়ন পাইপলাইনের সাথে সমস্ত মানদণ্ড পুনরায় চালাই। আমরা নিম্নলিখিত হিসাবে শ্রেণীবদ্ধ করা বিভিন্ন কাজের উপর কর্মক্ষমতা পরিমাপ করি:    হেলাসওয়াগ [৩২], উইনোগ্রান্ডে [২৬], পিআইকিউএ [৩], এসআইকিউএ [২৭], ওপেনবুককিউএ [২২], এআরসি-ইজি, এআরসি-চ্যালেঞ্জ [৮], কমনসেন্সকিউএ [৩০] • কমনসেন্স রিজনিং (0-শট):    প্রাকৃতিক প্রশ্ন [20], ট্রিভিয়াকিউএ [19] • বিশ্ব জ্ঞান (5-শট):    BoolQ [7], QuAC [5] • রিডিং কম্প্রিহেনশন (0-শট):    GSM8K [9] (8-শট) maj@8 সহ এবং MATH [17] (4-শট) maj@4 সহ • গণিত:    মানবিক [4] (0-শট) এবং MBPP [1] (3-শট) • কোড:    MMLU [16] (5-শট), BBH [29] (3-শট), এবং AGI ইভাল [34] (3-5-শট, শুধুমাত্র ইংরেজি একাধিক-পছন্দের প্রশ্ন)  • জনপ্রিয় সমষ্টিগত ফলাফল:  Mixtral, Mistral 7B এবং Llama 2 7B/13B/70B এবং Llama 1 34B[2]-এর বিস্তারিত ফলাফল সারণি 2-এ রিপোর্ট করা হয়েছে। চিত্র 2 বিভিন্ন বিভাগে লামা মডেলের সাথে মিক্সট্রালের কর্মক্ষমতা তুলনা করে। মিক্সট্রাল বেশিরভাগ মেট্রিক্স জুড়ে Llama 2 70B কে ছাড়িয়ে গেছে। বিশেষ করে, Mixtral কোড এবং গণিত বেঞ্চমার্কে একটি উচ্চতর কর্মক্ষমতা প্রদর্শন করে।    আমরা আমাদের পারফরম্যান্সকে লামা 2 পরিবারের সাথে তুলনা করি, খরচ-পারফরম্যান্স বর্ণালীতে মিক্সট্রাল মডেলের দক্ষতা বোঝার লক্ষ্যে (চিত্র 3 দেখুন)। বিক্ষিপ্ত মিশ্রণের-বিশেষজ্ঞ মডেল হিসাবে, Mixtral প্রতিটি টোকেনের জন্য শুধুমাত্র 13B সক্রিয় প্যারামিটার ব্যবহার করে। 5x কম সক্রিয় প্যারামিটার সহ, Mixtral বেশিরভাগ বিভাগে Llama 2 70B কে ছাড়িয়ে যেতে সক্ষম। আকার এবং দক্ষতা।  মনে রাখবেন যে এই বিশ্লেষণটি সক্রিয় প্যারামিটার গণনার উপর ফোকাস করে (বিভাগ 2.1 দেখুন), যা অনুমান গণনা খরচের সাথে সরাসরি সমানুপাতিক, কিন্তু মেমরি খরচ এবং হার্ডওয়্যার ব্যবহার বিবেচনা করে না। Mixtral পরিবেশন করার জন্য মেমরি খরচ তার স্পার্স প্যারামিটার কাউন্ট, 47B এর সমানুপাতিক, যা Llama 2 70B থেকে এখনও ছোট। ডিভাইস ব্যবহারের ক্ষেত্রে, আমরা লক্ষ্য করি যে SMoEs স্তরটি রাউটিং প্রক্রিয়ার কারণে এবং প্রতি ডিভাইসে একাধিক বিশেষজ্ঞ চালানোর সময় মেমরির লোড বৃদ্ধির কারণে অতিরিক্ত ওভারহেড প্রবর্তন করে। এগুলি ব্যাচড ওয়ার্কলোডের জন্য আরও উপযুক্ত যেখানে কেউ গাণিতিক তীব্রতার একটি ভাল ডিগ্রিতে পৌঁছতে পারে।  Llama 2 70B এবং GPT-3.5 এর সাথে তুলনা করুন। সারণি 3-এ, আমরা Llama 2 70B এবং GPT-3.5-এর তুলনায় মিক্সট্রাল 8x7B-এর কর্মক্ষমতা প্রতিবেদন করি। আমরা লক্ষ্য করি যে Mixtral একইভাবে বা অন্য দুটি মডেলের উপরে কাজ করে। MMLU তে, Mixtral এর উল্লেখযোগ্যভাবে ছোট ক্ষমতা থাকা সত্ত্বেও (70B এর তুলনায় 47B টোকেন) একটি ভাল পারফরম্যান্স পায়। MT বেঞ্চের জন্য, আমরা উপলব্ধ সর্বশেষ GPT-3.5-Turbo মডেল, gpt-3.5-turbo-1106-এর কর্মক্ষমতা রিপোর্ট করি।     কিছু বেঞ্চমার্কে, আমাদের মূল্যায়ন প্রোটোকল এবং Llama 2 পেপারে রিপোর্ট করা একটির মধ্যে কিছু পার্থক্য রয়েছে: 1) MBPP-তে, আমরা হাতে-যাচাই করা উপসেট ব্যবহার করি 2) TriviaQA-তে, আমরা উইকিপিডিয়া প্রসঙ্গ সরবরাহ করি না। মূল্যায়ন পার্থক্য.  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ  [২] যেহেতু Llama 2 34B ওপেন সোর্সড ছিল না, তাই আমরা Llama 1 34B-এর ফলাফল রিপোর্ট করি।   লেখক:  (1) আলবার্ট কিউ জিয়াং;  (2) আলেকজান্ডার সাব্লেরোলস;  (3) অ্যান্টোইন রাউক্স;  (4) আর্থার মেনশ;  (5) Blanche Savary;  (6) ক্রিস ব্যামফোর্ড;  (৭) দেবেন্দ্র সিং চ্যাপলট;  (8) দিয়েগো দে লাস কাসাস;  (9) এমা বো হান্না;  (10) ফ্লোরিয়ান ব্রেস্যান্ড;  (11) জিয়ানা লেঙ্গেল;  (12) Guillaume Bour;  (13) Guillaume Lample;  (14) Lélio Renard Lavaud;  (15) Lucile Saulnier;  (16) মারি-অ্যান ল্যাচক্স;  (17) পিয়েরে স্টক;  (18) সন্দীপ সুব্রামানিয়ান;  (19) সোফিয়া ইয়াং;  (20) Szymon Antoniak;  (21) তেভেন লে স্কাও;  (22) থিওফাইল গারভেট;  (23) Thibaut Lavril;  (24) টমাস ওয়াং;  (25) টিমোথি ল্যাক্রোইক্স;  (26) উইলিয়াম এল সাইদ।

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

গল্পের মূল ভাষায় এই অডিও তৈরি!

মিক্সট্রাল একাধিক বেঞ্চমার্ক জুড়ে লামা এবং GPT-3.5কে ছাড়িয়ে যায়

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps