paint-brush
ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: ডেটাসেটদ্বারা@textmodels

ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: ডেটাসেট

দ্বারা Writings, Papers and Blogs on Text Models5m2024/06/06
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা ChipNeMo উপস্থাপন করেন, চিপ ডিজাইনের জন্য LLM উন্নত করতে ডোমেন অভিযোজন ব্যবহার করে, আরও ভাল পারফরম্যান্সের সাথে 5x পর্যন্ত মডেলের আকার হ্রাস করা।
featured image - ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: ডেটাসেট
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) মিংজি লিউ, NVIDIA {সমান অবদান};

(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};

(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};

(4) ক্রিস চেং, NVIDIA {সমান অবদান};

(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};

(6) Rongjian Liang, NVIDIA {সমান অবদান};

(7) জোনাহ আলবেন, এনভিআইডিএ;

(8) হিমাংশু আনন্দ, NVIDIA;

(9) সন্মিত্র ব্যানার্জী, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) বনিতা ভাস্করন, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) অর্জুন চৌধুরী, NVIDIA;

(14) শ্যারন ক্লে, NVIDIA;

(15) বিল ডালি, NVIDIA;

(16) লরা ড্যাং, NVIDIA;

(17) পরীক্ষিত দেশপান্ডে, NVIDIA;

(18) সিদ্ধান্ত ধোধি, NVIDIA;

(19) সমীর হালেপেট, NVIDIA;

(20) এরিক হিল, NVIDIA;

(21) জিয়াং হু, এনভিআইডিএ;

(22) সুমিত জৈন, NVIDIA;

(23) ব্রুসেক খাইলানি, NVIDIA;

(24) জর্জ কোকাই, NVIDIA;

(25) কিশোর কুনাল, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) চার্লি লিন্ড, NVIDIA;

(28) হাও লিউ, NVIDIA;

(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;

(30) সুজিত ওমর, NVIDIA;

(31) শ্রীধর প্রাট্টি, NVIDIA;

(23) জোনাথন রাইমান, এনভিআইডিএ;

(33) অম্বর সরকার, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) হানফেই সান, এনভিআইডিএ;

(36) প্রতীক পি সুথার, NVIDIA;

(37) বরুণ তেজ, NVIDIA;

(38) ওয়াকার টার্নার, NVIDIA;

(39) কাইজে জু, NVIDIA;

(40) Haoxing Ren, NVIDIA।

লিঙ্কের টেবিল

২. ডেটাসেট

উ: DAPT ডেটাসেট


ডোমেন-অ্যাডাপ্টিভ প্রি-ট্রেনিং (DAPT) চলাকালীন, আমরা NVIDIA-মালিকানা চিপ ডিজাইনের নির্দিষ্ট ডেটা উত্স এবং সর্বজনীনভাবে উপলব্ধ ডেটাসেটের সংমিশ্রণ থেকে একটি ডেটাসেট একত্রিত করি।


চিপ ডিজাইন ডেটাসেট: আমাদের অভ্যন্তরীণ ডেটাসেটে চিপ ডিজাইন, স্প্যানিং ডিজাইন, যাচাইকরণ, পরিকাঠামো এবং অভ্যন্তরীণ ডকুমেন্টেশনের জন্য প্রাসঙ্গিক পাঠ্য উত্সের বিভিন্ন পরিসর রয়েছে। সারণী I ফিল্টার করার পরে সংগৃহীত ডেটা এবং LLaMA2 টোকেনাইজার ব্যবহার করে টোকেনের সংশ্লিষ্ট সংখ্যার একটি ব্রেকডাউন প্রদান করে। আমরা সমস্ত প্রাসঙ্গিক অভ্যন্তরীণ ডেটা সংগ্রহ করে ডেটাসেট তৈরি করি, তারপর ফাইলের নাম এক্সটেনশনের উপর ভিত্তি করে ফাইলের ধরন দ্বারা ফিল্টার করে এবং মেশিন-জেনারেটেড এবং মানব-লিখিত সামগ্রীর মধ্যে পার্থক্য করে। যদিও আমরা তিনটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে মূল্যায়ন করেছি, আমরা নির্দিষ্টভাবে ডেটাসেটটিকে এই ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক বলে পরিচিত উত্সগুলিতে সীমাবদ্ধ করিনি কারণ আমরা বিশ্বাস করি যে অতিরিক্ত ডোমেন জ্ঞান অন্তর্ভুক্ত করলে কর্মক্ষমতা উন্নত হবে৷ সংগ্রহ, পরিষ্কার এবং ফিল্টারিংয়ের পরে, অভ্যন্তরীণ ডেটা প্রশিক্ষণ কর্পাসের 23.1 বিলিয়ন টোকেন রয়েছে। তথ্য সংগ্রহ প্রক্রিয়ার আরও বিশদ পরিশিষ্ট A-তে কভার করা হয়েছে।


পাবলিক ডেটাসেট: আমরা বিভিন্ন উত্স থেকে সর্বজনীনভাবে উপলব্ধ ডেটার একটি নমুনা সহ চিপ ডিজাইনের নির্দিষ্ট ডেটা বৃদ্ধি করি, এটি মৌলিক বৃহৎ ভাষার মডেলগুলির বিকাশে একটি সাধারণ অনুশীলন৷ আমাদের পদ্ধতি ছিল অন্যান্য ভাষার মডেল থেকে পাবলিক ট্রেনিং ডেটা পুনঃব্যবহার করা, এই শর্তের সাথে যে এটি অবশ্যই সর্বজনীনভাবে অ্যাক্সেসযোগ্য এবং ওপেন সোর্সিংয়ের সাথে সামঞ্জস্যপূর্ণ। এই ডেটাসেটগুলি DAPT-এর সময় সাধারণ জ্ঞান এবং প্রাকৃতিক ভাষা ক্ষমতা সংরক্ষণের অভিপ্রায়ে LLaMA2 [5]-এ ব্যবহৃত প্রাক-প্রশিক্ষণ ডেটার সাথে উচ্চ মাত্রার সম্পর্ক প্রদর্শন করে। ChipNeMo দ্বারা ব্যবহৃত পাবলিক ডেটাসেটগুলি দুটি গ্রুপে শ্রেণীবদ্ধ করা যেতে পারে, প্রাকৃতিক ভাষা এবং কোড। প্রাকৃতিক ভাষা উপাদানের জন্য, আমরা উইকিপিডিয়া ডেটা [17] থেকে আঁকছি, কারণ এটি উচ্চ ডেটা মানের জন্য ব্যাপকভাবে বিবেচিত হয়। কোডের জন্য, আমরা আমাদের অভ্যন্তরীণ ডেটা চিপ ডিজাইন ডেটাসেটে যেমন C++, পাইথন এবং ভেরিলগ উপস্থিত প্রোগ্রামিং ভাষার উপর ফোকাস করে, GitHub ডেটা [18] ব্যবহার করি। সামগ্রিক ডেটাসেট যে প্রাক-প্রশিক্ষণ বিতরণের প্রতিনিধি তা নিশ্চিত করার জন্য, আমরা একটি সাবস্যাম্পলিং অপারেশন করি যার ফলে মোট প্রশিক্ষণ টোকেনের প্রায় 9.2% এই পাবলিক ডেটাসেটগুলি থেকে নমুনা নেওয়া হয়, প্রাকৃতিক ভাষা এবং কোডের সুষম উপস্থাপনা সহ।


ডেটা ব্লেন্ড: আমরা যে ডোমেন ডেটা সংগ্রহ করেছি তার একটি উল্লেখযোগ্য অনুপাত বিভিন্ন উত্স থেকে অব্যক্ত কোড নিয়ে গঠিত৷ ডোমেন-নির্দিষ্ট জ্ঞানের মডেলের বোধগম্যতা বাড়ানোর প্রয়াসে, আমরা 2 থেকে 4টি প্রশিক্ষণ যুগের ব্যবধানে প্রাকৃতিক ভাষার ডেটা, বিশেষ করে ডিজাইন ডকুমেন্টেশনের নমুনা তৈরি করার সময় কোড ডেটার ডাউনস্যাম্পলিং পরিচালনা করেছি। আমরা ডেটার উপস্থাপনাও বাড়িয়েছি যা আমরা ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলির জন্য আরও প্রাসঙ্গিক বলে মনে করি, যেমন মানব-লিখিত EDA টুল স্ক্রিপ্ট। উপরন্তু, আমরা 1 যুগের জন্য সর্বজনীনভাবে উপলব্ধ ডোমেন ডেটা অন্তর্ভুক্ত করেছি। প্রশিক্ষণের জন্য টোকেন বিতরণের বিশদ বিবরণ সারণি I এ দেখানো হয়েছে।


B. SFT নির্দেশনা ডেটা


সুপারভাইজড ফাইন-টিউনিং (SFT) চলাকালীন, আমরা একটি সাধারণ চ্যাট SFT নির্দেশনা ডেটাসেট নিয়োগ করি যা বাণিজ্যিক ব্যবহারের জন্য অ্যাক্সেসযোগ্য। ডেটাসেটটি মূলত OASST [19], FLAN [20], P3 [21] সহ বিভিন্ন ডেটাসেট সহ সর্বজনীনভাবে উপলব্ধ নির্দেশাবলীর সমন্বয়ে গঠিত এবং একটি বিস্তৃত ডোমেনের মালিকানাধীন ডেটাসেটের একটি ছোট পরিমাণে বিভিন্ন বিষয় যেমন ব্রেনস্টর্মিং, ওপেন-এন্ডেড প্রশ্নের উত্তর দেওয়া, পুনর্লিখন। , সংক্ষিপ্তকরণ ইত্যাদি। এটা মনে রাখা গুরুত্বপূর্ণ যে আমরা এখানে যে SFT নির্দেশনা ডেটা নিয়ে আলোচনা করছি তা সাধারণ প্রাকৃতিক ভাষার কাজগুলিতে ফোকাস করা হয় এবং এতে চিপ ডিজাইনে ডাউনস্ট্রিম ব্যবহারের ক্ষেত্রে সম্পর্কিত কোনও তথ্য বা কাজ থাকে না। মোট, এই ডেটাসেটে 128,000 প্রশিক্ষণের নমুনা রয়েছে।


উপরন্তু, আমরা মডেলটিকে ডাউনস্ট্রিম ব্যবহারের ক্ষেত্রে সারিবদ্ধ করার জন্য একটি ডোমেন-নির্দিষ্ট নির্দেশনা ডেটাসেট সতর্কতার সাথে একত্রিত করেছি। এই উদাহরণগুলি বিষয় বিশেষজ্ঞদের দ্বারা সাবধানতার সাথে তৈরি করা হয়েছে এবং একক-পালা প্রশ্ন এবং উত্তর হিসাবে ফর্ম্যাট করা হয়েছে। সারণি II আমাদের ডোমেন-নির্দিষ্ট নির্দেশনা ডেটাসেটের পরিমাণ চিত্রিত করে। এটি লক্ষণীয় যে ডোমেন-নির্দিষ্ট নির্দেশনা ডেটাসেটে প্রশিক্ষণের নমুনার মোট সংখ্যা ব্যাপক পরিমাণে জেনারেটিভ চ্যাট নির্দেশনা ডেটার তুলনায় খুবই কম।


গ. অটোইভাল


দ্রুত এবং পরিমাণগতভাবে বিভিন্ন মডেলের যথার্থতা মূল্যায়ন করার জন্য, আমরা প্রতিটি ব্যবহারের ক্ষেত্রে একাধিক-পছন্দের প্রশ্ন-উত্তর বিন্যাস হিসাবে কাঠামোগত মূল্যায়নের মানদণ্ড স্থাপন করেছি, যা প্রতিষ্ঠিত বেঞ্চমার্কগুলির সাথে ঘনিষ্ঠভাবে সারিবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যেমন MMLU [22]। এই বহুনির্বাচনী প্রশ্ন প্রণয়নের প্রক্রিয়ায়, ডোমেন বিশেষজ্ঞদের সাথে সহযোগিতা ছিল মুখ্য। লক্ষ্য ছিল নিশ্চিত করা যে প্রতিটি প্রশ্নে অন্তত একটি জটিল উত্তর পছন্দ অন্তর্ভুক্ত করা হয়েছে, যার ফলে সীমিত ডোমেন দক্ষতার সাথে ব্যক্তিদের জন্য একটি চ্যালেঞ্জ তৈরি করা হয়েছে। আমাদের ডোমেন-নির্দিষ্ট এসএফটি থেকে ডেটা সহ প্রশ্নগুলির কোনও অনিচ্ছাকৃত দূষণ রোধ করার জন্যও সতর্ক মনোযোগ দেওয়া হয়েছিল। প্রতি-ব্যবহার-কেস বেঞ্চমার্ক ছাড়াও, সাধারণ সার্কিট ডিজাইন জ্ঞানের জন্য একটি অতিরিক্ত বেঞ্চমার্ক তৈরি করা হয়েছিল, যা অ্যানালগ এবং ডিজিটাল ডিজাইনের বিষয়গুলিকে কভার করে। মূল্যায়ন বেঞ্চমার্কের জন্য বহুনির্বাচনী প্রশ্নের সংখ্যা সারণি III এ দেখানো হয়েছে।


যখন আমরা উপরোক্ত বেঞ্চমার্কে ফলাফল রিপোর্ট করি, তখন আমরা পরীক্ষার প্রক্রিয়ায় ভিন্নতা এবং গোলমালের প্রভাব কমাতে পাঁচটি স্বতন্ত্র রান থেকে প্রাপ্ত গড় ফলাফল গ্রহণ করি। প্রতিটি পুনরাবৃত্তি 5-শট উদাহরণের একটি সেট নিয়োগ করে, প্রতিটি পৃথক রান জুড়ে প্রবর্তিত বৈচিত্র সহ।


এই ডোমেন-নির্দিষ্ট মূল্যায়ন বেঞ্চমার্কগুলি ছাড়াও, আমরা সাধারণভাবে ব্যবহৃত সর্বজনীনভাবে উপলব্ধ এলএলএম একাডেমিক বেঞ্চমার্কগুলিও অন্তর্ভুক্ত করি। উপরন্তু, আমরা পাইথনের জন্য HumanEval [23] এবং Verilog-এর জন্য VerilogEval [12] মূল্যায়ন করে মডেলের কোড তৈরির ক্ষমতা পরিমাপ করি।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ