লেখক:
(1) মিংজি লিউ, NVIDIA {সমান অবদান};
(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};
(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};
(4) ক্রিস চেং, NVIDIA {সমান অবদান};
(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};
(6) Rongjian Liang, NVIDIA {সমান অবদান};
(7) জোনাহ আলবেন, এনভিআইডিএ;
(8) হিমাংশু আনন্দ, NVIDIA;
(9) সন্মিত্র ব্যানার্জী, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) বনিতা ভাস্করন, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) অর্জুন চৌধুরী, NVIDIA;
(14) শ্যারন ক্লে, NVIDIA;
(15) বিল ডালি, NVIDIA;
(16) লরা ড্যাং, NVIDIA;
(17) পরীক্ষিত দেশপান্ডে, NVIDIA;
(18) সিদ্ধান্ত ধোধি, NVIDIA;
(19) সমীর হালেপেট, NVIDIA;
(20) এরিক হিল, NVIDIA;
(21) জিয়াং হু, এনভিআইডিএ;
(22) সুমিত জৈন, NVIDIA;
(23) ব্রুসেক খাইলানি, NVIDIA;
(24) জর্জ কোকাই, NVIDIA;
(25) কিশোর কুনাল, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) চার্লি লিন্ড, NVIDIA;
(28) হাও লিউ, NVIDIA;
(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;
(30) সুজিত ওমর, NVIDIA;
(31) শ্রীধর প্রাট্টি, NVIDIA;
(23) জোনাথন রাইমান, এনভিআইডিএ;
(33) অম্বর সরকার, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) হানফেই সান, এনভিআইডিএ;
(36) প্রতীক পি সুথার, NVIDIA;
(37) বরুণ তেজ, NVIDIA;
(38) ওয়াকার টার্নার, NVIDIA;
(39) কাইজে জু, NVIDIA;
(40) Haoxing Ren, NVIDIA.
ChipNeMo এর লক্ষ্য হল শিল্প চিপ ডিজাইনের জন্য বড় ভাষা মডেলের (LLMs) অ্যাপ্লিকেশনগুলি অন্বেষণ করা। অফ-দ্য-শেল্ফ বাণিজ্যিক বা ওপেন-সোর্স এলএলএম সরাসরি মোতায়েন করার পরিবর্তে, আমরা পরিবর্তে নিম্নলিখিত ডোমেন অভিযোজন কৌশলগুলি গ্রহণ করি: কাস্টম টোকেনাইজার, ডোমেন-অ্যাডাপ্টিভ অবিরত প্রিট্রেনিং, ডোমেন-নির্দিষ্ট নির্দেশাবলী সহ তদারকিকৃত ফাইন-টিউনিং (এসএফটি) এবং ডোমেন- অভিযোজিত পুনরুদ্ধার মডেল। আমরা চিপ ডিজাইনের জন্য নির্বাচিত তিনটি এলএলএম অ্যাপ্লিকেশনগুলিতে এই পদ্ধতিগুলি মূল্যায়ন করি: একটি ইঞ্জিনিয়ারিং সহকারী চ্যাটবট, ইডিএ স্ক্রিপ্ট জেনারেশন এবং বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ। আমাদের ফলাফলগুলি দেখায় যে এই ডোমেন অভিযোজন কৌশলগুলি তিনটি মূল্যায়ন করা অ্যাপ্লিকেশন জুড়ে সাধারণ-উদ্দেশ্যের বেস মডেলগুলির তুলনায় উল্লেখযোগ্য LLM কার্যকারিতা উন্নতি সক্ষম করে, যা ডিজাইনের কাজের একটি পরিসরে অনুরূপ বা আরও ভাল পারফরম্যান্স সহ 5x পর্যন্ত মডেল আকার হ্রাস করতে সক্ষম করে। আমাদের অনুসন্ধানগুলি ইঙ্গিত করে যে আমাদের বর্তমান ফলাফল এবং আদর্শ ফলাফলের মধ্যে উন্নতির জন্য এখনও অবকাশ রয়েছে। আমরা বিশ্বাস করি যে ডোমেন-অভিযোজিত এলএলএম পদ্ধতির আরও তদন্ত ভবিষ্যতে এই ব্যবধানটি বন্ধ করতে সহায়তা করবে।
গত কয়েক দশক ধরে, ইলেকট্রনিক ডিজাইন অটোমেশন (EDA) অ্যালগরিদম এবং সরঞ্জামগুলি চিপ ডিজাইনের উত্পাদনশীলতায় বিশাল লাভ সরবরাহ করেছে। মুরের আইন দ্বারা প্রদত্ত ট্রানজিস্টরের ঘনত্বের সূচকীয় বৃদ্ধির সাথে মিলিত, EDA কোটি কোটি ট্রানজিস্টর সহ বৈশিষ্ট্য-সমৃদ্ধ জটিল SoC ডিজাইনের বিকাশকে সক্ষম করেছে। অতি সম্প্রতি, গবেষকরা EDA অ্যালগরিদমগুলিতে AI প্রয়োগ করার উপায়গুলি এবং চিপ ডিজাইনের উত্পাদনশীলতা আরও উন্নত করার জন্য চিপ ডিজাইন প্রক্রিয়াটি অনুসন্ধান করছেন [1] [2] [3]। যাইহোক, অনেক সময়সাপেক্ষ চিপ ডিজাইনের কাজ যা প্রাকৃতিক ভাষা বা প্রোগ্রামিং ভাষার সাথে ইন্টারফেসিং জড়িত তা এখনও স্বয়ংক্রিয় করা হয়নি। বাণিজ্যিক (ChatGPT, Bard, ইত্যাদি) এবং ওপেন-সোর্স (Vicuna [4], LLaMA2 [5], ইত্যাদি) বৃহৎ ভাষার মডেল (LLM) সাম্প্রতিক অগ্রগতিগুলি এই ভাষা সম্পর্কিত চিপ ডিজাইনের কাজগুলিকে স্বয়ংক্রিয়ভাবে সাহায্য করার জন্য একটি অভূতপূর্ব সুযোগ প্রদান করে। প্রকৃতপক্ষে, প্রারম্ভিক একাডেমিক গবেষণা [৬] [৭] [৮] RTL তৈরির জন্য LLM-এর অ্যাপ্লিকেশানগুলি অন্বেষণ করেছে যা ছোট ডিজাইন মডিউলগুলিতে সহজ কাজগুলি সম্পাদন করার পাশাপাশি EDA টুলগুলির জন্য স্ক্রিপ্ট তৈরি করতে পারে৷
আমরা বিশ্বাস করি যে LLM-এর মধ্যে চিপ ডিজাইনের উৎপাদনশীলতাকে সাহায্য করার সম্ভাবনা রয়েছে জেনারেটিভ AI ব্যবহার করে অনেক ভাষা সম্পর্কিত চিপ ডিজাইনের কাজগুলিকে স্বয়ংক্রিয় করতে যেমন কোড তৈরি করা, একটি প্রাকৃতিক ভাষা ইন্টারফেসের মাধ্যমে ইঞ্জিনিয়ারিং প্রশ্নের উত্তর, বিশ্লেষণ § সমান অবদান এবং রিপোর্ট তৈরি করা, এবং বাগ ট্রাইজ . এই গবেষণায়, আমরা এই তিনটি নির্দিষ্ট LLM অ্যাপ্লিকেশনের উপর ফোকাস করি: GPU ASIC এবং আর্কিটেকচার ডিজাইন ইঞ্জিনিয়ারদের জন্য একটি প্রকৌশল সহকারী চ্যাটবট, যা অভ্যন্তরীণ HW ডিজাইন বোঝে এবং জটিল ডিজাইনের বিষয়গুলি ব্যাখ্যা করতে সক্ষম; ইংরেজিতে উল্লেখিত VLSI টাইমিং অ্যানালাইসিস টাস্কের জন্য Python এবং Tcl-এর উপর ভিত্তি করে দুটি ডোমেন নির্দিষ্ট টুলের জন্য EDA স্ক্রিপ্ট জেনারেশন; একটি অভ্যন্তরীণ বাগ এবং সমস্যা ট্র্যাকিং সিস্টেমের অংশ হিসাবে বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ।
যদিও প্রচুর পরিমাণে ইন্টারনেট ডেটার উপর প্রশিক্ষিত সাধারণ-উদ্দেশ্য LLMগুলি বিভিন্ন ডোমেন জুড়ে জেনারেটিভ এআই কাজগুলিতে উল্লেখযোগ্য ক্ষমতা প্রদর্শন করে (যেমনটি [9] সালে বুবেক এট আল দ্বারা প্রদর্শিত হয়েছে), সাম্প্রতিক কাজ যেমন ব্লুমবার্গজিপিটি [10] এবং বায়োমেডএলএলএম [11] প্রদর্শন করে যে ডোমেন-নির্দিষ্ট এলএলএম মডেলগুলি ডোমেন-নির্দিষ্ট কার্যগুলিতে একটি সাধারণ-উদ্দেশ্য মডেলকে ছাড়িয়ে যেতে পারে। হার্ডওয়্যার ডিজাইনের ডোমেনে, [৬] [১২] দেখিয়েছে যে ওপেনসোর্স এলএলএম (কোডজেন [১৩]) অতিরিক্ত ভেরিলগ ডেটার উপর সূক্ষ্ম সুর করা অত্যাধুনিক ওপেনএআই মডেলকে ছাড়িয়ে যেতে পারে। এই পদ্ধতিতে এলএলএম কাস্টমাইজ করা API-এর মাধ্যমে তৃতীয় পক্ষের এলএলএম-এ মালিকানাধীন চিপ ডিজাইন ডেটা পাঠানোর সাথে সম্পর্কিত নিরাপত্তা ঝুঁকিগুলি এড়ায়। যাইহোক, স্ক্র্যাচ থেকে প্রতিটি ডোমেনের জন্য ডোমেন-নির্দিষ্ট মডেলগুলিকে প্রশিক্ষণ দেওয়া নিষেধমূলকভাবে ব্যয়বহুল হবে, কারণ এর জন্য প্রায়ই লক্ষ লক্ষ GPU প্রশিক্ষণের প্রয়োজন হয়। ডোমেন-নির্দিষ্ট মডেলগুলিকে সাশ্রয়ীভাবে প্রশিক্ষণ দেওয়ার জন্য, আমরা পরিবর্তে নিম্নলিখিত কৌশলগুলিকে একত্রিত করার প্রস্তাব দিই: ডোমেন-অ্যাডাপ্টিভ প্রিট্রেইনিং (DAPT) [14] ডোমেন-অ্যাডাপ্টেড টোকেনাইজারগুলির সাথে ভিত্তি মডেলের, সাধারণ এবং ডোমেন নির্দিষ্ট নির্দেশাবলী ব্যবহার করে মডেল সারিবদ্ধকরণ, এবং পুনরুদ্ধার- একটি প্রশিক্ষিত ডোমেন-অভিযোজিত পুনরুদ্ধার মডেল সহ অগমেন্টেড জেনারেশন (RAG) [15]।
চিত্র 1-এ যেমন দেখানো হয়েছে, আমাদের পদ্ধতি হল একটি বেস ফাউন্ডেশনাল মডেল দিয়ে শুরু করা এবং DAPT প্রয়োগ করা এবং তারপরে সুপারভাইজড ফাইন-টিউনিং (SFT)। DAPT, যা ইন-ডোমেন ডেটার সাথে অবিরত প্রশিক্ষন হিসাবেও পরিচিত, বায়োমেডিকেল এবং কম্পিউটার বিজ্ঞানের প্রকাশনা, সংবাদ এবং পর্যালোচনার মতো ক্ষেত্রে কার্যকর বলে দেখানো হয়েছে। আমাদের ক্ষেত্রে, আমরা মালিকানা হার্ডওয়্যার সংক্রান্ত কোড (যেমন সফ্টওয়্যার, RTL, যাচাইকরণ টেস্টবেঞ্চ, ইত্যাদি) এবং প্রাকৃতিক ভাষা ডেটাসেট (যেমন হার্ডওয়্যার স্পেসিফিকেশন, ডকুমেন্টেশন ইত্যাদি) সংগ্রহ থেকে আমাদের ডোমেন-নির্দিষ্ট প্রাক-প্রশিক্ষণ ডেটাসেট তৈরি করি। আমরা কাঁচা ডেটাসেট পরিষ্কার করি এবং প্রিপ্রসেস করি, তারপর ডোমেন-নির্দিষ্ট ডেটা সহ একটি ফাউন্ডেশন মডেলকে প্রি-ট্রেইন করি। আমরা ফলস্বরূপ মডেলটিকে একটি ChipNeMo বলি
ফাউন্ডেশন মডেল। DAPT প্রাক-প্রশিক্ষণে ব্যবহৃত টোকেনগুলির একটি ভগ্নাংশে করা হয় এবং এটি অনেক সস্তা, মাত্র কয়েক হাজার GPU ঘন্টা প্রয়োজন। বিভাগ V-তে বর্ণিত হিসাবে, আমরা আমাদের ব্যবহারের ক্ষেত্রে LoRA [16] এর মতো প্যারামিটার দক্ষ প্রশিক্ষণ (PEFT) কৌশলগুলির চেয়ে এই পদ্ধতিটিকে আরও কার্যকর বলে মনে করি।
এলএলএম টোকেনাইজাররা এলএলএম প্রশিক্ষণের জন্য টোকেনগুলির ক্রমগুলিতে পাঠ্যকে রূপান্তর করে। একটি ডোমেন-নির্দিষ্ট টোকেনাইজার ডোমেন-নির্দিষ্ট পদগুলির জন্য নিয়ম এবং প্যাটার্ন তৈরি করে টোকেনাইজেশন দক্ষতা উন্নত করে যেমন সাধারণত RTL-এ পাওয়া কীওয়ার্ড। DAPT-এর জন্য, আমরা স্ক্র্যাচ থেকে একটি নতুন ডোমেন-নির্দিষ্ট টোকেনাইজারকে পুনরায় প্রশিক্ষণ দিতে পারি না, কারণ এটি ভিত্তি মডেলটিকে অবৈধ করে দেবে। ফাউন্ডেশন মডেল দ্বারা ব্যবহৃত পূর্ব-প্রশিক্ষিত সাধারণ-উদ্দেশ্য টোকেনাইজারে ChipNeMo সীমাবদ্ধ করার পরিবর্তে, আমরা আমাদের চিপ ডিজাইন ডেটাসেটে প্রাক-প্রশিক্ষিত টোকেনাইজারকে মানিয়ে নিই, শুধুমাত্র ডোমেন-নির্দিষ্ট শর্তাবলীর জন্য নতুন টোকেন যোগ করি।
ChipNeMo ফাউন্ডেশন মডেলগুলি হল সমাপ্তি মডেল যা চ্যাটের মতো কাজগুলির সাথে মানিয়ে নিতে তত্ত্বাবধান-সূক্ষ্ম-টিউনিং (SFT) প্রয়োজন৷ আমরা ChipNeMo ফাউন্ডেশন মডেলে SFT সঞ্চালনের জন্য মাল্টি-টার্ন চ্যাটের জন্য বৃহৎভাবে সর্বজনীনভাবে উপলব্ধ সাধারণ-উদ্দেশ্য চ্যাট নির্দেশনা ডেটাসেটগুলি ব্যবহার করি, যা ChipNeMo চ্যাট মডেল তৈরি করে। আমরা লক্ষ্য করি যে চিপ ডিজাইন ডোমেনের প্রশ্নের সাথে ChipNeMo ফাউন্ডেশন মডেলগুলিকে সারিবদ্ধ করার জন্য একটি সাধারণ উদ্দেশ্য চ্যাট নির্দেশনা ডেটাসেট সহ SFT যথেষ্ট। আমরা অল্প পরিমাণে টাস্ক-নির্দিষ্ট SFT নির্দেশনা ডেটাও যোগ করেছি, যা সারিবদ্ধকরণকে আরও উন্নত করে। আমরা বেস ফাউন্ডেশন মডেল হিসাবে ব্যবহৃত LLaMA2 মডেলের রূপের উপর ভিত্তি করে একাধিক ChipNeMo ফাউন্ডেশন এবং চ্যাট মডেলকে প্রশিক্ষণ দিয়েছি।
ইঞ্জিনিয়ারিং অ্যাসিস্ট্যান্ট চ্যাটবট অ্যাপ্লিকেশনে পারফরম্যান্স উন্নত করতে, আমরা রিট্রিভাল অগমেন্টেড জেনারেশন (RAG) এর সুবিধাও নিয়ে থাকি। ব্যবহারকারীর প্রশ্নের জন্য এলএলএম-এর সুনির্দিষ্ট প্রসঙ্গ দেওয়ার জন্য RAG হল একটি ওপেন-বুক পদ্ধতি। এটি ব্যবহারকারীর ক্যোয়ারী প্রদত্ত প্রতিক্রিয়া প্রজন্মকে বাড়ানোর জন্য তার ডেটা স্টোর থেকে প্রাসঙ্গিক ইন-ডোমেন জ্ঞান পুনরুদ্ধার করে। এই পদ্ধতিটি একটি নির্দিষ্ট প্রশ্নের প্রসঙ্গে মডেলটিকে ভিত্তি করার ক্ষেত্রে উল্লেখযোগ্য উন্নতি দেখায়। গুরুত্বপূর্ণভাবে আমরা ডোমেন ডেটা সহ একটি পূর্বপ্রশিক্ষিত পুনরুদ্ধার মডেল ফাইনটিউন করার সময় পুনরুদ্ধারের হিট হারে উল্লেখযোগ্য উন্নতি লক্ষ্য করেছি। এটি মডেল মানের আরও উন্নতির দিকে পরিচালিত করে।
আমরা চিপ ডিজাইনের ডোমেনে এলএলএমগুলিকে মানিয়ে নেওয়ার সাথে সম্পর্কিত নিম্নলিখিত অবদান এবং ফলাফলগুলি হাইলাইট করি:
• আমরা তিনটি ব্যবহারের ক্ষেত্রে ডোমেন-অভিযোজিত LLM কার্যকারিতা প্রদর্শন করি: একটি ইঞ্জিনিয়ারিং সহকারী চ্যাটবট, EDA টুল স্ক্রিপ্ট জেনারেশন, এবং বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ। আমরা বিশেষজ্ঞ মূল্যায়নের উপর ভিত্তি করে ইঞ্জিনিয়ারিং সহকারী চ্যাটবট প্রতিক্রিয়াগুলির জন্য 10 পয়েন্ট স্কেলের মধ্যে 7.4 স্কোর অর্জন করি, EDA স্ক্রিপ্ট তৈরিতে 50% এর বেশি সঠিকতা অর্জন করি এবং সারাংশ এবং অ্যাসাইনমেন্ট সনাক্তকরণের জন্য 7 পয়েন্ট স্কেলের মধ্যে 4 থেকে 5 এর বিশেষজ্ঞ মূল্যায়ন রেটিং অর্জন করি। কাজ.
• ডোমেন-অভিযোজিত ChipNeMo মডেলগুলি নাটকীয়ভাবে সমস্ত ভ্যানিলা LLM-কে ছাড়িয়ে যায় যা মাল্টিপলচয়েস ডোমেন-নির্দিষ্ট অটোইভাল বেঞ্চমার্ক এবং অ্যাপ্লিকেশনগুলির জন্য মানবিক মূল্যায়ন উভয়ের উপর মূল্যায়ন করা হয়।
• যে কাজগুলির জন্য মডেলের পক্ষে প্রম্পট প্রসঙ্গ থেকে পাঠ্য তৈরি করা সম্ভব (যেমন RAG হিটগুলির সাথে চ্যাট, সংক্ষিপ্তকরণ, প্রদত্ত ডকুমেন্টেশন সহ কোড জেনারেশন), ডোমেন-অভিযোজন একটি স্টেট-অফ-হার্ট LLaMA2 70B মডেলের মধ্যে ব্যবধান বন্ধ করে এবং একটি অনেক ছোট 13B মডেল (একটি ছোট ক্রমবর্ধমান প্রশিক্ষণ খরচ কম অনুমান খরচের জন্য 5x পরামিতি হ্রাস করতে সক্ষম করে)।
• কাস্টমাইজড টোকেনাইজার DAPT টোকেন কাউন্টকে 3.3% পর্যন্ত কমিয়ে দেয় অ্যাপ্লিকেশানের কার্যকারিতার ক্ষতি না করে।
• একটি অতিরিক্ত 1.1K ডোমেন-নির্দিষ্ট নির্দেশাবলীতে SFT উল্লেখযোগ্যভাবে 10-পয়েন্ট স্কেলের মধ্যে 0.33, 18% সঠিকতা এবং ইঞ্জিনিয়ারিং অ্যাসিস্ট্যান্ট চ্যাটবট, EDA স্ক্রিপ্ট জেনারেশন, এবং বাগ সংক্ষিপ্তকরণে 7-পয়েন্ট স্কেলের মধ্যে 0.79 পর্যন্ত অ্যাপ্লিকেশানের দক্ষতা উন্নত করে। বিশ্লেষণ, যথাক্রমে।
• ডোমেন-নির্দিষ্ট ডেটার সাথে আমাদের ChipNeMo পুনরুদ্ধার মডেলকে ফাইন-টিউনিং করা একটি প্রাক-প্রশিক্ষিত অত্যাধুনিক পুনরুদ্ধারের তুলনায় পুনরুদ্ধারের হারকে 30% উন্নত করে, যার ফলে RAG প্রতিক্রিয়াগুলির সামগ্রিক গুণমান উন্নত হয়।
কাগজ নিম্নরূপ সংগঠিত হয়. বিভাগ II ডোমেন জ্ঞান যাচাইকরণের জন্য আমাদের ডেটাসেট এবং স্বয়ংক্রিয় মূল্যায়ন বেঞ্চমার্কগুলি বর্ণনা করে৷ বিভাগ III অভিযোজিত টোকেনাইজার, DAPT, SFT এবং RAG সহ ব্যবহৃত ডোমেন অভিযোজন এবং প্রশিক্ষণ পদ্ধতির রূপরেখা দেয়। বিভাগ IV প্রতিটি অ্যাপ্লিকেশন এবং পরীক্ষামূলক সেটআপের বিবরণ প্রদান করে। বিভাগ V প্রতিটি অ্যাপ্লিকেশনের জন্য মানুষের মূল্যায়ন সহ পরীক্ষামূলক ফলাফল বর্ণনা করে। বিভাগ VI ChipNeMo সীমাবদ্ধতা এবং ভবিষ্যতের কাজ নিয়ে আলোচনা করে। বিভাগ VII প্রাসঙ্গিক LLM পদ্ধতি এবং চিপ ডিজাইনের জন্য LLM কে লক্ষ্য করে অন্যান্য কাজ বর্ণনা করে। অবশেষে, অতিরিক্ত মডেল প্রশিক্ষণের বিবরণ সহ সম্পূর্ণ ফলাফল এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রে উত্পন্ন পাঠ্যের উদাহরণগুলি পরিশিষ্টে চিত্রিত করা হয়েছে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।