লেখক:
(1) মিংজি লিউ, NVIDIA {সমান অবদান};
(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};
(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};
(4) ক্রিস চেং, NVIDIA {সমান অবদান};
(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};
(6) Rongjian Liang, NVIDIA {সমান অবদান};
(7) জোনাহ আলবেন, এনভিআইডিএ;
(8) হিমাংশু আনন্দ, NVIDIA;
(9) সন্মিত্র ব্যানার্জী, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) বনিতা ভাস্করন, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) অর্জুন চৌধুরী, NVIDIA;
(14) শ্যারন ক্লে, NVIDIA;
(15) বিল ডালি, NVIDIA;
(16) লরা ড্যাং, NVIDIA;
(17) পরীক্ষিত দেশপান্ডে, NVIDIA;
(18) সিদ্ধান্ত ধোধি, NVIDIA;
(19) সমীর হালেপেট, NVIDIA;
(20) এরিক হিল, NVIDIA;
(21) জিয়াং হু, এনভিআইডিএ;
(22) সুমিত জৈন, NVIDIA;
(23) ব্রুসেক খাইলানি, NVIDIA;
(24) জর্জ কোকাই, NVIDIA;
(25) কিশোর কুনাল, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) চার্লি লিন্ড, NVIDIA;
(28) হাও লিউ, NVIDIA;
(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;
(30) সুজিত ওমর, NVIDIA;
(31) শ্রীধর প্রাট্টি, NVIDIA;
(23) জোনাথন রাইমান, এনভিআইডিএ;
(33) অম্বর সরকার, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) হানফেই সান, এনভিআইডিএ;
(36) প্রতীক পি সুথার, NVIDIA;
(37) বরুণ তেজ, NVIDIA;
(38) ওয়াকার টার্নার, NVIDIA;
(39) কাইজে জু, NVIDIA;
(40) Haoxing Ren, NVIDIA.
A. ডোমেন অভিযোজনের জন্য বিবেচনা
যদিও ডোমেন-অভিযোজিত ChipNeMo মডেলগুলি তাদের সংশ্লিষ্ট ফাউন্ডেশন মডেলগুলির তুলনায় উল্লেখযোগ্য উন্নতি অর্জন করে, আমরা এটাও লক্ষ্য করি যে বৃহত্তর LLaMA2 70B কখনও কখনও ChipNeMo-এর মতো একই নির্ভুলতা অর্জন করতে পারে, যেমনটি চিত্র 8, 9, এবং 10-এ দেখা গেছে৷ সাম্প্রতিক কাজগুলি এই শক্তিশালী মডেলগুলিকে উন্নত করেছে চিপ নকশা কাজ সঞ্চালন.
যাইহোক, একটি ছোট মডেল ব্যবহার থেকে অর্জিত খরচ-দক্ষতা সুবিধা বিবেচনা করা গুরুত্বপূর্ণ। পোপ এট আল. দেখান যে একটি 8B মডেলের অনুমান খরচ সমান লেটেন্সি লক্ষ্যগুলির জন্য একটি 62B মডেলের তুলনায় 8- 12x কম [34]। তদ্ব্যতীত, মডেলের আকার হ্রাস একটি মডেলকে একক GPU বা নোডের মধ্যে ফিট করার অনুমতি দিয়ে অনুমান গতিতে নাটকীয় বৃদ্ধি ঘটাতে পারে যেখানে এটি অন্যথায় পারে না [35]। আমাদের ChipNeMo 13B মডেলটি LLaMA2 70B মডেলের বিপরীতে কোনো পরিমাণ নির্ধারণ ছাড়াই একটি একক A100 GPU-এর মেমরির মধ্যে লোড করা যেতে পারে। এটি সাধারণ GPU ক্রিয়াকলাপের অধীনে উল্লেখযোগ্য অনুমান গতি বৃদ্ধির দিকে নিয়ে যায়, যা GPU আন্ডারক্লক করা থাকলে তা উল্লেখযোগ্য অনুমান খরচ হ্রাসের জন্য লেনদেন করা যেতে পারে।
সুতরাং, একটি উৎপাদন পরিবেশে একটি বৃহত্তর সাধারণ-উদ্দেশ্য মডেল বনাম একটি ছোট বিশেষ মডেল ব্যবহারের মধ্যে সিদ্ধান্ত নেওয়ার সময় নিম্নলিখিত মানদণ্ড বিবেচনা করা আবশ্যক:
• প্রশিক্ষণ এবং অনুমান ট্রেড-অফ: ছোট ডোমেন অভিযোজিত মডেলগুলি বৃহত্তর সাধারণ উদ্দেশ্য মডেলগুলির যথার্থতার সাথে মেলে। যদিও ডোমেন অভিযোজন অতিরিক্ত আপ-ফ্রন্ট খরচ বহন করে, ছোট মডেলের ব্যবহার উল্লেখযোগ্যভাবে অপারেটিং খরচ কমিয়ে দেয়।
• ব্যবহারের ক্ষেত্রে স্বতন্ত্রতা: চিত্র 6, 9, এবং 10 থেকে দেখা যায়, ডোমেন অভিযোজিত মডেলগুলি এমন কাজগুলিতে সর্বাধিক উন্নতি দেখায় যা পাবলিক ডোমেনে খুব কমই উপস্থিত থাকে, যেমন মালিকানাধীন ভাষা বা লাইব্রেরিতে কোড লেখা। প্রকৃতপক্ষে, আমাদের ডেটা দেখায় যে তাদের হাতে বাছাই করা প্রসঙ্গে সরবরাহ করা হলেও, বৃহৎ সাধারণ-উদ্দেশ্য মডেলগুলি এই ধরনের পরিস্থিতিতে ডোমেন অভিযোজিত মডেলগুলির নির্ভুলতার সাথে মিলতে অসুবিধা হয়।
• ডোমেন ডেটার প্রাপ্যতা: ডোমেন অ্যাডাপশন সবচেয়ে ভাল কাজ করে যখন প্রচুর পরিমাণে প্রশিক্ষণ ডেটা থাকে, যেমন কোটি কোটি প্রশিক্ষণ টোকেন। এটি প্রায়শই বড় কর্পোরেশন এবং প্রকল্পগুলির ক্ষেত্রে হয় যেগুলি প্রচুর পরিমাণে অভ্যন্তরীণ নথি এবং কোড জমা করেছে, তবে ছোট ব্যবসা বা প্রকল্পগুলির জন্য অগত্যা সত্য নয়৷
• শেষ ব্যবহারের ক্ষেত্রে বৈচিত্র্য: একটি নির্দিষ্ট কাজের জন্য একটি সাধারণ-উদ্দেশ্য মডেলকে সূক্ষ্ম-টিউন করা সম্ভব, তবে ডোমেনে অভিযোজিত মডেলগুলি একটি ডোমেনের বিভিন্ন কাজের জন্য উপযুক্ত। যদিও আমরা এই কাজে শুধুমাত্র ChipNeMo মডেলের জন্য তিনটি ব্যবহারের ক্ষেত্রে প্রদর্শন করি, এটি পর্যাপ্ত SFT ডেটা সহ অন্যান্য ব্যবহারের ক্ষেত্রে সহজেই পুনরায় ব্যবহার করা যেতে পারে।
B. পারফরমেন্স গ্যাপ
যদিও ChipNeMo পরিশিষ্ট E তে দেখানো আমাদের নির্বাচিত অ্যাপ্লিকেশনগুলিতে চিত্তাকর্ষক ফলাফল অর্জন করেছে, তবুও সমস্ত অ্যাপ্লিকেশনের মূল্যায়নের ফলাফল মানব বিশেষজ্ঞের কর্মক্ষমতার সাথে একটি বিবেচ্য ব্যবধান দেখায়। এই কর্মক্ষমতা ব্যবধান পূরণ করার জন্য আমরা নিম্নলিখিত পদ্ধতিগুলি বিবেচনা করছি:
1) ডেটা সংগ্রহ: আমরা আরও অভ্যন্তরীণ মালিকানা ডেটা অন্তর্ভুক্ত করতে DAPT ডেটাসেটকে প্রসারিত করতে পারি। উপরন্তু, আমরা SFT-এর জন্য আরও টাস্ক নির্দিষ্ট নির্দেশনা সেট যোগ করার পরিকল্পনা করছি কারণ প্রমাণ দেখানো হয়েছে যে টাস্ক নির্দিষ্ট SFT মূল্যায়নের ফলাফলকে অর্থপূর্ণভাবে উন্নত করে।
2) বেস মডেল: আমরা আশা করি আরও ভাল এবং বড় বেস মডেলগুলি কর্মক্ষমতা উন্নত করতে পারে, যেমন LLaMA2 70B৷ আমরা কোড তৈরির কাজগুলির জন্য কোড-নির্দিষ্ট বেস মডেল যেমন কোড LLaMA [32]-এ DAPT প্রয়োগ করার অন্বেষণ করতে পারি।
3) প্রশিক্ষণ: আমরা এটিকে আরও বহুমুখী করতে ChipNeMo চ্যাট মডেলের মাধ্যমে মানব প্রতিক্রিয়া (RLHF) [৩৬] থেকে রিইনফোর্সমেন্ট লার্নিং পরিচালনা করার পরিকল্পনা করছি। আমরা সাধারণ উদ্দেশ্য ডেটাসেটগুলির উপর প্রশিক্ষিত প্রাক-প্রশিক্ষিত পুরষ্কার মডেলগুলিকে লাভ করার পরিকল্পনা করি৷ আমরা দীর্ঘ-প্রসঙ্গ প্রশিক্ষণ পরিচালনা করার পরিকল্পনা করি [৩৭] চ্যালেঞ্জ কাটিয়ে উঠতে যেখানে দীর্ঘ প্রসঙ্গ প্রয়োজন, যেমন বাগ সংক্ষিপ্তকরণ অ্যাপ্লিকেশনে। সাধারণভাবে, দীর্ঘ প্রসঙ্গ সমর্থন চ্যাট সহায়তার পাশাপাশি কোড তৈরির জন্য পুনরুদ্ধার-ভিত্তিক পদ্ধতিগুলিকে উন্নত করতে সহায়তা করবে।
4) পুনরুদ্ধার: আমরা ইঞ্জিনিয়ারিং সহকারী চ্যাটবট এবং EDA স্ক্রিপ্ট জেনারেশন উভয়ের জন্য আরও ভাল RAG পদ্ধতিগুলি তদন্ত করব। ইঞ্জিনিয়ারিং সহকারী চ্যাটবটের জন্য, আমরা বিভিন্ন অ্যাপ্লিকেশন এলাকার জন্য বিভিন্ন ডেটা স্টোর তৈরি করতে পারি। আমরা বিভিন্ন ধরণের সমস্যার জন্য প্রাসঙ্গিক প্রসঙ্গ খুঁজে পেতে RAG-এর সাথে এন্টারপ্রাইজ সার্চ ইঞ্জিনগুলিকেও সংহত করতে পারি। কোড জেনারেশনের জন্য, আমরা বিদ্যমান কোড এবং ডকুমেন্টেশন থেকে প্রসঙ্গ স্বয়ংক্রিয় পুনরুদ্ধার তদন্ত করতে পারি।
C. এজেন্ট-ভিত্তিক নকশা পদ্ধতি
এই কাজে আমরা যে ব্যবহারের ক্ষেত্রে পরীক্ষা-নিরীক্ষা করেছি তা হল LLM-এর প্রম্পট এবং প্রতিক্রিয়া ক্ষমতার সরল প্রয়োগ। এজেন্টরা একটি LLM ব্যবহার করার জন্য একটি ক্রিয়াকলাপের ক্রম বেছে নিতে উল্লেখ করে, যেখানে একটি LLM বাইরের সরঞ্জামগুলি চালানোর জন্য একটি যুক্তি ইঞ্জিন হিসাবে কাজ করে। চিপ ডিজাইন প্রক্রিয়ায় অনেক বিদ্যমান EDA টুল এবং পদ্ধতি জড়িত। আমরা বিশ্বাস করি যে এই পদ্ধতিগুলির মধ্যে কিছু ডোমেইন-অ্যাডাপ্টেড এলএলএম যেমন ChipNeMo মডেল দ্বারা চালিত এজেন্টদের দ্বারা চালিত হতে পারে। আমরা ভবিষ্যতে যাচাইকরণ এবং অপ্টিমাইজেশনের জন্য এজেন্ট-ভিত্তিক ডিজাইন পদ্ধতিতে কাজ করার পরিকল্পনা করছি।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।