लेखक:
(1) मिंगजी लियू, एनवीडिया {समान योगदान};
(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};
(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};
(4) क्रिस चेंग, एनवीडिया {समान योगदान};
(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};
(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};
(7) जोना अल्बेन, एनवीडिया;
(8) हिमांशु आनंद, एनवीडिया;
(9) संमित्रा बनर्जी, एनवीडिया;
(10) इस्मेट बेराकटारोग्लू, एनवीडिया;
(11) बोनिता भास्करन, एनवीडिया;
(12) ब्रायन कैटनज़ारो, एनवीडिया;
(13) अर्जुन चौधरी, एनवीडिया;
(14) शेरोन क्ले, एनवीडिया;
(15) बिल डैली, एनवीडिया;
(16) लौरा डांग, एनवीडिया;
(17) परीक्षित देशपांडे, एनवीडिया;
(18) सिद्धनाथ ढोढ़ी, एनवीडिया;
(19) समीर हालेपेट, एनवीडिया;
(20) एरिक हिल, एनवीडिया;
(21) जियाशांग हू, एनवीडिया;
(22) सुमित जैन, एनवीडिया;
(23) ब्रुसेक खैलानी, एनवीडिया;
(24) जॉर्ज कोकाई, एनवीडिया;
(25) किशोर कुणाल, एनवीडिया;
(26) ज़ियाओवेई ली, एनवीडिया;
(27) चार्ली लिंड, एनवीडिया;
(28) हाओ लियू, एनवीडिया;
(29) स्टुअर्ट ओबरमैन, एनवीडिया;
(30) सुजीत उमर, एनवीडिया;
(31) श्रीधर प्रट्टी, एनवीडिया;
(23) जोनाथन रायमन, एनवीडिया;
(33) अंबर सरकार, एनवीडिया;
(34) झेंगजियांग शाओ, एनवीडिया;
(35) हनफ़ेई सन, एनवीडिया;
(36) प्रतीक पी सुथार, एनवीडिया;
(37) वरुण तेज, एनवीडिया;
(38) वॉकर टर्नर, एनवीडिया;
(39) कैझे जू, एनवीडिया;
(40) हॉक्सिंग रेन, एनवीडिया.
A. डोमेन अनुकूलन के लिए विचार
यद्यपि डोमेन-अनुकूलित ChipNeMo मॉडल अपने संगत आधार मॉडल की तुलना में महत्वपूर्ण सुधार प्राप्त करते हैं, हम यह भी देखते हैं कि बड़े LLaMA2 70B कभी-कभी ChipNeMo के समान सटीकता प्राप्त कर सकते हैं, जैसा कि चित्र 8, 9 और 10 में देखा जा सकता है। हाल के कार्यों ने चिप डिजाइन कार्यों को करने के लिए इन शक्तिशाली मॉडलों का लाभ उठाया है।
हालांकि, एक छोटे मॉडल के उपयोग से प्राप्त लागत-दक्षता लाभों पर विचार करना महत्वपूर्ण है। पोप एट अल। प्रदर्शित करते हैं कि समान विलंबता लक्ष्यों के लिए 8B मॉडल पर अनुमान लागत 62B मॉडल की तुलना में 8-12 गुना कम है [34]। इसके अलावा, मॉडल के आकार में कमी से अनुमान की गति में नाटकीय वृद्धि हो सकती है, जिससे मॉडल को एकल GPU या नोड में फिट होने की अनुमति मिलती है, जहां यह अन्यथा नहीं हो सकता [35]। हमारे ChipNeMo 13B मॉडल को LLaMA2 70B मॉडल के विपरीत, बिना किसी क्वांटिज़ेशन के एकल A100 GPU की मेमोरी में लोड किया जा सकता है। इससे सामान्य GPU संचालन के तहत अनुमान की गति में उल्लेखनीय वृद्धि होती है, जिसे GPU के अंडरक्लॉक होने पर अनुमान लागत में उल्लेखनीय कमी के लिए बदला जा सकता है।
इस प्रकार, उत्पादन परिवेश में बड़े सामान्य प्रयोजन मॉडल बनाम छोटे विशेषीकृत मॉडल के उपयोग के बीच निर्णय लेते समय निम्नलिखित मानदंडों पर विचार किया जाना चाहिए:
• प्रशिक्षण और अनुमान व्यापार-बंद: छोटे डोमेन अनुकूलित मॉडल बड़े सामान्य प्रयोजन मॉडल की सटीकता से मेल खा सकते हैं। जबकि डोमेन अनुकूलन में अतिरिक्त अग्रिम लागत लगती है, छोटे मॉडल के उपयोग से परिचालन लागत में काफी कमी आती है।
• उपयोग के मामले की विशिष्टता: जैसा कि चित्र 6, 9 और 10 से देखा जा सकता है, डोमेन अनुकूलित मॉडल उन कार्यों पर सबसे अधिक सुधार दिखाते हैं जो सार्वजनिक डोमेन में शायद ही कभी मौजूद होते हैं, जैसे कि मालिकाना भाषाओं या पुस्तकालयों में कोड लिखना। वास्तव में, हमारा डेटा दिखाता है कि जब उन्हें हाथ से चुने गए संदर्भ प्रदान किए जाते हैं, तब भी बड़े सामान्य-उद्देश्य वाले मॉडल को ऐसे परिदृश्यों में डोमेन अनुकूलित मॉडल की सटीकता से मेल खाने में कठिनाई होती है।
• डोमेन डेटा की उपलब्धता: डोमेन अनुकूलन तब सबसे अच्छा काम करता है जब प्रशिक्षण डेटा की बड़ी मात्रा होती है, यानी अरबों प्रशिक्षण टोकन। यह अक्सर बड़े निगमों और परियोजनाओं के लिए होता है, जिन्होंने बड़ी मात्रा में आंतरिक दस्तावेज़ और कोड जमा किए हैं, लेकिन छोटे व्यवसायों या परियोजनाओं के लिए यह ज़रूरी नहीं है।
• अंतिम उपयोग मामले की विविधता: किसी विशेष कार्य के लिए सामान्य-उद्देश्य मॉडल को ठीक करना संभव है, लेकिन डोमेन अनुकूलित मॉडल डोमेन में कार्यों के विविध सेट के लिए उपयुक्त हैं। हालाँकि हम इस कार्य में ChipNeMo मॉडल के लिए केवल तीन उपयोग मामलों का प्रदर्शन करते हैं, लेकिन इसे पर्याप्त SFT डेटा के साथ अन्य उपयोग मामलों के लिए आसानी से फिर से इस्तेमाल किया जा सकता है।
बी. प्रदर्शन अंतर
हालाँकि ChipNeMo हमारे चयनित अनुप्रयोगों में प्रभावशाली परिणाम प्राप्त करता है जैसा कि परिशिष्ट E में दिखाया गया है, सभी अनुप्रयोगों के लिए मूल्यांकन परिणाम अभी भी मानव विशेषज्ञ प्रदर्शन के साथ एक विचारणीय अंतर दिखाते हैं। हम इस प्रदर्शन अंतर को पाटने के लिए निम्नलिखित तरीकों पर विचार कर रहे हैं:
1) डेटा संग्रह: हम DAPT डेटासेट का विस्तार करके इसमें अधिक आंतरिक स्वामित्व डेटा शामिल कर सकते हैं। इसके अलावा, हम SFT के लिए अधिक कार्य-विशिष्ट निर्देश सेट जोड़ने की योजना बना रहे हैं, क्योंकि साक्ष्य दर्शाते हैं कि कार्य-विशिष्ट SFT मूल्यांकन परिणामों को सार्थक रूप से बेहतर बनाता है।
2) बेस मॉडल: हमें उम्मीद है कि बेहतर और बड़े बेस मॉडल प्रदर्शन को बेहतर बना सकते हैं, जैसे कि LLaMA2 70B। हम कोड जनरेशन कार्यों के लिए कोड LLaMA [32] जैसे कोड-विशिष्ट बेस मॉडल पर DAPT लागू करने का भी पता लगा सकते हैं।
3) प्रशिक्षण: हम चिपनेमो चैट मॉडल पर मानव प्रतिक्रिया (आरएलएचएफ) [36] से सुदृढीकरण सीखने की भी योजना बना रहे हैं ताकि इसे और अधिक बहुमुखी बनाया जा सके। हम सामान्य प्रयोजन डेटासेट पर प्रशिक्षित पूर्व-प्रशिक्षित इनाम मॉडल का लाभ उठाने की योजना बना रहे हैं। हम चुनौती को दूर करने के लिए लंबे संदर्भ प्रशिक्षण [37] का संचालन करने की भी योजना बना रहे हैं, जहाँ लंबे संदर्भ की आवश्यकता होती है, उदाहरण के लिए बग सारांश अनुप्रयोग में। सामान्य तौर पर, लंबे संदर्भ समर्थन से चैट सहायता के साथ-साथ कोड जनरेशन के लिए पुनर्प्राप्ति-आधारित विधियों को बेहतर बनाने में मदद मिलेगी।
4) पुनर्प्राप्ति: हम इंजीनियरिंग सहायक चैटबॉट और EDA स्क्रिप्ट निर्माण दोनों के लिए बेहतर RAG विधियों की आगे जांच करेंगे। इंजीनियरिंग सहायक चैटबॉट के लिए, हम विभिन्न अनुप्रयोग क्षेत्रों के लिए अलग-अलग डेटा स्टोर बना सकते हैं। हम समस्याओं के विविध सेट के लिए प्रासंगिक संदर्भ खोजने के लिए RAG के साथ एंटरप्राइज़ सर्च इंजन को भी एकीकृत कर सकते हैं। कोड निर्माण के लिए, हम मौजूदा कोड और दस्तावेज़ीकरण से संदर्भ की स्वचालित पुनर्प्राप्ति की जांच कर सकते हैं।
सी. एजेंट-आधारित डिज़ाइन पद्धतियाँ
इस कार्य में हमने जिन उपयोग मामलों का प्रयोग किया है, वे एलएलएम की त्वरित और प्रतिक्रिया क्षमता के सीधे अनुप्रयोग हैं। एजेंट्स का तात्पर्य एलएलएम के उपयोग से है, जो कि की जाने वाली क्रियाओं के अनुक्रम को चुनने के लिए है, जहाँ एलएलएम बाहरी उपकरणों को चलाने के लिए एक तर्क इंजन के रूप में कार्य कर रहा है। चिप डिज़ाइन प्रक्रियाओं में कई मौजूदा EDA उपकरण और पद्धतियाँ शामिल हैं। हमारा मानना है कि इनमें से कुछ पद्धतियाँ डोमेन-अनुकूलित एलएलएम जैसे चिपनेमो मॉडल द्वारा संचालित एजेंटों द्वारा संचालित की जा सकती हैं। हम भविष्य में सत्यापन और अनुकूलन के लिए एजेंट-आधारित डिज़ाइन पद्धतियों पर काम करने की योजना बना रहे हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।