लेखक:
(1) मिंगजी लियू, एनवीडिया {समान योगदान};
(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};
(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};
(4) क्रिस चेंग, एनवीडिया {समान योगदान};
(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};
(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};
(7) जोना अल्बेन, एनवीडिया;
(8) हिमांशु आनंद, एनवीडिया;
(9) संमित्रा बनर्जी, एनवीडिया;
(10) इस्मेट बेराकटारोग्लू, एनवीडिया;
(11) बोनिता भास्करन, एनवीडिया;
(12) ब्रायन कैटनज़ारो, एनवीडिया;
(13) अर्जुन चौधरी, एनवीडिया;
(14) शेरोन क्ले, एनवीडिया;
(15) बिल डैली, एनवीडिया;
(16) लौरा डांग, एनवीडिया;
(17) परीक्षित देशपांडे, एनवीडिया;
(18) सिद्धनाथ ढोढ़ी, एनवीडिया;
(19) समीर हालेपेट, एनवीडिया;
(20) एरिक हिल, एनवीडिया;
(21) जियाशांग हू, एनवीडिया;
(22) सुमित जैन, एनवीडिया;
(23) ब्रुसेक खैलानी, एनवीडिया;
(24) जॉर्ज कोकाई, एनवीडिया;
(25) किशोर कुणाल, एनवीडिया;
(26) ज़ियाओवेई ली, एनवीडिया;
(27) चार्ली लिंड, एनवीडिया;
(28) हाओ लियू, एनवीडिया;
(29) स्टुअर्ट ओबरमैन, एनवीडिया;
(30) सुजीत उमर, एनवीडिया;
(31) श्रीधर प्रट्टी, एनवीडिया;
(23) जोनाथन रायमन, एनवीडिया;
(33) अंबर सरकार, एनवीडिया;
(34) झेंगजियांग शाओ, एनवीडिया;
(35) हनफ़ेई सन, एनवीडिया;
(36) प्रतीक पी सुथार, एनवीडिया;
(37) वरुण तेज, एनवीडिया;
(38) वॉकर टर्नर, एनवीडिया;
(39) कैझे जू, एनवीडिया;
(40) हॉक्सिंग रेन, एनवीडिया.
इस अनुभाग में हम अपनी प्रशिक्षण पद्धति और अनुप्रयोग प्रदर्शन का मूल्यांकन करते हैं। हम प्रशिक्षण पद्धति मूल्यांकन में 7B और 13B दोनों मॉडलों का अध्ययन करते हैं, और अनुप्रयोग प्रदर्शन मूल्यांकन में केवल 13B मॉडलों का। तुलना के लिए, हम दो बेसलाइन चैट मॉडल का भी मूल्यांकन करते हैं: LLaMA2-13B-Chat* और LLaMA2-70B-Chat। LLaMA2-13B-Chat* हमारे सामान्य उद्देश्य चैट निर्देश डेटासेट के साथ ठीक से ट्यून किया गया आधार LLaMA2 13B बेस मॉडल है, जो मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के साथ प्रशिक्षित मूल LLaMA2-13B-Chat मॉडल से अलग है। हमने समान मॉडल संरेखण दृष्टिकोण के तहत डोमेन अनुकूलित मॉडल और बेस मॉडल की निष्पक्ष तुलना के लिए ऐसा करना चुना। LLaMA2-70B-Chat RLHF के साथ प्रशिक्षित सार्वजनिक रूप से जारी LLaMA2-Chat मॉडल है, जिसे अत्याधुनिक (SOTA) ओपन-सोर्स चैट मॉडल माना जाता है।
ए. टोकनाइज़र
हम पहले से बताए गए चार चरण की प्रक्रिया का उपयोग करके चिप डिज़ाइन डेटासेट के लिए LLaMA2 टोकनाइज़र (जिसमें 32K टोकन शामिल हैं) को अनुकूलित करते हैं। LLaMA2 टोकनाइज़र में लगभग 9K नए टोकन जोड़े जाते हैं। अनुकूलित टोकनाइज़र विभिन्न चिप डिज़ाइन डेटासेट में टोकनाइज़ेशन दक्षता में 1.6% से 3.3% तक सुधार कर सकते हैं जैसा कि चित्र 5 में दिखाया गया है। हम कोई स्पष्ट नहीं देखते हैं
सार्वजनिक डेटा पर टोकनाइज़र दक्षता में परिवर्तन। महत्वपूर्ण बात यह है कि हमने DAPT से पहले भी कस्टम संवर्धित टोकनाइज़र का उपयोग करते समय सार्वजनिक बेंचमार्क पर LLM की सटीकता में महत्वपूर्ण गिरावट नहीं देखी है।
बी. डोमेन अनुकूली प्रीट्रेनिंग
चित्र 6 चिप डिजाइन डोमेन और ओपन डोमेन अकादमिक बेंचमार्क के लिए ऑटोएवल बेंचमार्क पर चिपनेमो मॉडल के परिणाम प्रस्तुत करता है। हमारे शोध निष्कर्षों को निम्नानुसार संक्षेपित किया जा सकता है:
डीएपीटी मॉडल खुले-डोमेन शैक्षणिक बेंचमार्क पर सटीकता में मामूली गिरावट दर्शाते हैं।
DAPT डोमेन के भीतर कार्यों पर पर्याप्त सकारात्मक प्रभाव डालता है। यह प्रभाव आंतरिक डिजाइन ज्ञान के साथ-साथ सामान्य सर्किट डिजाइन ज्ञान में महत्वपूर्ण सुधार के रूप में प्रकट होता है।
बड़े और अधिक प्रदर्शनकारी आधारभूत मॉडल के उपयोग से डोमेन-विशिष्ट कार्यों पर बेहतर ज़ीरो-शॉट परिणाम प्राप्त होते हैं। इसके अलावा, बेहतर बेस मॉडल के उपयोग से DAPT के बाद बेहतर डोमेन मॉडल प्राप्त होते हैं, जिससे इन-डोमेन कार्यों पर बेहतर प्रदर्शन होता है।
इन-डोमेन कार्यों में DAPT के कारण होने वाले सुधार, मॉडल आकार के साथ सकारात्मक सहसंबंध प्रदर्शित करते हैं, तथा बड़े मॉडल, DAPT के बाद डोमेन-विशिष्ट कार्य निष्पादन में अधिक स्पष्ट वृद्धि प्रदर्शित करते हैं।
सी. प्रशिक्षण पृथक्करण अध्ययन
हमारे एब्लेशन अध्ययनों के लिए, हमने डोमेन अनुकूली प्री-ट्रेनिंग के कई दौर आयोजित किए। हम संक्षिप्त सारांश प्रदान करते हैं और विवरण के लिए परिशिष्ट बी का संदर्भ देते हैं।
संवर्धित टोकनाइज़र और मूल टोकनाइज़र के साथ प्रशिक्षण के बीच अंतर नगण्य प्रतीत हुआ। इसलिए हम अकादमिक बेंचमार्क पर सटीकता में गिरावट का मुख्य कारण डोमेन डेटा को मानते हैं। इसके अलावा, सार्वजनिक डेटासेट को हटाने से अकादमिक बेंचमार्क सहित अधिकांश कार्यों पर केवल थोड़ा सा सुधार हुआ, वेरिलॉग कोडिंग के अपवाद के साथ, जहाँ हमने एक उल्लेखनीय अंतर देखा। इससे पता चलता है कि GitHub Verilog डेटा को शामिल करने से Verilog कोडिंग क्षमताओं में वृद्धि हुई, खासकर जब बेस फाउंडेशन मॉडल में इस डोमेन में पर्याप्त डेटा की कमी थी।
हमारे अन्वेषण में, हमने CodeLLaMA [32] की तरह एक बड़ी सीखने की दर को नियोजित करने के साथ प्रयोग किया। हमने प्रारंभिक प्रशिक्षण चरणों में प्रशिक्षण हानि में बड़ी वृद्धि देखी। हालाँकि इस दृष्टिकोण ने अंततः प्रशिक्षण और सत्यापन हानि में सुधार किया, हमने कोडिंग को छोड़कर सभी डोमेन-विशिष्ट और शैक्षणिक बेंचमार्क में पर्याप्त गिरावट देखी। हम अनुमान लगाते हैं कि एक छोटी सीखने की दर ने दोहरी भूमिका निभाई, DAPT के माध्यम से डोमेन ज्ञान के आसवन को सुविधाजनक बनाते हुए एक संतुलन बनाए रखा जो आधार मॉडल से बहुत दूर नहीं गया, इस प्रकार सामान्य प्राकृतिक भाषा क्षमताओं को संरक्षित किया।
हमने डोमेन-एडेप्टिव प्रीट्रेनिंग (DAPT) के संदर्भ में पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT) के अनुप्रयोग का भी पता लगाया। इस खोज में, हमने LoRA एडेप्टर [16] को शामिल करते हुए दो प्रयोग किए, जिसमें क्रमशः 26.4 मिलियन (छोटे) और 211.2 मिलियन (बड़े) के अतिरिक्त पैरामीटर पेश किए गए। दोनों उदाहरणों में, हमारे निष्कर्षों ने पूर्ण-पैरामीटर DAPT दृष्टिकोण की तुलना में इन-डोमेन कार्यों पर एक महत्वपूर्ण सटीकता अंतर का खुलासा किया। इसके अलावा, जब छोटे और बड़े PEFT मॉडल के बीच परिणामों की तुलना की गई, तो हमने इन-डोमेन कार्य सटीकता पर मामूली वृद्धि देखी, जबकि बड़े मॉडल में मामूली सुधार दिखा।
डी. प्रशिक्षण लागत
सभी मॉडलों को 128 A100 GPU का उपयोग करके प्रशिक्षित किया गया है। हम ChipNeMo के लिए डोमेन अनुकूली प्रीट्रेनिंग से जुड़ी लागतों का अनुमान लगाते हैं जैसा कि तालिका IV में दर्शाया गया है। यह ध्यान देने योग्य है कि DAPT एक आधारभूत मॉडल को शुरू से ही प्रीट्रेनिंग करने की कुल लागत का 1.5% से भी कम हिस्सा है।
ई. आरएजी और इंजीनियरिंग सहायक चैटबॉट
हमने डिज़ाइन चैट सहायता के प्रदर्शन का मूल्यांकन करने के लिए एक बेंचमार्क बनाया, जो RAG पद्धति का उपयोग करता है। इस बेंचमार्क में तीन श्रेणियों में 88 प्रश्न शामिल हैं: आर्किटेक्चर/डिज़ाइन/सत्यापन विनिर्देश (स्पेक्स), टेस्टबेंच रिग्रेशन डॉक्यूमेंटेशन (टेस्टबेंच), और बिल्ड इंफ्रास्ट्रक्चर डॉक्यूमेंटेशन (बिल्ड)। प्रत्येक प्रश्न के लिए, हम गोल्डन उत्तर के साथ-साथ डिज़ाइन दस्तावेज़ में पैराग्राफ़ भी निर्दिष्ट करते हैं जिसमें उत्तर के लिए प्रासंगिक ज्ञान होता है। ये प्रश्न डिज़ाइनर द्वारा डिज़ाइन दस्तावेज़ों के एक सेट के आधार पर मैन्युअल रूप से बनाए जाते हैं, जो पुनर्प्राप्ति के लिए डेटा स्टोर के रूप में होते हैं। इसमें लगभग 1.8K दस्तावेज़ शामिल हैं, जिन्हें 67K अंशों में विभाजित किया गया था, जिनमें से प्रत्येक में लगभग 512 वर्ण हैं।
सबसे पहले, हम प्रत्येक श्रेणी पर अपने डोमेन अनुकूलित पुनर्प्राप्ति मॉडल की तुलना सेंटेंस ट्रांसफॉर्मर [33] और e5_small_unsupervised [30] से करते हैं। प्रत्येक मॉडल डेटा स्टोर से अपने शीर्ष 8 अंश प्राप्त करता है।
विनिर्देश श्रेणी में प्रश्न सीधे दस्तावेजों के अंशों से लिए गए हैं, इसलिए उनके उत्तर अक्सर संक्षिप्त अंश में अच्छी तरह से समाहित होते हैं और स्पष्ट रूप से प्रश्न को संबोधित करते हैं
दूसरी ओर, टेस्टबेंच और बिल्ड श्रेणियों की क्वेरी सीधे अंशों से प्राप्त नहीं होती हैं, इसलिए उनके उत्तर अक्सर प्राप्त अंशों में स्पष्ट नहीं होते थे और उन्हें अधिक संदर्भ की आवश्यकता होती थी (विस्तृत उदाहरणों के लिए परिशिष्ट सी देखें)। यह श्रेणियों के बीच पुनर्प्राप्ति गुणवत्ता में अंतर में महत्वपूर्ण रूप से योगदान देता है।
हमने RAG के साथ और बिना कई ChipNeMo मॉडल और LLaMA2 मॉडल का मूल्यांकन किया। फिर परिणामों को मानव मूल्यांकनकर्ताओं द्वारा 10 अंक के पैमाने पर स्कोर किया गया और चित्र 8 में दिखाया गया।
हमने निम्नलिखित अवलोकन किये:
• RAG मानव स्कोर को महत्वपूर्ण रूप से बढ़ाता है। RAG LLaMA2-13B-Chat*, ChipNeMo-13B-Chat और LLaMA2-70B-Chat के स्कोर को क्रमशः 3.82, 2.19 और 5.05 तक बेहतर बनाता है। ध्यान दें कि, RAG मिस के साथ भी स्कोर आम तौर पर अधिक होते हैं, खासकर LLaMA2 मॉडल पर। हमारा अनुमान है कि अतिरिक्त इन-डोमेन संदर्भ प्रदर्शन को बढ़ाने में मदद करता है।
• चिपनेमो-13बी-चैट ने मॉडल और आरएजी मूल्यांकन में समान आकार के एलएलएएमए2-13बी-चैट* से क्रमशः 2.88 और 1.25 से बेहतर प्रदर्शन किया।
• ChipNeMo-13B-Chat with RAG, 5X बड़े मॉडल LLaMA2-70B-Chat with RAG के समान स्कोर (7.4) प्राप्त करता है, जहां LLaMA2-70B-Chat हिट पर उत्तर निकालने में बेहतर प्रदर्शन करता है; हालांकि, डोमेन अनुकूलन मिस पर इसकी भरपाई कर देता है।
• डोमेन SFT, ChipNeMo-13B-Chat के प्रदर्शन को 0.28 (RAG के साथ) और 0.33 (RAG के बिना) बेहतर बनाने में मदद करता है।
सभी मॉडलों पर सम्पूर्ण मूल्यांकन परिणाम परिशिष्ट डी में दर्शाए गए हैं।
F. EDA स्क्रिप्ट जनरेशन
EDA स्क्रिप्ट जनरेशन टास्क पर अपने मॉडल का मूल्यांकन करने के लिए, हमने दो अलग-अलग प्रकार के बेंचमार्क बनाए। पहला "आसान" और "मध्यम" कठिनाई वाले कार्यों (1-4 लाइन समाधान) का एक सेट है जिसका मूल्यांकन गोल्डन रिस्पॉन्स के साथ तुलना करके मानवीय हस्तक्षेप के बिना किया जा सकता है। इन बेंचमार्क को बनाने और उनका मूल्यांकन करने के लिए आवश्यक कार्य के कारण हमारे पास केवल हमारे पायथन टास्क के लिए यह मूल्यांकन सेट है। कार्यों का दूसरा सेट ("कठिन") वास्तविक उपयोग केस परिदृश्यों से आता है जिसे हमारे इंजीनियरों ने चुना है। ये कार्य बहुत कठिन हैं जिन्हें हल करने के लिए 10 लाइनों की आवश्यकता होती है। क्योंकि इनका स्वचालित तरीके से मूल्यांकन करना कठिन है, इसलिए हमने मानव इंजीनियरों को 0% और 100% के बीच शुद्धता का न्याय करने के लिए कहा। इन बेंचमार्क का आकार तालिका V में वर्णित है। इन बेंचमार्क के आकार और दायरे को बढ़ाने के लिए काम जारी है ताकि हम इन मॉडलों को और बेहतर बना सकें।
हमने पाया कि हमारे मॉडल हमारे कुछ कठिन कार्यों का उत्तर देने में असमर्थ थे। कार्यों के लिए कई टूल API के ज्ञान की आवश्यकता थी और मॉडल नियंत्रण प्रवाह को ठीक से व्यवस्थित रखते हुए उचित API पर निर्णय लेने में असमर्थ प्रतीत हुआ। इसे कम करने के लिए, हमने प्रत्येक प्रश्न के लिए विशिष्ट, प्रॉम्प्ट में एक मानव क्यूरेटेड संदर्भ जोड़ा। इस संदर्भ में वांछित स्क्रिप्ट को ठीक से लिखने के लिए आवश्यक विभिन्न कार्यों या विशेषताओं की व्याख्याएँ शामिल थीं। हमने इसे केवल "संदर्भ के साथ कठिन" बेंचमार्क श्रेणी के लिए प्रदान किया। यह हमें पुनर्प्राप्ति आधारित समाधान के संभावित प्रभाव का अध्ययन करने की भी अनुमति देता है, जिसे हम भविष्य के काम के लिए छोड़ देते हैं।
जैसा कि चित्र 9 में एब्लेशन परिणामों में देखा जा सकता है, हमारी समस्या के लिए DAPT और डोमेन SFT दोनों ही महत्वपूर्ण थे। DAPT के बिना, मॉडल में अंतर्निहित API की बहुत कम या कोई समझ नहीं थी और स्वचालित रूप से मूल्यांकन किए गए बेंचमार्क पर खराब प्रदर्शन किया। डोमेन SFT ने परिणामों को और बेहतर बनाया। हमारा मानना है कि ऐसा इसलिए है क्योंकि हमारा डोमेन SFT डेटा मॉडल को अंतिम स्क्रिप्ट को सबसे सीधे लागू करने वाले तरीके से प्रस्तुत करने में मदद करता है।
एक दिलचस्प परिणाम "हार्ड विद कॉन्टेक्स्ट" बेंचमार्क पर LLaMA2-70B पास दर है। यह पायथन टूल पर अधिकांश मॉडलों की तुलना में बेहतर प्रदर्शन करता है लेकिन Tcl टूल पर खराब प्रदर्शन करता है। ऐसा संभवतः इसलिए है क्योंकि जब सही संदर्भ प्रदान किया जाता है, तो LLaMA2-70B की बेहतर सामान्य पायथन कोडिंग क्षमता उन नई समस्याओं को हल करने में सक्षम होती है जिन पर इसे प्रशिक्षित नहीं किया गया है। हालाँकि, LLaMA2-70B मॉडल Tcl टूल पर अपनी कोडिंग क्षमता को सामान्यीकृत करने में असमर्थ है, संभवतः इसलिए क्योंकि इसे Tcl कोड की बड़ी मात्रा के संपर्क में नहीं लाया गया है। यह कम मात्रा या मालिकाना प्रोग्रामिंग भाषाओं की बात आने पर DAPT के लाभ को उजागर करता है।
जी. बग सारांशीकरण और विश्लेषण
बग सारांशीकरण और विश्लेषण पर हमारे मॉडल का मूल्यांकन करने के लिए हमारे पास 40 बग का एक होल्ड आउट सेट है जो सारांशीकरण के लिए आदर्श उम्मीदवार हैं। इसमें एक लंबा टिप्पणी इतिहास या अन्य डेटा शामिल है जो बग को जल्दी से सारांशित करना किसी व्यक्ति के लिए कठिन बनाता है। फिर हम मनुष्यों से सारांशीकरण के दोनों तरीकों के साथ-साथ LLM द्वारा सुझाए गए बग असाइनमेंट को रेट करने के लिए कहते हैं। मूल्यांकन मीट्रिक 7 पॉइंट लिकर्ट स्केल पर आधारित है। हमारे परिणाम चित्र 10 में शामिल हैं।
चिपनेमो-13बी-चैट मॉडल तीनों कार्यों के लिए बेस एलएलएएमए2-13बी-चैट* मॉडल से बेहतर प्रदर्शन करते हैं, जिससे तकनीकी सारांश, प्रबंधकीय सारांश और असाइनमेंट अनुशंसा के लिए 7 पॉइंट लिकर्ट स्कोर में क्रमशः 0.82, 1.09 और 0.61 का सुधार होता है। डोमेन एसएफटी प्रबंधकीय सारांश और कार्य असाइनमेंट पर डोमेन एसएफटी के बिना प्रदर्शन में भी उल्लेखनीय सुधार करता है।
हम यह परिकल्पना करते हैं कि तकनीकी सारांशीकरण कार्य के विपरीत, जिसकी गुणवत्ता और तकनीकी सामग्री मॉडल की प्राकृतिक भाषा के अर्थविज्ञान की समझ पर अधिक निर्भर करती है, प्रबंधकीय सारांश के लिए मॉडल को यह समझना आवश्यक है कि प्रमुख कर्मियों/इंजीनियर के नामों को बनाए रखते हुए इनपुट डेटा को कैसे सारांशित किया जाए। इसके लिए LLM के अधिक सावधानीपूर्वक निर्देश-आधारित फ़ाइनट्यूनिंग की आवश्यकता है।
LLaMA2-70B-Chat मॉडल भी तीनों कार्यों में बहुत अच्छा प्रदर्शन करता है, और सभी कार्यों में ChipNeMo-13B मॉडल को पीछे छोड़ देता है। ध्यान दें कि LLaMA2-70B-Chat मॉडल भी 4096 संदर्भ आकार के साथ लंबे संदर्भ चुनौतियों से ग्रस्त है, हमारा मानना है कि प्रभावी चंकएंड-कम्बाइन योजनाएँ (पदानुक्रमित और वृद्धिशील), सारांश के विभिन्न चरणों में निर्देशात्मक संकेतों का चयन, कार्य असाइनमेंट के दौरान संकेत का चयन, और कच्चे डेटा फ़ॉर्मेटिंग/प्रीप्रोसेसिंग लंबे संदर्भ चुनौती को दरकिनार करने में मदद करते हैं और LLaMA2-70B-Chat को DAPT और डोमेन SFT के बिना भी उच्च स्कोर प्राप्त करने में सक्षम बनाते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।