लेखक:
(1) मिंगजी लियू, एनवीडिया {समान योगदान};
(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};
(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};
(4) क्रिस चेंग, एनवीडिया {समान योगदान};
(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};
(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};
(7) जोना अल्बेन, एनवीडिया;
(8) हिमांशु आनंद, एनवीडिया;
(9) संमित्रा बनर्जी, एनवीडिया;
(10) इस्मेट बेराकटारोग्लू, एनवीडिया;
(11) बोनिता भास्करन, एनवीडिया;
(12) ब्रायन कैटनज़ारो, एनवीडिया;
(13) अर्जुन चौधरी, एनवीडिया;
(14) शेरोन क्ले, एनवीडिया;
(15) बिल डैली, एनवीडिया;
(16) लौरा डांग, एनवीडिया;
(17) परीक्षित देशपांडे, एनवीडिया;
(18) सिद्धनाथ ढोढ़ी, एनवीडिया;
(19) समीर हालेपेट, एनवीडिया;
(20) एरिक हिल, एनवीडिया;
(21) जियाशांग हू, एनवीडिया;
(22) सुमित जैन, एनवीडिया;
(23) ब्रुसेक खैलानी, एनवीडिया;
(24) जॉर्ज कोकाई, एनवीडिया;
(25) किशोर कुणाल, एनवीडिया;
(26) ज़ियाओवेई ली, एनवीडिया;
(27) चार्ली लिंड, एनवीडिया;
(28) हाओ लियू, एनवीडिया;
(29) स्टुअर्ट ओबरमैन, एनवीडिया;
(30) सुजीत उमर, एनवीडिया;
(31) श्रीधर प्रट्टी, एनवीडिया;
(23) जोनाथन रायमन, एनवीडिया;
(33) अंबर सरकार, एनवीडिया;
(34) झेंगजियांग शाओ, एनवीडिया;
(35) हनफ़ेई सन, एनवीडिया;
(36) प्रतीक पी सुथार, एनवीडिया;
(37) वरुण तेज, एनवीडिया;
(38) वॉकर टर्नर, एनवीडिया;
(39) कैझे जू, एनवीडिया;
(40) हॉक्सिंग रेन, एनवीडिया.
A. DAPT डेटासेट
डोमेन-एडेप्टिव प्री-ट्रेनिंग (DAPT) के दौरान, हम NVIDIA-स्वामित्व वाले चिप डिज़ाइन विशिष्ट डेटा स्रोतों और सार्वजनिक रूप से उपलब्ध डेटासेट के संयोजन से एक डेटासेट इकट्ठा करते हैं।
चिप डिज़ाइन डेटासेट: हमारे आंतरिक डेटासेट में चिप डिज़ाइन से संबंधित विविध प्रकार के टेक्स्ट स्रोत शामिल हैं, जो डिज़ाइन, सत्यापन, बुनियादी ढाँचे और आंतरिक दस्तावेज़ीकरण को कवर करते हैं। तालिका I फ़िल्टरिंग के बाद एकत्र किए गए डेटा का विवरण और LLaMA2 टोकनाइज़र का उपयोग करके टोकन की संगत संख्या प्रदान करती है। हम सभी प्रासंगिक आंतरिक डेटा एकत्र करके, फिर फ़ाइल नाम एक्सटेंशन के आधार पर फ़ाइल प्रकार के अनुसार फ़िल्टर करके और मशीन-जनरेटेड और मानव-लिखित सामग्री के बीच अंतर करके डेटासेट का निर्माण करते हैं। हालाँकि हमने तीन विशिष्ट उपयोग मामलों पर मूल्यांकन किया, लेकिन हमने डेटासेट को इन उपयोग मामलों के लिए प्रासंगिक स्रोतों तक सीमित नहीं रखा क्योंकि हमारा मानना था कि अतिरिक्त डोमेन ज्ञान को शामिल करने से प्रदर्शन में सुधार होगा। संग्रह, सफाई और फ़िल्टरिंग के बाद, आंतरिक डेटा प्रशिक्षण कॉर्पस में 23.1 बिलियन टोकन हैं। डेटा संग्रह प्रक्रिया के आगे के विवरण परिशिष्ट A में शामिल हैं।
सार्वजनिक डेटासेट: हम विभिन्न स्रोतों से सार्वजनिक रूप से उपलब्ध डेटा के नमूने के साथ चिप डिज़ाइन विशिष्ट डेटा को बढ़ाते हैं, जो कि मूलभूत बड़े भाषा मॉडल के विकास में एक सामान्य अभ्यास है। हमारा दृष्टिकोण अन्य भाषा मॉडल से सार्वजनिक प्रशिक्षण डेटा का पुन: उपयोग करना था, इस शर्त के साथ कि यह सार्वजनिक रूप से सुलभ और ओपन सोर्सिंग के अनुकूल होना चाहिए। ये डेटासेट LLaMA2 [5] में उपयोग किए गए प्रीट्रेनिंग डेटा के साथ उच्च स्तर का सहसंबंध प्रदर्शित करते हैं, जिसका उद्देश्य DAPT के दौरान सामान्य ज्ञान और प्राकृतिक भाषा क्षमताओं को संरक्षित करना है। ChipNeMo द्वारा उपयोग किए जाने वाले सार्वजनिक डेटासेट को दो समूहों में वर्गीकृत किया जा सकता है, प्राकृतिक भाषा और कोड। प्राकृतिक भाषा घटक के लिए, हम विकिपीडिया डेटा [17] से आकर्षित होते हैं, क्योंकि इसे व्यापक रूप से उच्च डेटा गुणवत्ता के लिए माना जाता है। यह सुनिश्चित करने के लिए कि समग्र डेटासेट पूर्व-प्रशिक्षण वितरण का प्रतिनिधि है, हम एक उप-नमूनाकरण ऑपरेशन करते हैं जिसके परिणामस्वरूप कुल प्रशिक्षण टोकन का लगभग 9.2% इन सार्वजनिक डेटासेट से नमूना लिया जाता है, जिसमें प्राकृतिक भाषा और कोड का संतुलित प्रतिनिधित्व होता है।
डेटा मिश्रण: हमारे द्वारा एकत्रित डोमेन डेटा का एक महत्वपूर्ण हिस्सा विभिन्न स्रोतों से अननोटेड कोड से बना है। डोमेन-विशिष्ट ज्ञान के मॉडल की समझ को बढ़ाने के प्रयास में, हमने 2 से 4 प्रशिक्षण युगों की अवधि में प्राकृतिक भाषा डेटा, विशेष रूप से डिज़ाइन दस्तावेज़ों को समवर्ती रूप से अपसैंपलिंग करते हुए कोड डेटा का डाउनसैंपलिंग किया। हमने डेटा के प्रतिनिधित्व को भी बढ़ाया जिसे हमने डाउनस्ट्रीम अनुप्रयोगों, जैसे कि मानव-लिखित EDA टूल स्क्रिप्ट के लिए अधिक प्रासंगिक माना। इसके अलावा, हमने 1 युग के लिए सार्वजनिक रूप से उपलब्ध डोमेन डेटा को शामिल किया। प्रशिक्षण के लिए टोकन वितरण का विवरण तालिका I में दिखाया गया है।
बी. एसएफटी निर्देश डेटा
सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) के दौरान, हम एक सामान्य चैट SFT निर्देश डेटासेट का उपयोग करते हैं जो वाणिज्यिक उपयोग के लिए सुलभ है। डेटासेट में बड़े पैमाने पर सार्वजनिक रूप से उपलब्ध निर्देश अनुवर्ती डेटासेट शामिल हैं जिनमें OASST [19], FLAN [20], P3 [21] और एक व्यापक डोमेन स्वामित्व डेटासेट की एक छोटी राशि शामिल है जिसमें विभिन्न विषय जैसे कि विचार-मंथन, ओपन-एंडेड प्रश्न उत्तर, पुनर्लेखन, सारांश आदि शामिल हैं। यह ध्यान रखना महत्वपूर्ण है कि हम यहां जिस SFT निर्देश डेटा पर चर्चा कर रहे हैं वह सामान्य प्राकृतिक भाषा कार्यों पर केंद्रित है और इसमें चिप डिज़ाइन में डाउनस्ट्रीम उपयोग मामलों से संबंधित कोई जानकारी या कार्य शामिल नहीं है। कुल मिलाकर, इस डेटासेट में 128,000 प्रशिक्षण नमूने शामिल हैं।
इसके अतिरिक्त, हमने मॉडल को डाउनस्ट्रीम उपयोग मामलों के साथ संरेखित करने के लिए एक डोमेन-विशिष्ट निर्देश डेटासेट को सावधानीपूर्वक इकट्ठा किया। इन उदाहरणों को विषय वस्तु विशेषज्ञों द्वारा सावधानीपूर्वक तैयार किया गया है और इन्हें एकल-मोड़ प्रश्न और उत्तर के रूप में प्रारूपित किया गया है। तालिका II हमारे डोमेन-विशिष्ट निर्देश डेटासेट की मात्रा को दर्शाती है। यह ध्यान देने योग्य है कि डोमेन-विशिष्ट निर्देश डेटासेट में प्रशिक्षण नमूनों की कुल संख्या जनरेटिव चैट निर्देश डेटा की व्यापक मात्रा की तुलना में काफी कम है।
सी. ऑटोइवल
विभिन्न मॉडलों की सटीकता का शीघ्र और मात्रात्मक रूप से आकलन करने के लिए, हमने प्रत्येक उपयोग के मामले के लिए बहुविकल्पीय प्रश्न-उत्तर प्रारूपों के रूप में संरचित मूल्यांकन मानदंड स्थापित किए, जो कि स्थापित बेंचमार्क, जैसे एमएमएलयू [22] के साथ निकटता से संरेखित करने के लिए डिज़ाइन किए गए हैं। इन बहुविकल्पीय प्रश्नों को तैयार करने की प्रक्रिया में, डोमेन विशेषज्ञों के साथ सहयोग महत्वपूर्ण था। लक्ष्य यह सुनिश्चित करना था कि प्रत्येक प्रश्न में कम से कम एक जटिल उत्तर विकल्प शामिल हो, जिससे सीमित डोमेन विशेषज्ञता वाले व्यक्तियों के लिए चुनौती पेश हो। हमारे डोमेन-विशिष्ट एसएफटी के डेटा के साथ प्रश्नों के किसी भी अनजाने संदूषण को रोकने के लिए सावधानीपूर्वक ध्यान दिया गया था। प्रति-उपयोग-मामला बेंचमार्क के अलावा, सामान्य सर्किट डिजाइन ज्ञान के लिए एक अतिरिक्त बेंचमार्क बनाया गया था, जिसमें एनालॉग और डिजिटल दोनों डिजाइन विषय शामिल थे। मूल्यांकन बेंचमार्क के लिए बहुविकल्पीय प्रश्नों की संख्या तालिका III में दिखाई गई है।
जब हम उपरोक्त बेंचमार्क पर परिणाम रिपोर्ट करते हैं, तो हम परीक्षण प्रक्रिया में भिन्नता और शोर के प्रभावों को कम करने के लिए पाँच अलग-अलग रन से प्राप्त औसत परिणाम लेते हैं। प्रत्येक पुनरावृत्ति में 5-शॉट उदाहरणों का एक सेट होता है, जिसमें प्रत्येक व्यक्तिगत रन में बदलाव पेश किए जाते हैं।
इन डोमेन-विशिष्ट मूल्यांकन बेंचमार्क के अलावा, हम आम तौर पर इस्तेमाल किए जाने वाले सार्वजनिक रूप से उपलब्ध एलएलएम अकादमिक बेंचमार्क भी शामिल करते हैं। इसके अलावा, हम पायथन के लिए ह्यूमनइवल [23] और वेरिलॉग के लिए वेरिलॉगइवल [12] का मूल्यांकन करके मॉडल की कोड जनरेशन क्षमताओं को मापते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।