लेखक:
(1) मिंगजी लियू, एनवीडिया {समान योगदान};
(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};
(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};
(4) क्रिस चेंग, एनवीडिया {समान योगदान};
(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};
(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};
(7) जोना अल्बेन, एनवीडिया;
(8) हिमांशु आनंद, एनवीडिया;
(9) संमित्रा बनर्जी, एनवीडिया;
(10) इस्मेट बेराकटारोग्लू, एनवीडिया;
(11) बोनिता भास्करन, एनवीडिया;
(12) ब्रायन कैटनज़ारो, एनवीडिया;
(13) अर्जुन चौधरी, एनवीडिया;
(14) शेरोन क्ले, एनवीडिया;
(15) बिल डैली, एनवीडिया;
(16) लौरा डांग, एनवीडिया;
(17) परीक्षित देशपांडे, एनवीडिया;
(18) सिद्धनाथ ढोढ़ी, एनवीडिया;
(19) समीर हालेपेट, एनवीडिया;
(20) एरिक हिल, एनवीडिया;
(21) जियाशांग हू, एनवीडिया;
(22) सुमित जैन, एनवीडिया;
(23) ब्रुसेक खैलानी, एनवीडिया;
(24) जॉर्ज कोकाई, एनवीडिया;
(25) किशोर कुणाल, एनवीडिया;
(26) ज़ियाओवेई ली, एनवीडिया;
(27) चार्ली लिंड, एनवीडिया;
(28) हाओ लियू, एनवीडिया;
(29) स्टुअर्ट ओबरमैन, एनवीडिया;
(30) सुजीत उमर, एनवीडिया;
(31) श्रीधर प्रट्टी, एनवीडिया;
(23) जोनाथन रायमन, एनवीडिया;
(33) अंबर सरकार, एनवीडिया;
(34) झेंगजियांग शाओ, एनवीडिया;
(35) हनफ़ेई सन, एनवीडिया;
(36) प्रतीक पी सुथार, एनवीडिया;
(37) वरुण तेज, एनवीडिया;
(38) वॉकर टर्नर, एनवीडिया;
(39) कैझे जू, एनवीडिया;
(40) हॉक्सिंग रेन, एनवीडिया.
चिपनेमो चिप डिजाइन डोमेन के लिए एलएलएम को अनुकूलित करने के लिए कई डोमेन अनुकूलन तकनीकों को लागू करता है। इन तकनीकों में चिप डिजाइन डेटा के लिए कस्टम टोकेनाइजर्स, डोमेन डेटा के बड़े कॉर्पस के साथ डोमेन अनुकूली प्रीट्रेनिंग, डोमेन विशिष्ट कार्यों के साथ पर्यवेक्षित-फाइन-ट्यूनिंग और फाइन-ट्यून्ड रिट्रीवल मॉडल के साथ रिट्रीवल ऑगमेंटेड जेनरेशन शामिल हैं। हम इस अनुभाग में प्रत्येक तकनीक का विवरण दिखाएंगे।
ए. टोकनाइज़र
पूर्व-प्रशिक्षित टोकनाइज़र को अनुकूलित करते समय, मुख्य लक्ष्य डोमेन-विशिष्ट डेटा पर टोकनाइज़ेशन दक्षता में सुधार करना, सामान्य डेटासेट पर दक्षता और भाषा मॉडल प्रदर्शन को बनाए रखना और पुनः प्रशिक्षण/फाइन-ट्यूनिंग के लिए प्रयास को कम करना है। इसे प्राप्त करने के लिए, हमने चार-चरणीय दृष्टिकोण विकसित किया है:
• चरण 1: डोमेन विशिष्ट डेटा का उपयोग करके एक टोकनाइज़र को शुरू से प्रशिक्षित करना।
• चरण 2: नए टोकेनाइज़र की शब्दावली से, उन टोकन की पहचान करना जो सामान्य-उद्देश्य वाले टोकेनाइज़र में अनुपस्थित हैं और सामान्य-उद्देश्य वाले डेटासेट में शायद ही कभी पाए जाते हैं।
• चरण 3: चरण 2 में नए पहचाने गए टोकन के साथ सामान्य प्रयोजन वाले टोकनाइज़र का विस्तार करना।
• चरण 4: सामान्य प्रयोजन टोकेनाइज़र का उपयोग करके नए टोकन की एम्बेडिंग को आरंभ करना।
विशेष रूप से चरण 4 के लिए, जब कोई नया टोकन सामने आता है, तो उसे प्रीट्रेन्ड जनरल-पर्पस टोकनाइज़र का उपयोग करके टोकनाइज़ किया जाता है। नए टोकन की एम्बेडिंग जनरल-पर्पस टोकनाइज़र [24] द्वारा उत्पन्न टोकन की एम्बेडिंग को औसत करके निर्धारित की जाती है, और आउटपुट लेयर वेट को शून्य पर आरंभ किया जाता है।
चरण 2 सामान्य डेटासेट पर पूर्व-प्रशिक्षित LLM के प्रदर्शन को बनाए रखने में मदद करता है, चुनिंदा रूप से नए टोकन पेश करके जो सामान्य-उद्देश्य वाले डेटासेट में अक्सर नहीं मिलते हैं। और चरण 4 सामान्य-उद्देश्य वाले टोकनाइज़र द्वारा निर्देशित नए टोकन के एम्बेडिंग के आरंभीकरण के माध्यम से LLM को पुनः प्रशिक्षित/फाइनट्यूनिंग के लिए आवश्यक प्रयास को कम करता है।
बी. डोमेन अनुकूली प्रीट्रेनिंग
हमारे अध्ययन में, हम पूर्व-प्रशिक्षित आधार आधार मॉडल LLaMA2 7B/13B पर DAPT लागू करते हैं। प्रत्येक DAPT मॉडल को उनके संबंधित पूर्व-प्रशिक्षित आधार आधार मॉडल के भार का उपयोग करके आरंभीकृत किया जाता है। हम अपने DAPT मॉडल को ChipNeMo नाम देते हैं। हम सेक्शन III-A में दर्शाए अनुसार टोकेनाइज़र वृद्धि का उपयोग करते हैं और तदनुसार एम्बेडिंग भार आरंभ करते हैं [24]। हम मानक ऑटोरिग्रैसिव भाषा मॉडलिंग उद्देश्य को नियोजित करके डोमेन-विशिष्ट डेटा पर आगे की प्रीट्रेनिंग करते हैं। सभी मॉडल प्रशिक्षण प्रक्रियाएँ NVIDIA NeMo फ्रेमवर्क [25] का उपयोग करके संचालित की जाती हैं, जिसमें बढ़ी हुई दक्षता के लिए टेंसर समानांतरता [26] और फ्लैश अटेंशन [27] जैसी तकनीकों को शामिल किया जाता है।
चित्र 2 निर्दिष्ट हाइपरपैरामीटर के तहत ChipNeMo के प्रशिक्षण नुकसान को दर्शाता है। हम प्रशिक्षण हानि में स्पाइक्स देखते हैं। [28] में परिकल्पना के विपरीत, हम मानते हैं कि हमारे परिदृश्य में, इन स्पाइक्स को "खराब डेटा" के लिए जिम्मेदार ठहराया जा सकता है क्योंकि ये अनियमितताएं एक ही मॉडल के लिए समान प्रशिक्षण चरणों में लगातार होती हैं, यहां तक कि विभिन्न मॉडल आकारों में भी। हमने इस मुद्दे को संबोधित नहीं करने का फैसला किया, क्योंकि ये विसंगतियां बाद के प्रशिक्षण चरणों (सत्यापन हानि में कोई उल्लेखनीय गिरावट के साथ) को महत्वपूर्ण रूप से बाधित नहीं करती थीं, संभवतः कम सीखने की दर के हमारे आवेदन के कारण।
सी. पर्यवेक्षित फ़ाइन-ट्यूनिंग
DAPT के बाद, हम सुपरवाइज्ड फ़ाइन-ट्यूनिंग (SFT) के साथ मॉडल संरेखण करते हैं। हम सभी मॉडलों के लिए DAPT के समान हाइपरपैरामीटर प्रशिक्षण कॉन्फ़िगरेशन को अपनाते हैं, 128 के कम वैश्विक बैच आकार का उपयोग करने के अपवाद के साथ। सभी SFT डेटा नीचे दिए गए चैट टेम्पलेट के अनुसार संरचित है:
<extra_id_0>सिस्टम\n{सिस्टम}
<extra_id_1>उपयोगकर्ता\n{user_utterance}
<extra_id_1>सहायक\n{chipnemo_response}
…
हम एक ऑटोरिग्रैसिव ऑप्टिमाइज़ेशन उद्देश्य को नियोजित करते हैं, एक ऐसी रणनीति को लागू करते हैं जहाँ सिस्टम और उपयोगकर्ता संकेतों से उत्पन्न होने वाले टोकन से जुड़े नुकसानों को छिपाया जाता है [5]। यह दृष्टिकोण सुनिश्चित करता है कि बैकप्रोपेगेशन के दौरान, हमारा ध्यान विशेष रूप से उत्तर टोकन के अनुकूलन की ओर निर्देशित होता है।
हमने अपने डोमेन SFT डेटासेट को, जिसमें लगभग 1.1k सैंपल शामिल हैं, 128k सैंपल के अधिक व्यापक सामान्य चैट SFT डेटासेट के साथ संयोजित किया। फिर हमने डेटा पर रैंडम शफल लागू करने के बाद एकल युग के लिए फ़ाइन-ट्यूनिंग में लगे रहे। हमने एक से अधिक युगों के लिए डोमेन-विशिष्ट SFT डेटासेट के संवर्द्धन से जुड़े प्रयोग किए। हालाँकि, यह स्पष्ट हो गया कि मॉडल ने इन-डोमेन प्रश्नों के साथ प्रस्तुत किए जाने पर तेजी से ओवरफिटिंग के संकेत प्रदर्शित किए, अक्सर डोमेन SFT डेटासेट से अप्रासंगिक उत्तरों को दोहराते हुए।
इसके अतिरिक्त, हमने किसी भी डोमेन-विशिष्ट SFT डेटा को छोड़कर, केवल सामान्य चैट डेटासेट का उपयोग करके एक अतिरिक्त SFT आयोजित किया। स्पष्टता के लिए, हम अपने सभी ChipNeMo मॉडल को निम्नानुसार नामित करते हैं:
चिपनेमो-चैट: डोमेन और सामान्य चैट डेटा दोनों के साथ परिष्कृत मॉडल;
चिपनेमो-चैट (noDSFT): विशेष रूप से सामान्य चैट डेटा के साथ परिष्कृत मॉडल।
हमने चैट संरेखित मॉडल पर सीधे DAPT के साथ प्रयोग भी किया, जैसे कि LLaMA2-चैट मॉडल। हमने पाया कि DAPT ने मॉडल के संरेखण को काफी हद तक खराब कर दिया, जिससे परिणामी मॉडल डाउनस्ट्रीम कार्यों के लिए बेकार हो गया।
डी. पुनर्प्राप्ति-संवर्धित पीढ़ी
यह सर्वविदित है कि एलएलएम गलत पाठ उत्पन्न कर सकते हैं, जिसे मतिभ्रम कहा जाता है [29]। हालाँकि यह घटना पूरी तरह से समझ में नहीं आई है, फिर भी हमें मतिभ्रम को कम करना चाहिए क्योंकि वे विशेष रूप से इंजीनियरिंग सहायक चैटबॉट संदर्भ में समस्याग्रस्त हैं, जहाँ सटीकता महत्वपूर्ण है। हमारा प्रस्ताव पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) विधि का लाभ उठाने का है। आरएजी प्रश्न के साथ प्रॉम्प्ट में शामिल करने के लिए डेटाबेस से प्रासंगिक अंशों को पुनः प्राप्त करने का प्रयास करता है, जो एलएलएम को अधिक सटीक उत्तर देने का आधार देता है। हम पाते हैं कि आरएजी के लिए एक डोमेन अनुकूलित भाषा मॉडल का उपयोग करने से हमारे डोमेन विशिष्ट प्रश्नों पर उत्तर की गुणवत्ता में काफी सुधार होता है। साथ ही, हम पाते हैं कि एक ऑफ-द-शेल्फ अप्रशिक्षित पूर्व-प्रशिक्षित सघन पुनर्प्राप्ति मॉडल
हमने टेवाट्रॉन फ्रेमवर्क [31] का उपयोग करके 3000 डोमेन विशिष्ट ऑटो-जेनरेटेड नमूनों के साथ e5_small_unsupervised मॉडल [30] को फाइन-ट्यूनिंग करके अपना डोमेन अनुकूलित पुनर्प्राप्ति मॉडल बनाया। नमूना निर्माण और प्रशिक्षण प्रक्रिया परिशिष्ट सी में शामिल हैं।
रिट्रीवल मॉडल को ठीक करने से मिलने वाले महत्वपूर्ण लाभों के बावजूद, तथ्य यह है कि रिट्रीवल अभी भी उन क्वेरीज़ के साथ संघर्ष करता है जो सीधे दस्तावेज़ कॉर्पस में मौजूद अंशों से मेल नहीं खाते हैं या अधिक संदर्भ की आवश्यकता होती है जो अंश में मौजूद नहीं है। दुर्भाग्य से, ये क्वेरीज़ उन क्वेरीज़ का अधिक प्रतिनिधित्व करती हैं जो वास्तविक स्थितियों में इंजीनियरों द्वारा पूछी जाएंगी। डोमेन अनुकूलित भाषा मॉडल के साथ रिट्रीवल को जोड़ना इस समस्या को हल करने का एक तरीका है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।