लेखक:  (1) मिंगजी लियू, एनवीडिया {समान योगदान};  (2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};  (3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};  (4) क्रिस चेंग, एनवीडिया {समान योगदान};  (5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};  (6) रोंगजियान लियांग, एनवीडिया {समान योगदान};  (7) जोना अल्बेन, एनवीडिया;  (8) हिमांशु आनंद, एनवीडिया;  (9) संमित्रा बनर्जी, एनवीडिया;  (10) इस्मेट बेराकटारोग्लू, एनवीडिया;  (11) बोनिता भास्करन, एनवीडिया;  (12) ब्रायन कैटनज़ारो, एनवीडिया;  (13) अर्जुन चौधरी, एनवीडिया;  (14) शेरोन क्ले, एनवीडिया;  (15) बिल डैली, एनवीडिया;  (16) लौरा डांग, एनवीडिया;  (17) परीक्षित देशपांडे, एनवीडिया;  (18) सिद्धनाथ ढोढ़ी, एनवीडिया;  (19) समीर हालेपेट, एनवीडिया;  (20) एरिक हिल, एनवीडिया;  (21) जियाशांग हू, एनवीडिया;  (22) सुमित जैन, एनवीडिया;  (23) ब्रुसेक खैलानी, एनवीडिया;  (24) जॉर्ज कोकाई, एनवीडिया;  (25) किशोर कुणाल, एनवीडिया;  (26) ज़ियाओवेई ली, एनवीडिया;  (27) चार्ली लिंड, एनवीडिया;  (28) हाओ लियू, एनवीडिया;  (29) स्टुअर्ट ओबरमैन, एनवीडिया;  (30) सुजीत उमर, एनवीडिया;  (31) श्रीधर प्रट्टी, एनवीडिया;  (23) जोनाथन रायमन, एनवीडिया;  (33) अंबर सरकार, एनवीडिया;  (34) झेंगजियांग शाओ, एनवीडिया;  (35) हनफ़ेई सन, एनवीडिया;  (36) प्रतीक पी सुथार, एनवीडिया;  (37) वरुण तेज, एनवीडिया;  (38) वॉकर टर्नर, एनवीडिया;  (39) कैझे जू, एनवीडिया;  (40) हॉक्सिंग रेन, एनवीडिया.  लिंक की तालिका   सार और परिचय   डेटासेट   चिपनेमो डोमेन अनुकूलन विधियाँ   एलएलएम अनुप्रयोग   मूल्यांकन   बहस   संबंधित काम   निष्कर्ष   आभार, योगदान और संदर्भ   अनुबंध  VI. चर्चा   A. डोमेन अनुकूलन के लिए विचार  यद्यपि डोमेन-अनुकूलित ChipNeMo मॉडल अपने संगत आधार मॉडल की तुलना में महत्वपूर्ण सुधार प्राप्त करते हैं, हम यह भी देखते हैं कि बड़े LLaMA2 70B कभी-कभी ChipNeMo के समान सटीकता प्राप्त कर सकते हैं, जैसा कि चित्र 8, 9 और 10 में देखा जा सकता है। हाल के कार्यों ने चिप डिजाइन कार्यों को करने के लिए इन शक्तिशाली मॉडलों का लाभ उठाया है।  हालांकि, एक छोटे मॉडल के उपयोग से प्राप्त लागत-दक्षता लाभों पर विचार करना महत्वपूर्ण है। पोप एट अल। प्रदर्शित करते हैं कि समान विलंबता लक्ष्यों के लिए 8B मॉडल पर अनुमान लागत 62B मॉडल की तुलना में 8-12 गुना कम है [34]। इसके अलावा, मॉडल के आकार में कमी से अनुमान की गति में नाटकीय वृद्धि हो सकती है, जिससे मॉडल को एकल GPU या नोड में फिट होने की अनुमति मिलती है, जहां यह अन्यथा नहीं हो सकता [35]। हमारे ChipNeMo 13B मॉडल को LLaMA2 70B मॉडल के विपरीत, बिना किसी क्वांटिज़ेशन के एकल A100 GPU की मेमोरी में लोड किया जा सकता है। इससे सामान्य GPU संचालन के तहत अनुमान की गति में उल्लेखनीय वृद्धि होती है, जिसे GPU के अंडरक्लॉक होने पर अनुमान लागत में उल्लेखनीय कमी के लिए बदला जा सकता है।  इस प्रकार, उत्पादन परिवेश में बड़े सामान्य प्रयोजन मॉडल बनाम छोटे विशेषीकृत मॉडल के उपयोग के बीच निर्णय लेते समय निम्नलिखित मानदंडों पर विचार किया जाना चाहिए:    छोटे डोमेन अनुकूलित मॉडल बड़े सामान्य प्रयोजन मॉडल की सटीकता से मेल खा सकते हैं। जबकि डोमेन अनुकूलन में अतिरिक्त अग्रिम लागत लगती है, छोटे मॉडल के उपयोग से परिचालन लागत में काफी कमी आती है। • प्रशिक्षण और अनुमान व्यापार-बंद:    जैसा कि चित्र 6, 9 और 10 से देखा जा सकता है, डोमेन अनुकूलित मॉडल उन कार्यों पर सबसे अधिक सुधार दिखाते हैं जो सार्वजनिक डोमेन में शायद ही कभी मौजूद होते हैं, जैसे कि मालिकाना भाषाओं या पुस्तकालयों में कोड लिखना। वास्तव में, हमारा डेटा दिखाता है कि जब उन्हें हाथ से चुने गए संदर्भ प्रदान किए जाते हैं, तब भी बड़े सामान्य-उद्देश्य वाले मॉडल को ऐसे परिदृश्यों में डोमेन अनुकूलित मॉडल की सटीकता से मेल खाने में कठिनाई होती है। • उपयोग के मामले की विशिष्टता:    डोमेन अनुकूलन तब सबसे अच्छा काम करता है जब प्रशिक्षण डेटा की बड़ी मात्रा होती है, यानी अरबों प्रशिक्षण टोकन। यह अक्सर बड़े निगमों और परियोजनाओं के लिए होता है, जिन्होंने बड़ी मात्रा में आंतरिक दस्तावेज़ और कोड जमा किए हैं, लेकिन छोटे व्यवसायों या परियोजनाओं के लिए यह ज़रूरी नहीं है। • डोमेन डेटा की उपलब्धता:    किसी विशेष कार्य के लिए सामान्य-उद्देश्य मॉडल को ठीक करना संभव है, लेकिन डोमेन अनुकूलित मॉडल डोमेन में कार्यों के विविध सेट के लिए उपयुक्त हैं। हालाँकि हम इस कार्य में ChipNeMo मॉडल के लिए केवल तीन उपयोग मामलों का प्रदर्शन करते हैं, लेकिन इसे पर्याप्त SFT डेटा के साथ अन्य उपयोग मामलों के लिए आसानी से फिर से इस्तेमाल किया जा सकता है। • अंतिम उपयोग मामले की विविधता:   बी. प्रदर्शन अंतर  हालाँकि ChipNeMo हमारे चयनित अनुप्रयोगों में प्रभावशाली परिणाम प्राप्त करता है जैसा कि परिशिष्ट E में दिखाया गया है, सभी अनुप्रयोगों के लिए मूल्यांकन परिणाम अभी भी मानव विशेषज्ञ प्रदर्शन के साथ एक विचारणीय अंतर दिखाते हैं। हम इस प्रदर्शन अंतर को पाटने के लिए निम्नलिखित तरीकों पर विचार कर रहे हैं:    हम DAPT डेटासेट का विस्तार करके इसमें अधिक आंतरिक स्वामित्व डेटा शामिल कर सकते हैं। इसके अलावा, हम SFT के लिए अधिक कार्य-विशिष्ट निर्देश सेट जोड़ने की योजना बना रहे हैं, क्योंकि साक्ष्य दर्शाते हैं कि कार्य-विशिष्ट SFT मूल्यांकन परिणामों को सार्थक रूप से बेहतर बनाता है। 1) डेटा संग्रह:    हमें उम्मीद है कि बेहतर और बड़े बेस मॉडल प्रदर्शन को बेहतर बना सकते हैं, जैसे कि LLaMA2 70B। हम कोड जनरेशन कार्यों के लिए कोड LLaMA [32] जैसे कोड-विशिष्ट बेस मॉडल पर DAPT लागू करने का भी पता लगा सकते हैं। 2) बेस मॉडल:    हम चिपनेमो चैट मॉडल पर मानव प्रतिक्रिया (आरएलएचएफ) [36] से सुदृढीकरण सीखने की भी योजना बना रहे हैं ताकि इसे और अधिक बहुमुखी बनाया जा सके। हम सामान्य प्रयोजन डेटासेट पर प्रशिक्षित पूर्व-प्रशिक्षित इनाम मॉडल का लाभ उठाने की योजना बना रहे हैं। हम चुनौती को दूर करने के लिए लंबे संदर्भ प्रशिक्षण [37] का संचालन करने की भी योजना बना रहे हैं, जहाँ लंबे संदर्भ की आवश्यकता होती है, उदाहरण के लिए बग सारांश अनुप्रयोग में। सामान्य तौर पर, लंबे संदर्भ समर्थन से चैट सहायता के साथ-साथ कोड जनरेशन के लिए पुनर्प्राप्ति-आधारित विधियों को बेहतर बनाने में मदद मिलेगी। 3) प्रशिक्षण:    हम इंजीनियरिंग सहायक चैटबॉट और EDA स्क्रिप्ट निर्माण दोनों के लिए बेहतर RAG विधियों की आगे जांच करेंगे। इंजीनियरिंग सहायक चैटबॉट के लिए, हम विभिन्न अनुप्रयोग क्षेत्रों के लिए अलग-अलग डेटा स्टोर बना सकते हैं। हम समस्याओं के विविध सेट के लिए प्रासंगिक संदर्भ खोजने के लिए RAG के साथ एंटरप्राइज़ सर्च इंजन को भी एकीकृत कर सकते हैं। कोड निर्माण के लिए, हम मौजूदा कोड और दस्तावेज़ीकरण से संदर्भ की स्वचालित पुनर्प्राप्ति की जांच कर सकते हैं। 4) पुनर्प्राप्ति:   सी. एजेंट-आधारित डिज़ाइन पद्धतियाँ  इस कार्य में हमने जिन उपयोग मामलों का प्रयोग किया है, वे एलएलएम की त्वरित और प्रतिक्रिया क्षमता के सीधे अनुप्रयोग हैं। एजेंट्स का तात्पर्य एलएलएम के उपयोग से है, जो कि की जाने वाली क्रियाओं के अनुक्रम को चुनने के लिए है, जहाँ एलएलएम बाहरी उपकरणों को चलाने के लिए एक तर्क इंजन के रूप में कार्य कर रहा है। चिप डिज़ाइन प्रक्रियाओं में कई मौजूदा EDA उपकरण और पद्धतियाँ शामिल हैं। हमारा मानना है कि इनमें से कुछ पद्धतियाँ डोमेन-अनुकूलित एलएलएम जैसे चिपनेमो मॉडल द्वारा संचालित एजेंटों द्वारा संचालित की जा सकती हैं। हम भविष्य में सत्यापन और अनुकूलन के लिए एजेंट-आधारित डिज़ाइन पद्धतियों पर काम करने की योजना बना रहे हैं।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

चिपनेमो: चिप डिजाइन के लिए डोमेन-अनुकूलित एलएलएम: चर्चा

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps