paint-brush
चिपनेमो: चिप डिजाइन के लिए डोमेन-अनुकूलित एलएलएम: आभार, योगदान और संदर्भद्वारा@textmodels

चिपनेमो: चिप डिजाइन के लिए डोमेन-अनुकूलित एलएलएम: आभार, योगदान और संदर्भ

द्वारा Writings, Papers and Blogs on Text Models7m2024/06/06
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने चिपनेमो प्रस्तुत किया है, जो चिप डिजाइन के लिए एलएलएम को बढ़ाने के लिए डोमेन अनुकूलन का उपयोग करता है, जिससे बेहतर प्रदर्शन के साथ मॉडल आकार में 5 गुना तक की कमी आती है।
featured image - चिपनेमो: चिप डिजाइन के लिए डोमेन-अनुकूलित एलएलएम: आभार, योगदान और संदर्भ
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) मिंगजी लियू, एनवीडिया {समान योगदान};

(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};

(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};

(4) क्रिस चेंग, एनवीडिया {समान योगदान};

(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};

(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};

(7) जोना अल्बेन, एनवीडिया;

(8) हिमांशु आनंद, एनवीडिया;

(9) संमित्रा बनर्जी, एनवीडिया;

(10) इस्मेट बेराकटारोग्लू, एनवीडिया;

(11) बोनिता भास्करन, एनवीडिया;

(12) ब्रायन कैटनज़ारो, एनवीडिया;

(13) अर्जुन चौधरी, एनवीडिया;

(14) शेरोन क्ले, एनवीडिया;

(15) बिल डैली, एनवीडिया;

(16) लौरा डांग, एनवीडिया;

(17) परीक्षित देशपांडे, एनवीडिया;

(18) सिद्धनाथ ढोढ़ी, एनवीडिया;

(19) समीर हालेपेट, एनवीडिया;

(20) एरिक हिल, एनवीडिया;

(21) जियाशांग हू, एनवीडिया;

(22) सुमित जैन, एनवीडिया;

(23) ब्रुसेक खैलानी, एनवीडिया;

(24) जॉर्ज कोकाई, एनवीडिया;

(25) किशोर कुणाल, एनवीडिया;

(26) ज़ियाओवेई ली, एनवीडिया;

(27) चार्ली लिंड, एनवीडिया;

(28) हाओ लियू, एनवीडिया;

(29) स्टुअर्ट ओबरमैन, एनवीडिया;

(30) सुजीत उमर, एनवीडिया;

(31) श्रीधर प्रट्टी, एनवीडिया;

(23) जोनाथन रायमन, एनवीडिया;

(33) अंबर सरकार, एनवीडिया;

(34) झेंगजियांग शाओ, एनवीडिया;

(35) हनफ़ेई सन, एनवीडिया;

(36) प्रतीक पी सुथार, एनवीडिया;

(37) वरुण तेज, एनवीडिया;

(38) वॉकर टर्नर, एनवीडिया;

(39) कैझे जू, एनवीडिया;

(40) हॉक्सिंग रेन, एनवीडिया.

लिंक की तालिका

IX. आभार

लेखक निम्नलिखित को धन्यवाद देना चाहते हैं: NVBugs एकीकरण पर उनके समर्थन के लिए NVIDIA आईटी टीम; सुरक्षा मुद्दों पर उनके समर्थन के लिए NVIDIA हार्डवेयर सुरक्षा टीम; ChipNeMo मॉडलों के प्रशिक्षण और अनुमान पर उनके समर्थन और मार्गदर्शन के लिए NVIDIA NeMo टीम; परियोजना के लिए GPU प्रशिक्षण और अनुमान संसाधनों का समर्थन करने के लिए NVIDIA अवसंरचना टीम; उनके समर्थन और अंतर्दृष्टि के लिए NVIDIA हार्डवेयर डिजाइन टीम।

X. योगदान

मिंगजी लियू ने डीएपीटी और एसएफटी मॉडल प्रशिक्षण आयोजित किया।


टेओडोर-डुमित्रु एने, रॉबर्ट किर्बी ने अनुमान और अनुप्रयोग मूल्यांकन बुनियादी ढांचे का विकास किया।


क्रिस चेंग ने आरएजी फ्रेमवर्क विकसित किया।


नाथेनियल पिंकनी ने प्रशिक्षण के लिए डेटा सेट एकत्रित और तैयार किया।


रोंगजियान लियांग ने कस्टम टोकेनाइजर्स विकसित किए।


वॉकर टर्नर, चार्ली लिंड, जॉर्ज कोकाई ने एक सामान्य सर्किट डिजाइन ज्ञान बेंचमार्क विकसित किया।


सिद्धनाथ ढोढ़ी, इस्मेट बायराक्तरोग्लू, हिमांशु आनंद, एरिक हिल ने इंजीनियरिंग सहायक चैटबॉट डिजाइन किया, डोमेन निर्देश डेटासेट, मूल्यांकन बेंचमार्क प्रदान किए और मूल्यांकन किया।


परीक्षित देशपांडे, झेंगजियांग शाओ, कैझे जू, जियाशांग हू, लौरा डांग, शियाओवेई ली, हाओ लियू, अंबर सरकार ने इंजीनियरिंग सहायक चैटबॉट एप्लीकेशन विकसित किया।


श्रीधर प्रट्टी, किशोर कुणाल, वरुण तेज, सुमित जैन, सुजीत उमर, प्रतीक पी सुथार, हनफेई सन ने ईडीए स्क्रिप्ट जनरेशन एप्लीकेशन विकसित किया, डोमेन निर्देश डेटासेट और मूल्यांकन बेंचमार्क प्रदान किए।


बोनिता भास्करन, अर्जुन चौधरी, संमित्रा बनर्जी ने बग सारांशीकरण और विश्लेषण एप्लिकेशन विकसित किया, डोमेन निर्देश डेटासेट और मूल्यांकन बेंचमार्क प्रदान किए।


ब्रुसेक खैलानी, स्टुअर्ट ओबरमैन, शेरोन क्ले, समीर हालेपेट, जोनाथन रेमन, ब्रायन कैटनज़ारो, जोना एल्बेन, बिल डैली ने एआई अनुसंधान और हार्डवेयर इंजीनियरिंग के दृष्टिकोण से सलाह दी।


हॉक्सिंग रेन ने अनुसंधान का डिजाइन तैयार किया और उसका नेतृत्व किया।

प्रतिक्रिया दें संदर्भ

[1] बी. खैलानी एट अल., “मशीन लर्निंग के साथ चिप डिज़ाइन में तेजी लाना,” आईईईई माइक्रो, वॉल्यूम 40, नंबर 6, पृष्ठ 23-32, 2020।

[2] एच. रेन और एम. फोजटिक, “आमंत्रित- एनवीसेल: सुदृढीकरण सीखने के साथ उन्नत प्रौद्योगिकी नोड्स में मानक सेल लेआउट,” 2021 58वें एसीएम/आईईईई डिज़ाइन ऑटोमेशन सम्मेलन (डीएसी), 2021 में।


[3] आर. रॉय एट अल., “प्रीफ़िक्सआरएल: डीप रीइन्फोर्समेंट लर्निंग का उपयोग करके समानांतर प्रीफ़िक्स सर्किट का अनुकूलन,” 2021 58वें एसीएम/आईईईई डिज़ाइन ऑटोमेशन कॉन्फ्रेंस (डीएसी), 2021 में।


[4] डब्ल्यू.-एल. चियांग एट अल., “विकुना: एक ओपन-सोर्स चैटबॉट जो 90%* चैटजीपीटी गुणवत्ता के साथ जीपीटी-4 को प्रभावित करता है,” मार्च 2023. [ऑनलाइन]। उपलब्ध: https://lmsys.org/blog/2023-03-30-vicuna/


[5] एच. टूव्रोन एट अल., “लामा 2: ओपन फ़ाउंडेशन और फ़ाइन-ट्यून्ड चैट मॉडल,” 2023.


[6] एस. ठाकुर एट अल., “स्वचालित वेरिलॉग आरटीएल कोड जेनरेशन के लिए बड़े भाषा मॉडल की बेंचमार्किंग,” 2023 डिज़ाइन, ऑटोमेशन और टेस्ट इन यूरोप कॉन्फ्रेंस एंड एग्जीबिशन (डीएटीई), 2023, पीपी. 1-6.


[7] जे. ब्लॉकलोव एट अल., “चिप-चैट: संवादी हार्डवेयर डिज़ाइन में चुनौतियाँ और अवसर,” 2023.


[8] ज़ेड. हे एट अल., “चेटेडा: ईडीए के लिए एक बड़ा भाषा मॉडल संचालित स्वायत्त एजेंट,” 2023।


[9] एस. बुबेक एट अल., “कृत्रिम सामान्य बुद्धिमत्ता की चिंगारी: जीपीटी-4 के साथ प्रारंभिक प्रयोग,” 2023.


[10] एस. वू एट अल., “ब्लूमबर्गजीपीटी: वित्त के लिए एक बड़ा भाषा मॉडल,” 2023.


[11] एम.एल.एल.सी. (2022) बायोमेडिकल: बायोमेडिकल टेक्स्ट के लिए एक डोमेन-विशिष्ट बड़ी भाषा मॉडल। [ऑनलाइन]। उपलब्ध: https://www.mosaicml.com/blog/introducing-pubmed-gpt


[12] एम. लियू एट अल., “वेरिलॉगइवल: वेरिलॉग कोड जेनरेशन के लिए बड़े भाषा मॉडल का मूल्यांकन,” 2023 आईईईई/एसीएम इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर-एडेड डिज़ाइन (आईसीसीएडी), 2023 में।


[13] ई. निजकैंप एट अल., “कोडजेन: मल्टी-टर्न प्रोग्राम संश्लेषण के साथ कोड के लिए एक खुला बड़ा भाषा मॉडल,” आईसीएलआर, 2023।


[14] एस. गुरुरंगन एट अल., “प्रीट्रेनिंग बंद न करें: भाषा मॉडल को डोमेन और कार्यों के अनुकूल बनाएँ,” 2020.


[15] पी. लुईस एट अल., “ज्ञान-गहन एनएलपी कार्यों के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी,” 2021।


[16] ईजे हू एट अल., “लोरा: बड़े भाषा मॉडल का निम्न-रैंक अनुकूलन,” सीओआरआर, वॉल्यूम. एब्स/2106.09685, 2021. [ऑनलाइन]. उपलब्ध: https://arxiv.org/abs/2106.09685


[17] एल. गाओ एट अल., “ढेर: भाषा मॉडलिंग के लिए विविध पाठ का 800 जीबी डेटासेट।”


[18] डी. कोसेटकोव एट अल., “स्टैक: 3 टीबी अनुमेय लाइसेंस प्राप्त स्रोत कोड,” 2022.


[19] ए. कोफ़ ¨ एट अल., “ओपनअसिस्टेंट वार्तालाप – बड़े भाषा मॉडल संरेखण का लोकतंत्रीकरण,” 2023.


[20] जे. वेई एट अल., “फाइनट्यून्ड लैंग्वेज मॉडल जीरो-शॉट लर्नर्स हैं,” 2022।


[21] वी. सान्ह एट अल., “मल्टीटास्क प्रेरित प्रशिक्षण शून्य-शॉट कार्य सामान्यीकरण को सक्षम बनाता है,” 2022।


[22] डी. हेंड्रिक्स एट अल., “बड़े पैमाने पर मल्टीटास्क भाषा समझ को मापना,” 2021.


[23] एम. चेन एट अल., “कोड पर प्रशिक्षित बड़े भाषा मॉडल का मूल्यांकन,” 2021.


[24] एफ. कोटो, जेएच लाउ, और टी. बाल्डविन, "इंडोबर्ट्वीट: प्रभावी डोमेन-विशिष्ट शब्दावली आरंभीकरण के साथ इंडोनेशियाई ट्विटर के लिए एक पूर्व प्रशिक्षित भाषा मॉडल," प्राकृतिक भाषा प्रसंस्करण में अनुभवजन्य विधियों पर 2021 सम्मेलन की कार्यवाही में, नवंबर 2021, पीपी. 10 660–10 668.


[25] ओ. कुचैव एट अल., “निमो: न्यूरल मॉड्यूल का उपयोग करके एआई अनुप्रयोगों के निर्माण के लिए एक टूलकिट,” 2019।


[26] एम. शोयबी एट अल., “मेगाट्रॉन-एलएम: मॉडल समानांतरता का उपयोग करके बहु-अरब पैरामीटर भाषा मॉडल का प्रशिक्षण,” arXiv प्रीप्रिंट arXiv:1909.08053, 2019।


[27] टी. दाओ एट अल., “फ्लैशअटेंशन: आईओ-अवेयरनेस के साथ तेज़ और मेमोरी-कुशल सटीक ध्यान,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2022। [28] ए. चौधरी एट अल., “पाम: पाथवे के साथ भाषा मॉडलिंग को स्केल करना,” 2022।


[29] जेड. जी एट अल., “प्राकृतिक भाषा निर्माण में मतिभ्रम का सर्वेक्षण,” एसीएम कंप्यूट. सर्वे., खंड 55, संख्या 12, मार्च 2023. [ऑनलाइन]. उपलब्ध: https://doi.org/10.1145/3571730


[30] एल. वांग एट अल., "कमजोर-पर्यवेक्षित कंट्रास्टिव प्री-ट्रेनिंग द्वारा टेक्स्ट एम्बेडिंग," arXiv प्रीप्रिंट arXiv:2212.03533, 2022।


[31] एल. गाओ एट अल., “टेवाट्रॉन: सघन पुनर्प्राप्ति के लिए एक कुशल और लचीला टूलकिट,” 2022।


[32] बी. रोज़िएरे `एट अल., “कोड लामा: कोड के लिए ओपन फाउंडेशन मॉडल,” 2023.


[33] एन. रीमर्स और आई. गुरेविच, "सेंटेंस-बर्ट: सियामीज़ बर्ट-नेटवर्क का उपयोग करके सेंटेंस एम्बेडिंग," नेचुरल लैंग्वेज प्रोसेसिंग में अनुभवजन्य विधियों पर 2019 सम्मेलन की कार्यवाही में। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, 11 2019. [ऑनलाइन]। उपलब्ध: http://arxiv.org/abs/1908.10084


[34] आर. पोप एट अल., “कुशलतापूर्वक ट्रांसफॉर्मर इंफ़रेंस को स्केल करना,” 2022.


[35] आर.वाई. अमीनाबादी एट अल., “डीपस्पीड इंफरेंस: अभूतपूर्व पैमाने पर ट्रांसफॉर्मर मॉडल के कुशल इंफरेंस को सक्षम करना,” 2022।


[36] एल. ओयांग एट अल., “मानव प्रतिक्रिया के साथ निर्देशों का पालन करने के लिए भाषा मॉडल का प्रशिक्षण,” 2022.


[37] डब्ल्यू. ज़ियोनग एट अल., “फाउंडेशन मॉडल की प्रभावी लंबी-संदर्भ स्केलिंग,” 2023.


[38] आर. टेलर एट अल., “गैलेक्टिका: विज्ञान के लिए एक बड़ा भाषा मॉडल,” 2022.


[39] ए. लेवकोविज़ एट अल., “भाषा मॉडल के साथ मात्रात्मक तर्क समस्याओं को हल करना,” 2022.


[40] पी. लुईस एट अल., “ज्ञान-गहन एनएलपी कार्यों के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी,” 2021।


[41] एस. बोरग्यूड एट अल., “ट्रिलियन टोकन से पुनर्प्राप्ति करके भाषा मॉडल में सुधार करना,” 2022.


[42] एस. रॉबर्टसन और एच. ज़ारागोज़ा, "संभाव्य प्रासंगिकता ढांचा: Bm25 और उससे आगे," पाया गया। रुझान सूचना सेवानिवृत्त, खंड 3, संख्या 4, पृष्ठ 333-389, अप्रैल 2009। [ऑनलाइन]। उपलब्ध: https://doi.org/10.1561/1500000019


[43] वी. करपुखिन एट अल., “ओपन-डोमेन प्रश्न उत्तर के लिए घने मार्ग पुनर्प्राप्ति,” 2020.


[44] जी. इज़ाकार्ड एट अल., “कंट्रास्टिव लर्निंग के साथ अनसुपरवाइज्ड डेंस इंफॉर्मेशन रिट्रीवल,” 2022.


[45] डब्ल्यू. शि एट अल., “रीप्लग: रिट्रीवल-संवर्धित ब्लैक-बॉक्स भाषा मॉडल,” 2023.


[46] जी. इज़ाकार्ड एट अल., “फ्यू-शॉट लर्निंग विद रिट्रीवल ऑगमेंटेड लैंग्वेज मॉडल्स,” 2022. [ऑनलाइन]. उपलब्ध: http://arxiv.org/abs/2208.03299


[47] ओ. राम एट अल., “इन-कॉन्टेक्स्ट रिट्रीवल-ऑगमेंटेड लैंग्वेज मॉडल,” 2023.


[48] एस. झोउ एट अल., “डॉकप्रॉम्पटिंग: दस्तावेज़ों को पुनः प्राप्त करके कोड उत्पन्न करना,” 2023.


[49] आर. राफैलोव एट अल., “प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक इनाम मॉडल है,” 2023.


[50] वाई. डोंग एट अल., “स्टीयरल्म: आरएलएचएफ के लिए एक (उपयोगकर्ता-संचालित) विकल्प के रूप में विशेषता वातानुकूलित एसएफटी,” 2023।


[51] एच. पीयर्स, बी. टैन और आर. कर्री, "डेव: इंग्लिश से स्वचालित रूप से वेरिलॉग प्राप्त करना," 2020 ACM/IEEE वर्कशॉप ऑन मशीन लर्निंग फॉर CAD की कार्यवाही में, MLCAD '20 की श्रृंखला। न्यूयॉर्क, NY, USA: एसोसिएशन फॉर कंप्यूटिंग मशीनरी, 2020, पृष्ठ 27-32। [ऑनलाइन]। उपलब्ध: https://doi.org/10.1145/3380446.3430634


[52] “ब्यूटीफुल सूप,” https://www.crummy.com/software/BeautifulSoup/, एक्सेस किया गया: 10 अक्टूबर 2023.


[53] के. सकागुची एट अल., "विनोग्रांडे: बड़े पैमाने पर एक प्रतिकूल विनोग्राड स्कीमा चुनौती," arXiv प्रीप्रिंट arXiv:1907.10641, 2019।


[54] आर. ज़ेलर्स एट अल., “हेलास्वाग: क्या कोई मशीन वास्तव में आपका वाक्य पूरा कर सकती है?” कम्प्यूटेशनल भाषाविज्ञान संघ की 57वीं वार्षिक बैठक की कार्यवाही में, 2019।


[55] पी. क्लार्क एट अल., “क्या आपको लगता है कि आपने प्रश्न उत्तर हल कर लिया है? आर्क, एआई2 रीजनिंग चैलेंज आज़माएँ,” 2018.


[56] जी. लाई एट अल., “रेस: परीक्षाओं से बड़े पैमाने पर पढ़ने की समझ डेटासेट,” 2017.



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।