लेखक:
(1) मिंगजी लियू, एनवीडिया {समान योगदान};
(2) टेओडोर-डुमित्रु एने, एनवीडिया {समान योगदान};
(3) रॉबर्ट किर्बी, एनवीडिया {समान योगदान};
(4) क्रिस चेंग, एनवीडिया {समान योगदान};
(5) नाथनियल पिंकनी, एनवीडिया {समान योगदान};
(6) रोंगजियान लियांग, एनवीडिया {समान योगदान};
(7) जोना अल्बेन, एनवीडिया;
(8) हिमांशु आनंद, एनवीडिया;
(9) संमित्रा बनर्जी, एनवीडिया;
(10) इस्मेट बेराकटारोग्लू, एनवीडिया;
(11) बोनिता भास्करन, एनवीडिया;
(12) ब्रायन कैटनज़ारो, एनवीडिया;
(13) अर्जुन चौधरी, एनवीडिया;
(14) शेरोन क्ले, एनवीडिया;
(15) बिल डैली, एनवीडिया;
(16) लौरा डांग, एनवीडिया;
(17) परीक्षित देशपांडे, एनवीडिया;
(18) सिद्धनाथ ढोढ़ी, एनवीडिया;
(19) समीर हालेपेट, एनवीडिया;
(20) एरिक हिल, एनवीडिया;
(21) जियाशांग हू, एनवीडिया;
(22) सुमित जैन, एनवीडिया;
(23) ब्रुसेक खैलानी, एनवीडिया;
(24) जॉर्ज कोकाई, एनवीडिया;
(25) किशोर कुणाल, एनवीडिया;
(26) ज़ियाओवेई ली, एनवीडिया;
(27) चार्ली लिंड, एनवीडिया;
(28) हाओ लियू, एनवीडिया;
(29) स्टुअर्ट ओबरमैन, एनवीडिया;
(30) सुजीत उमर, एनवीडिया;
(31) श्रीधर प्रट्टी, एनवीडिया;
(23) जोनाथन रायमन, एनवीडिया;
(33) अंबर सरकार, एनवीडिया;
(34) झेंगजियांग शाओ, एनवीडिया;
(35) हनफ़ेई सन, एनवीडिया;
(36) प्रतीक पी सुथार, एनवीडिया;
(37) वरुण तेज, एनवीडिया;
(38) वॉकर टर्नर, एनवीडिया;
(39) कैझे जू, एनवीडिया;
(40) हॉक्सिंग रेन, एनवीडिया.
लेखक निम्नलिखित को धन्यवाद देना चाहते हैं: NVBugs एकीकरण पर उनके समर्थन के लिए NVIDIA आईटी टीम; सुरक्षा मुद्दों पर उनके समर्थन के लिए NVIDIA हार्डवेयर सुरक्षा टीम; ChipNeMo मॉडलों के प्रशिक्षण और अनुमान पर उनके समर्थन और मार्गदर्शन के लिए NVIDIA NeMo टीम; परियोजना के लिए GPU प्रशिक्षण और अनुमान संसाधनों का समर्थन करने के लिए NVIDIA अवसंरचना टीम; उनके समर्थन और अंतर्दृष्टि के लिए NVIDIA हार्डवेयर डिजाइन टीम।
मिंगजी लियू ने डीएपीटी और एसएफटी मॉडल प्रशिक्षण आयोजित किया।
टेओडोर-डुमित्रु एने, रॉबर्ट किर्बी ने अनुमान और अनुप्रयोग मूल्यांकन बुनियादी ढांचे का विकास किया।
क्रिस चेंग ने आरएजी फ्रेमवर्क विकसित किया।
नाथेनियल पिंकनी ने प्रशिक्षण के लिए डेटा सेट एकत्रित और तैयार किया।
रोंगजियान लियांग ने कस्टम टोकेनाइजर्स विकसित किए।
वॉकर टर्नर, चार्ली लिंड, जॉर्ज कोकाई ने एक सामान्य सर्किट डिजाइन ज्ञान बेंचमार्क विकसित किया।
सिद्धनाथ ढोढ़ी, इस्मेट बायराक्तरोग्लू, हिमांशु आनंद, एरिक हिल ने इंजीनियरिंग सहायक चैटबॉट डिजाइन किया, डोमेन निर्देश डेटासेट, मूल्यांकन बेंचमार्क प्रदान किए और मूल्यांकन किया।
परीक्षित देशपांडे, झेंगजियांग शाओ, कैझे जू, जियाशांग हू, लौरा डांग, शियाओवेई ली, हाओ लियू, अंबर सरकार ने इंजीनियरिंग सहायक चैटबॉट एप्लीकेशन विकसित किया।
श्रीधर प्रट्टी, किशोर कुणाल, वरुण तेज, सुमित जैन, सुजीत उमर, प्रतीक पी सुथार, हनफेई सन ने ईडीए स्क्रिप्ट जनरेशन एप्लीकेशन विकसित किया, डोमेन निर्देश डेटासेट और मूल्यांकन बेंचमार्क प्रदान किए।
बोनिता भास्करन, अर्जुन चौधरी, संमित्रा बनर्जी ने बग सारांशीकरण और विश्लेषण एप्लिकेशन विकसित किया, डोमेन निर्देश डेटासेट और मूल्यांकन बेंचमार्क प्रदान किए।
ब्रुसेक खैलानी, स्टुअर्ट ओबरमैन, शेरोन क्ले, समीर हालेपेट, जोनाथन रेमन, ब्रायन कैटनज़ारो, जोना एल्बेन, बिल डैली ने एआई अनुसंधान और हार्डवेयर इंजीनियरिंग के दृष्टिकोण से सलाह दी।
हॉक्सिंग रेन ने अनुसंधान का डिजाइन तैयार किया और उसका नेतृत्व किया।
[1] बी. खैलानी एट अल., “मशीन लर्निंग के साथ चिप डिज़ाइन में तेजी लाना,” आईईईई माइक्रो, वॉल्यूम 40, नंबर 6, पृष्ठ 23-32, 2020।
[2] एच. रेन और एम. फोजटिक, “आमंत्रित- एनवीसेल: सुदृढीकरण सीखने के साथ उन्नत प्रौद्योगिकी नोड्स में मानक सेल लेआउट,” 2021 58वें एसीएम/आईईईई डिज़ाइन ऑटोमेशन सम्मेलन (डीएसी), 2021 में।
[3] आर. रॉय एट अल., “प्रीफ़िक्सआरएल: डीप रीइन्फोर्समेंट लर्निंग का उपयोग करके समानांतर प्रीफ़िक्स सर्किट का अनुकूलन,” 2021 58वें एसीएम/आईईईई डिज़ाइन ऑटोमेशन कॉन्फ्रेंस (डीएसी), 2021 में।
[4] डब्ल्यू.-एल. चियांग एट अल., “विकुना: एक ओपन-सोर्स चैटबॉट जो 90%* चैटजीपीटी गुणवत्ता के साथ जीपीटी-4 को प्रभावित करता है,” मार्च 2023. [ऑनलाइन]। उपलब्ध: https://lmsys.org/blog/2023-03-30-vicuna/
[5] एच. टूव्रोन एट अल., “लामा 2: ओपन फ़ाउंडेशन और फ़ाइन-ट्यून्ड चैट मॉडल,” 2023.
[6] एस. ठाकुर एट अल., “स्वचालित वेरिलॉग आरटीएल कोड जेनरेशन के लिए बड़े भाषा मॉडल की बेंचमार्किंग,” 2023 डिज़ाइन, ऑटोमेशन और टेस्ट इन यूरोप कॉन्फ्रेंस एंड एग्जीबिशन (डीएटीई), 2023, पीपी. 1-6.
[7] जे. ब्लॉकलोव एट अल., “चिप-चैट: संवादी हार्डवेयर डिज़ाइन में चुनौतियाँ और अवसर,” 2023.
[8] ज़ेड. हे एट अल., “चेटेडा: ईडीए के लिए एक बड़ा भाषा मॉडल संचालित स्वायत्त एजेंट,” 2023।
[9] एस. बुबेक एट अल., “कृत्रिम सामान्य बुद्धिमत्ता की चिंगारी: जीपीटी-4 के साथ प्रारंभिक प्रयोग,” 2023.
[10] एस. वू एट अल., “ब्लूमबर्गजीपीटी: वित्त के लिए एक बड़ा भाषा मॉडल,” 2023.
[11] एम.एल.एल.सी. (2022) बायोमेडिकल: बायोमेडिकल टेक्स्ट के लिए एक डोमेन-विशिष्ट बड़ी भाषा मॉडल। [ऑनलाइन]। उपलब्ध: https://www.mosaicml.com/blog/introducing-pubmed-gpt
[12] एम. लियू एट अल., “वेरिलॉगइवल: वेरिलॉग कोड जेनरेशन के लिए बड़े भाषा मॉडल का मूल्यांकन,” 2023 आईईईई/एसीएम इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर-एडेड डिज़ाइन (आईसीसीएडी), 2023 में।
[13] ई. निजकैंप एट अल., “कोडजेन: मल्टी-टर्न प्रोग्राम संश्लेषण के साथ कोड के लिए एक खुला बड़ा भाषा मॉडल,” आईसीएलआर, 2023।
[14] एस. गुरुरंगन एट अल., “प्रीट्रेनिंग बंद न करें: भाषा मॉडल को डोमेन और कार्यों के अनुकूल बनाएँ,” 2020.
[15] पी. लुईस एट अल., “ज्ञान-गहन एनएलपी कार्यों के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी,” 2021।
[16] ईजे हू एट अल., “लोरा: बड़े भाषा मॉडल का निम्न-रैंक अनुकूलन,” सीओआरआर, वॉल्यूम. एब्स/2106.09685, 2021. [ऑनलाइन]. उपलब्ध: https://arxiv.org/abs/2106.09685
[17] एल. गाओ एट अल., “ढेर: भाषा मॉडलिंग के लिए विविध पाठ का 800 जीबी डेटासेट।”
[18] डी. कोसेटकोव एट अल., “स्टैक: 3 टीबी अनुमेय लाइसेंस प्राप्त स्रोत कोड,” 2022.
[19] ए. कोफ़ ¨ एट अल., “ओपनअसिस्टेंट वार्तालाप – बड़े भाषा मॉडल संरेखण का लोकतंत्रीकरण,” 2023.
[20] जे. वेई एट अल., “फाइनट्यून्ड लैंग्वेज मॉडल जीरो-शॉट लर्नर्स हैं,” 2022।
[21] वी. सान्ह एट अल., “मल्टीटास्क प्रेरित प्रशिक्षण शून्य-शॉट कार्य सामान्यीकरण को सक्षम बनाता है,” 2022।
[22] डी. हेंड्रिक्स एट अल., “बड़े पैमाने पर मल्टीटास्क भाषा समझ को मापना,” 2021.
[23] एम. चेन एट अल., “कोड पर प्रशिक्षित बड़े भाषा मॉडल का मूल्यांकन,” 2021.
[24] एफ. कोटो, जेएच लाउ, और टी. बाल्डविन, "इंडोबर्ट्वीट: प्रभावी डोमेन-विशिष्ट शब्दावली आरंभीकरण के साथ इंडोनेशियाई ट्विटर के लिए एक पूर्व प्रशिक्षित भाषा मॉडल," प्राकृतिक भाषा प्रसंस्करण में अनुभवजन्य विधियों पर 2021 सम्मेलन की कार्यवाही में, नवंबर 2021, पीपी. 10 660–10 668.
[25] ओ. कुचैव एट अल., “निमो: न्यूरल मॉड्यूल का उपयोग करके एआई अनुप्रयोगों के निर्माण के लिए एक टूलकिट,” 2019।
[26] एम. शोयबी एट अल., “मेगाट्रॉन-एलएम: मॉडल समानांतरता का उपयोग करके बहु-अरब पैरामीटर भाषा मॉडल का प्रशिक्षण,” arXiv प्रीप्रिंट arXiv:1909.08053, 2019।
[27] टी. दाओ एट अल., “फ्लैशअटेंशन: आईओ-अवेयरनेस के साथ तेज़ और मेमोरी-कुशल सटीक ध्यान,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2022। [28] ए. चौधरी एट अल., “पाम: पाथवे के साथ भाषा मॉडलिंग को स्केल करना,” 2022।
[29] जेड. जी एट अल., “प्राकृतिक भाषा निर्माण में मतिभ्रम का सर्वेक्षण,” एसीएम कंप्यूट. सर्वे., खंड 55, संख्या 12, मार्च 2023. [ऑनलाइन]. उपलब्ध: https://doi.org/10.1145/3571730
[30] एल. वांग एट अल., "कमजोर-पर्यवेक्षित कंट्रास्टिव प्री-ट्रेनिंग द्वारा टेक्स्ट एम्बेडिंग," arXiv प्रीप्रिंट arXiv:2212.03533, 2022।
[31] एल. गाओ एट अल., “टेवाट्रॉन: सघन पुनर्प्राप्ति के लिए एक कुशल और लचीला टूलकिट,” 2022।
[32] बी. रोज़िएरे `एट अल., “कोड लामा: कोड के लिए ओपन फाउंडेशन मॉडल,” 2023.
[33] एन. रीमर्स और आई. गुरेविच, "सेंटेंस-बर्ट: सियामीज़ बर्ट-नेटवर्क का उपयोग करके सेंटेंस एम्बेडिंग," नेचुरल लैंग्वेज प्रोसेसिंग में अनुभवजन्य विधियों पर 2019 सम्मेलन की कार्यवाही में। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, 11 2019. [ऑनलाइन]। उपलब्ध: http://arxiv.org/abs/1908.10084
[34] आर. पोप एट अल., “कुशलतापूर्वक ट्रांसफॉर्मर इंफ़रेंस को स्केल करना,” 2022.
[35] आर.वाई. अमीनाबादी एट अल., “डीपस्पीड इंफरेंस: अभूतपूर्व पैमाने पर ट्रांसफॉर्मर मॉडल के कुशल इंफरेंस को सक्षम करना,” 2022।
[36] एल. ओयांग एट अल., “मानव प्रतिक्रिया के साथ निर्देशों का पालन करने के लिए भाषा मॉडल का प्रशिक्षण,” 2022.
[37] डब्ल्यू. ज़ियोनग एट अल., “फाउंडेशन मॉडल की प्रभावी लंबी-संदर्भ स्केलिंग,” 2023.
[38] आर. टेलर एट अल., “गैलेक्टिका: विज्ञान के लिए एक बड़ा भाषा मॉडल,” 2022.
[39] ए. लेवकोविज़ एट अल., “भाषा मॉडल के साथ मात्रात्मक तर्क समस्याओं को हल करना,” 2022.
[40] पी. लुईस एट अल., “ज्ञान-गहन एनएलपी कार्यों के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी,” 2021।
[41] एस. बोरग्यूड एट अल., “ट्रिलियन टोकन से पुनर्प्राप्ति करके भाषा मॉडल में सुधार करना,” 2022.
[42] एस. रॉबर्टसन और एच. ज़ारागोज़ा, "संभाव्य प्रासंगिकता ढांचा: Bm25 और उससे आगे," पाया गया। रुझान सूचना सेवानिवृत्त, खंड 3, संख्या 4, पृष्ठ 333-389, अप्रैल 2009। [ऑनलाइन]। उपलब्ध: https://doi.org/10.1561/1500000019
[43] वी. करपुखिन एट अल., “ओपन-डोमेन प्रश्न उत्तर के लिए घने मार्ग पुनर्प्राप्ति,” 2020.
[44] जी. इज़ाकार्ड एट अल., “कंट्रास्टिव लर्निंग के साथ अनसुपरवाइज्ड डेंस इंफॉर्मेशन रिट्रीवल,” 2022.
[45] डब्ल्यू. शि एट अल., “रीप्लग: रिट्रीवल-संवर्धित ब्लैक-बॉक्स भाषा मॉडल,” 2023.
[46] जी. इज़ाकार्ड एट अल., “फ्यू-शॉट लर्निंग विद रिट्रीवल ऑगमेंटेड लैंग्वेज मॉडल्स,” 2022. [ऑनलाइन]. उपलब्ध: http://arxiv.org/abs/2208.03299
[47] ओ. राम एट अल., “इन-कॉन्टेक्स्ट रिट्रीवल-ऑगमेंटेड लैंग्वेज मॉडल,” 2023.
[48] एस. झोउ एट अल., “डॉकप्रॉम्पटिंग: दस्तावेज़ों को पुनः प्राप्त करके कोड उत्पन्न करना,” 2023.
[49] आर. राफैलोव एट अल., “प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक इनाम मॉडल है,” 2023.
[50] वाई. डोंग एट अल., “स्टीयरल्म: आरएलएचएफ के लिए एक (उपयोगकर्ता-संचालित) विकल्प के रूप में विशेषता वातानुकूलित एसएफटी,” 2023।
[51] एच. पीयर्स, बी. टैन और आर. कर्री, "डेव: इंग्लिश से स्वचालित रूप से वेरिलॉग प्राप्त करना," 2020 ACM/IEEE वर्कशॉप ऑन मशीन लर्निंग फॉर CAD की कार्यवाही में, MLCAD '20 की श्रृंखला। न्यूयॉर्क, NY, USA: एसोसिएशन फॉर कंप्यूटिंग मशीनरी, 2020, पृष्ठ 27-32। [ऑनलाइन]। उपलब्ध: https://doi.org/10.1145/3380446.3430634
[52] “ब्यूटीफुल सूप,” https://www.crummy.com/software/BeautifulSoup/, एक्सेस किया गया: 10 अक्टूबर 2023.
[53] के. सकागुची एट अल., "विनोग्रांडे: बड़े पैमाने पर एक प्रतिकूल विनोग्राड स्कीमा चुनौती," arXiv प्रीप्रिंट arXiv:1907.10641, 2019।
[54] आर. ज़ेलर्स एट अल., “हेलास्वाग: क्या कोई मशीन वास्तव में आपका वाक्य पूरा कर सकती है?” कम्प्यूटेशनल भाषाविज्ञान संघ की 57वीं वार्षिक बैठक की कार्यवाही में, 2019।
[55] पी. क्लार्क एट अल., “क्या आपको लगता है कि आपने प्रश्न उत्तर हल कर लिया है? आर्क, एआई2 रीजनिंग चैलेंज आज़माएँ,” 2018.
[56] जी. लाई एट अल., “रेस: परीक्षाओं से बड़े पैमाने पर पढ़ने की समझ डेटासेट,” 2017.
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।