हमने NVIDIA की नवीनतम घोषणाओं पर नज़र रखकर, उद्योग विशेषज्ञों से बात करके और समाचारों और विश्लेषणों को स्कैन करके एआई चिप्स के भविष्य के बारे में क्या सीखा।
एआई चिप्स की खोज करना एक शगल रहा है, साथ ही ऑर्केस्ट्रेट ऑल थिंग्स लेखों में एक लोकप्रिय विषय भी रहा है। 2023 में, हमें लगा कि हम उसमें कुछ हद तक पीछे रह गए हैं..लेकिन फिर, क्या इससे कोई फर्क पड़ता है? क्या NVIDIA अभी भी सर्वोच्च नहीं है - 1 ट्रिलियन मूल्यांकन , 80% से अधिक बाजार हिस्सेदारी, H100 गर्म ब्रेड की तरह बिक रहा है और सभी रिकॉर्ड तोड़ रहा है? ठीक है, हाँ, लेकिन..इतनी जल्दी नहीं।
ओ'रेली के साथ हमारी "एआई में नया क्या है" श्रृंखला के एआई चिप्स एपिसोड में एचपीई इवान स्पार्क्स के दिमाग में एआई के सीपीओ को चुनने का मौका मिलने के बाद, एनवीआईडीआईए के कुछ प्रेस कॉन्फ्रेंस में बैठें, और ढेर सारी खबरों को स्कैन करें और विश्लेषण करता है ताकि आपको इसकी आवश्यकता न पड़े, हमारे पास 2024 में एआई चिप्स पर साझा करने के लिए एक अधिक सूक्ष्म दृष्टिकोण है। यहां बताया गया है कि क्या हो रहा है और आगे चलकर एआई पर इसका क्या प्रभाव पड़ने की संभावना है।
चलिए खबर से शुरू करते हैं. कल, NVIDIA ने नवीनतम MLPerf सबमिशन से अपने परिणामों की घोषणा की । MLPerf AI वर्कलोड बेंचमार्क में वास्तविक मानक है, और जैसे-जैसे अधिक AI वर्कलोड सामने आता है MLPerf इसमें जुड़ता रहता है । पिछले वर्ष में जेनरेटिव एआई के प्रसार के साथ, एमएलपर्फ ने अपने शस्त्रागार में जेन एआई वर्कलोड को जोड़ा है।
पहले एक बेंचमार्क जोड़ा गया था जो एक बड़े भाषा मॉडल (एलएलएम) को प्रशिक्षित करने के लिए पूर्ण जीपीटी -3 डेटा सेट के एक हिस्से का उपयोग करता है, एमएलपर्फ का नवीनतम अतिरिक्त स्थिर प्रसार टेक्स्ट-टू-इमेज मॉडल पर आधारित एक प्रशिक्षण बेंचमार्क है। NVIDIA ने इन दोनों के साथ-साथ कुछ और में भी महारत हासिल की। इंटेल और गूगल भी बड़े एआई प्रशिक्षण लाभ का दावा करते हैं ।
NVIDIA Eos - 10,752 NVIDIA H100 टेंसर कोर GPU और NVIDIA क्वांटम-2 InfiniBand नेटवर्किंग द्वारा संचालित एक AI सुपरकंप्यूटर - ने केवल 3.9 मिनट में एक बिलियन टोकन पर प्रशिक्षित 175 बिलियन मापदंडों के साथ GPT-3 मॉडल पर आधारित एक प्रशिक्षण बेंचमार्क पूरा किया।
यह 10.9 मिनट से लगभग 3 गुना अधिक लाभ है, NVIDIA ने छह महीने से भी कम समय पहले परीक्षण शुरू होने पर रिकॉर्ड बनाया था। एक्सट्रपलेशन द्वारा, ईओएस अब केवल आठ दिनों में उस एलएलएम को प्रशिक्षित कर सकता है, जो कि 512 ए100 जीपीयू का उपयोग करने वाले पूर्व अत्याधुनिक सिस्टम की तुलना में 73 गुना तेज है। स्टेबल डिफ्यूजन बेंचमार्क के लिए, इसे पूरा करने में 1,024 NVIDIA हॉपर आर्किटेक्चर जीपीयू 2.5 मिनट लगे।
लेकिन वह सब नहीं है। जैसा कि NVIDIA नोट करता है, कंपनी सभी MLPerf परीक्षणों को चलाने वाली एकमात्र कंपनी थी, जिसने नौ बेंचमार्क में से प्रत्येक में सबसे तेज़ प्रदर्शन और सबसे बड़ी स्केलिंग का प्रदर्शन किया। MLPerf HPC में, सुपर कंप्यूटर पर AI-असिस्टेड सिमुलेशन के लिए एक अलग बेंचमार्क, H100 GPU ने पिछले HPC राउंड में NVIDIA A100 Tensor Core GPU के प्रदर्शन को दोगुना कर दिया।
अब, आइए इन परिणामों को खोलना शुरू करें। ध्यान देने वाली पहली बात पैमाने के विभिन्न आयाम हैं। जब Eos की पहली बार घोषणा की गई थी , तो इसमें 4,608 H100 शामिल थे। आज इसकी संख्या 10,752 है। लेकिन NVIDIA ईओएस पैमाने और प्रदर्शन का लाभ उठाने वाला एकमात्र नहीं है।
जैसा कि कंपनी नोट करती है, नवीनतम दौर में Eos और Microsoft Azure दोनों द्वारा एक्सेलेरेटर, सिस्टम और सॉफ़्टवेयर में नवाचारों का एक पूर्ण-स्टैक प्लेटफ़ॉर्म का उपयोग किया गया था। Azure ने सभी श्रेणियों में सबमिट नहीं किया, लेकिन GPT-3 बेंचमार्क में जहां दोनों ने सबमिट किया, परिणाम व्यावहारिक रूप से समान थे। और Azure का उदाहरण व्यावसायिक रूप से भी उपलब्ध है।
इसके अलावा, Eos के लिए स्केलिंग दक्षता 80% के उत्तर में थी। आदर्श रूप से, GPU की संख्या दोगुनी करने से दोगुना प्रदर्शन मिलेगा। इस पैमाने पर उसका 80% प्राप्त करना काफी बड़ी उपलब्धि है। NVIDIA ने इसके लिए अपने स्टैक को जिम्मेदार ठहराया - हार्डवेयर, सॉफ्टवेयर और नेटवर्किंग का संयोजन।
यहां एक बात यह है कि " जेन्सेन का नियम ", उपनाम जिसका उपयोग एनवीआईडीआईए जीपीयू द्वारा हासिल किए गए प्रदर्शन और स्केल-अप का वर्णन करने के लिए किया जाता है, अभी भी प्रभावी प्रतीत होता है। लेकिन शायद असली सवाल यह है कि इसकी परवाह किसे करनी चाहिए और क्यों।
इस प्रकार का पैमाना कोई ऐसी चीज़ नहीं है जिसे हाइपरस्केलर्स सामान्य रूप से संभाल सकते हैं, भले ही वे चाहें। प्रत्येक NVIDIA H100 GPU की कीमत लगभग $30K होने के बावजूद इसकी आपूर्ति कम है। जैसा कि 2023 में एआई की स्थिति की रिपोर्ट बताती है, संगठन भंडारण की दौड़ में हैं। लेकिन अच्छी ख़बरें भी हैं.
सबसे पहले, NVIDIA चिप्स का जीवनकाल उल्लेखनीय रूप से लंबा होता है: लॉन्च से चरम लोकप्रियता तक 5 वर्ष। 2017 में जारी NVIDIA V100, अभी भी AI अनुसंधान में सबसे अधिक उपयोग की जाने वाली चिप है। इससे पता चलता है कि 2020 में जारी A100s, 2026 में चरम पर पहुंच सकता है जब V100 के अपने गर्त में पहुंचने की संभावना है।
साथ ही, यह संदेहास्पद है कि क्या नए जेन एआई मॉडल को शुरुआत से प्रशिक्षित करना कुछ ऐसा है जिसे अधिकांश संगठनों को करने की आवश्यकता होगी। अधिकांश संगठन संभवतः या तो केवल पूर्व-प्रशिक्षित जनरल एआई मॉडल का उपयोग करेंगे जो कि पावर अनुप्रयोगों के लिए हुड के तहत पैक किए गए हैं, या एपीआई पर चैटजीपीटी जैसी किसी चीज़ का उपयोग करना चुनेंगे। इन दोनों विकल्पों के लिए बिल्कुल शून्य GPU की आवश्यकता होती है।
बेशक, दूसरा पहलू यह है कि ये दोनों विकल्प शून्य स्वायत्तता और सुरक्षा भी प्रदान करते हैं। लेकिन यहां तक कि उन संगठनों के लिए भी जो इन-हाउस जेन एआई विकसित करना चुनते हैं, स्क्रैच से कुछ प्रशिक्षण देना शायद अधिकांश लोगों के लिए सबसे ज्यादा मायने नहीं रखता है। एक ऑफ-द-शेल्फ ओपन सोर्स जेन एआई मॉडल लेना और इसे फाइन-ट्यूनिंग या आरएजी (रिट्रीवल ऑगमेंटेड जेनरेशन) के माध्यम से अनुकूलित करना बहुत तेज़ और आसान है, और इसके लिए केवल गणना के एक अंश की आवश्यकता होती है।
किसी भी तरह से, यहाँ दीर्घकालिक दृष्टिकोण यह है कि जिस तरह से NVIDIA करता है उसका विस्तार कम समय में अधिक शक्तिशाली AI मॉडल को संभव बनाता है। हम उम्मीद कर सकते हैं कि परिणाम धीरे-धीरे कम होंगे, चाहे इसका मतलब अधिक शक्तिशाली जीपीटी-जैसे मॉडल, ओपन सोर्स मॉडल या व्युत्पन्न अनुप्रयोग हों।
लेकिन यहां विचार करने के लिए प्रश्नों का एक और सेट है। क्या NVIDIA का प्रभुत्व उद्योग के लिए अच्छी बात है? क्या यह कायम रह सकता है और रहना भी चाहिए? प्रतिस्पर्धा किस तक है? और बाकी दुनिया को इसकी परवाह क्यों करनी चाहिए?
जैसा कि मैं और अन्य लोग ध्यान दे रहे हैं, NVIDIA का प्रभुत्व केवल उसके हार्डवेयर पर नहीं, बल्कि उसके संपूर्ण स्टैक पर आधारित है। इसके अलावा, जैसा कि विश्लेषक डायलन पटेल ने उल्लेख किया है , NVIDIA आपूर्ति श्रृंखला प्रबंधन, बिक्री रणनीतियों और बंडलिंग के संबंध में व्यावसायिक रणनीति के एक सेट का भी लाभ उठाता है, जिसे कुछ अन्य लोग दोहराने में सक्षम हैं। लेकिन इसका मतलब यह नहीं है कि प्रतिस्पर्धा निष्क्रिय है।
जहां तक सुपर कंप्यूटर और स्केलिंग की बात है, तो NVIDIA का Eos निश्चित रूप से शहर में एकमात्र गेम नहीं है। जैसा कि स्पार्क्स ने उल्लेख किया है, इंटेल का ऑरोरा जिसमें उसके स्वयं के 60,000 पोंटे वेक्चिओ जीपीयू शामिल हैं, ऑनलाइन होने वाला है। इसके अलावा, दुनिया में कई अन्य सुपर कंप्यूटर हैं जिनमें विभिन्न निर्माताओं के चिप्स और आर्किटेक्चर की एक श्रृंखला है, और वे सभी उच्च-प्रदर्शन फ़्लोटिंग पॉइंट अंकगणित करने में सक्षम हैं।
एनवीआईडीआईए के पास इस तथ्य के कारण बढ़त है कि यह एआई वर्कलोड पर ध्यान केंद्रित करने वाला पहला था, लेकिन इसके प्रत्येक महत्वाकांक्षी प्रतियोगी के पास पकड़ने के लिए एक रोडमैप है। कुछ समय पहले तक हम सोचते थे कि CUDA, NVIDIA की सॉफ्टवेयर परत, कंपनी की सबसे बड़ी खाई थी।
जैसा कि पटेल कहते हैं , कई मशीन लर्निंग फ्रेमवर्क आए और गए, लेकिन अधिकांश ने NVIDIA के CUDA का लाभ उठाने पर बहुत अधिक भरोसा किया है और NVIDIA GPU पर सबसे अच्छा प्रदर्शन किया है। हालाँकि, PyTorch 2.0 और OpenAI के ट्राइटन के आगमन के साथ, इस क्षेत्र में NVIDIA की प्रमुख स्थिति, मुख्य रूप से इसके सॉफ़्टवेयर moat के कारण, बाधित हो रही है। ये ढाँचे NVIDIA की प्रतिस्पर्धा के लिए अपना स्वयं का स्टैक बनाना आसान बनाते हैं।
निःसंदेह, जैसा कि पटेल ने एक अलग नोट में एनवीडिया की समूह से आगे रहने की अपनी योजना को रेखांकित करते हुए जोड़ा है, एनवीडिया हाथ पर हाथ धरे नहीं बैठा है। जबकि NVIDIA बेहद सफल है, वे उद्योग में सबसे अधिक पागल कंपनियों में से एक हैं, सीईओ जेन्सेन हुआंग एंडी ग्रोव की भावना का प्रतीक हैं। यह कोई संयोग नहीं है कि NVIDIA ने इस बात पर प्रकाश डाला कि उसकी टीम वर्तमान में हार्डवेयर इंजीनियरों की तुलना में दोगुने सॉफ्टवेयर इंजीनियरों को नियुक्त करती है।
सफलता आत्मसंतोष को जन्म देती है। आत्मसंतोष असफलता को जन्म देता है। केवल विक्षिप्त ही जीवित रहते हैं।
एंडी ग्रोव
पटेल NVIDIA की कुछ रणनीतियों पर सवाल उठाते हैं, जिस पर हमारी कोई राय नहीं है। हम जो कह सकते हैं वह यह है कि भले ही NVIDIA की अथकता उन्हें आत्मसंतुष्ट नहीं होने देती, लेकिन किसी एक विक्रेता के पास बहुत लंबे समय तक 80% से अधिक बाजार हिस्सेदारी होना बहुत स्वस्थ नहीं है। प्रतिस्पर्धा को आगे बढ़ते देखना शायद सभी के लिए अच्छी बात होगी।
इस बिंदु पर, हाइपरस्केलर्स, एएमडी और इंटेल जैसे मौजूदा प्रतिस्पर्धी और साथ ही अपस्टार्ट का एक झुंड 2024 और उससे आगे के लिए अपने स्वयं के कस्टम एआई चिप्स पर काम कर रहे हैं। यह अनुमान लगाया गया है कि NVIDIA के पास H100 पर 1000% मार्जिन है , जिसकी आपूर्ति भी कम है। इसमें कोई आश्चर्य नहीं कि हर कोई कार्रवाई का हिस्सा बनना चाहता है और/या अपनी स्वायत्तता बढ़ाना चाहता है। उपभोक्ताओं के लिए, अधिक प्रतिस्पर्धा का अर्थ होगा अधिक विकल्प और स्वायत्तता, साथ ही बेहतर प्रदर्शन और कीमतें।
हालाँकि, फिलहाल, NVIDIA अभी भी निर्विवाद नेता है - भले ही एक या दो फ़ुटनोट के साथ। उदाहरण के लिए, जब एनवीआईडीआईए के एमएलपर्फ परिणामों की सीधे इंटेल के गौडी से तुलना करने के लिए कहा गया, तो एनवीआईडीआईए डेव साल्वेटर में त्वरित कंप्यूटिंग समूह में उत्पाद विपणन के निदेशक ने दो बातें बताईं। सबसे पहले, गौडी प्रस्तुतियाँ 10K पैमाने के आसपास भी नहीं थीं। दूसरा, NVIDIA के परिणाम सामान्यीकृत आधार की तुलना में लगभग 2 गुना बेहतर थे। हालाँकि, विश्लेषक कार्ल फ्रायंड जैसे अन्य लोग गौडी2 को एक विश्वसनीय विकल्प मानते हैं ।
फुटनोट #1: एमएलपर्फ उद्योग में व्यापक रूप से प्रशंसित बेंचमार्क है। हालाँकि, सभी बेंचमार्क की तरह, यह सही नहीं है। जैसा कि स्पार्क्स ने उल्लेख किया है, MLPerf में एक महत्वपूर्ण तत्व जो गायब है वह है मूल्य निर्धारण। हालांकि यह समझ में आता है कि किसी भी बेंचमार्क में मूल्य निर्धारण को शामिल करना कई कारणों से मुश्किल है, लेकिन इसका मतलब यह भी है कि परिणामों को संदर्भ में रखने की आवश्यकता है। उदाहरण के लिए, पैट्रिक कैनेडी के विश्लेषण के अनुसार, इंटेल के गौडी2 का प्रदर्शन एनवीआईडीआईए के एच100 की तुलना में प्रति डॉलर 4 गुना बेहतर है।
फ़ुटनोट #2: अकेले प्रदर्शन शायद ही एकमात्र मीट्रिक है जो संभावित खरीदारों के लिए मायने रखता है। अक्सर, जो सबसे ज्यादा मायने रखता है वह है प्रदर्शन और लागत का अनुपात: एक निश्चित समय सीमा के भीतर एक निश्चित ऑपरेशन करने में कितना खर्च होता है। उस मीट्रिक पर पहुंचने के लिए, एआई चिप्स के स्वामित्व की कुल लागत (टीसीओ) को शामिल किया जाना चाहिए। यह एक जटिल अभ्यास है जिसके लिए गहरी विशेषज्ञता की आवश्यकता होती है।
एआई चिप्स के लिए टीसीओ का एक बड़ा हिस्सा अनुमान है, यानी उत्पादन में प्रशिक्षित एआई मॉडल का उपयोग। एआई मॉडल का प्रशिक्षण आम तौर पर एक महंगा और जटिल प्रयास है। तुलना में अनुमान सरल हो सकता है, लेकिन यह आम तौर पर एक मॉडल के जीवनकाल और परिचालन लागत का बड़ा हिस्सा बनता है।
प्रशिक्षण और अनुमान कार्यभार की अलग-अलग विशेषताएं होती हैं। इसका मतलब यह है कि एक प्रणाली जो प्रशिक्षण में अच्छा प्रदर्शन करती है, जरूरी नहीं कि वह अनुमान लगाने में भी उतना ही अच्छा प्रदर्शन करे। इस मामले में - जब साल्वेटर से अनुमान के आधार पर ईओएस के प्रदर्शन पर टिप्पणी करने के लिए कहा गया, तो उन्होंने उपस्थित लोगों को भविष्य की ब्रीफिंग के लिए संदर्भित किया। इस बीच, लोग अनुमान पर केंद्रित नई प्रणालियाँ बना रहे हैं, जबकि अन्य मौजूदा प्रणालियों का अधिकतम लाभ उठाने की कोशिश कर रहे हैं।
NVIDIA ने सिर्फ यह प्रदर्शित किया कि उसके नेतृत्व में तत्काल भविष्य में गिरावट के संकेत नहीं दिख रहे हैं। हालाँकि, यह जरूरी नहीं कि बाकी दुनिया के लिए अच्छी बात हो। प्रतिस्पर्धा वहाँ है, और आगे बढ़ने का मौका भी वहाँ है, भले ही यह इस समय दूर की कौड़ी लगे। 2024 में एआई चिप्स पर नजर रखनी होगी। किसी भी मामले में, एआई को विकसित करने और उपयोग करने के इच्छुक संगठनों के लिए बेंचमार्क हाइलाइट्स वास्तविक प्रभाव, प्रयोज्यता और टीसीओ में कैसे परिवर्तित होते हैं, यह रैखिक नहीं है।
प्रौद्योगिकी, डेटा, एआई और मीडिया कैसे एक-दूसरे में प्रवाहित होकर हमारे जीवन को आकार देते हैं, इसके बारे में कहानियां। विश्लेषण, निबंध, साक्षात्कार और समाचार। मध्य से दीर्घ रूप, प्रति माह 1-3 बार।
यहाँ भी प्रकाशित किया गया है.