आधुनिक उद्यम अपने डेटा से खुद को परिभाषित करता है। इसके लिए AI/ML के लिए डेटा इंफ्रास्ट्रक्चर के साथ-साथ एक डेटा इंफ्रास्ट्रक्चर की आवश्यकता होती है जो बिजनेस इंटेलिजेंस, डेटा एनालिटिक्स और डेटा साइंस का समर्थन करने में सक्षम आधुनिक डेटालेक की नींव है। यह सच है अगर वे पीछे हैं, शुरू कर रहे हैं या उन्नत अंतर्दृष्टि के लिए AI का उपयोग कर रहे हैं। निकट भविष्य के लिए, यह वह तरीका होगा जिससे उद्यमों को देखा जाएगा। उद्यम में AI कैसे बाजार में जाता है, इस बड़ी समस्या के कई आयाम या चरण हैं। उनमें डेटा अंतर्ग्रहण, परिवर्तन, प्रशिक्षण, अनुमान, उत्पादन और संग्रह शामिल हैं, जिसमें प्रत्येक चरण में डेटा साझा किया जाता है। जैसे-जैसे ये कार्यभार बढ़ते हैं, अंतर्निहित AI डेटा इंफ्रास्ट्रक्चर की जटिलता बढ़ती जाती है। यह स्वामित्व की कुल लागत (TCO) को कम करते हुए उच्च प्रदर्शन वाले बुनियादी ढांचे की आवश्यकता पैदा करता है।
मिनियो ने एक्सास्केल एआई और अन्य बड़े पैमाने के डेटा लेक वर्कलोड का समर्थन करने के लिए डेटा इन्फ्रास्ट्रक्चर के लिए एक व्यापक खाका तैयार किया है। इसे मिनियो डेटापॉड कहा जाता है। यह जिस माप की इकाई का उपयोग करता है वह 100 PiB है। क्यों? क्योंकि वास्तविकता यह है कि यह आज उद्यम में आम बात है। यहाँ कुछ त्वरित उदाहरण दिए गए हैं:
एक उत्तरी अमेरिकी ऑटोमोबाइल निर्माता जिसके पास लगभग एक एक्साबाइट कार वीडियो है
50 पीबी से अधिक कार टेलीमेट्री वाला एक जर्मन ऑटोमोबाइल निर्माता
50 पीबी से अधिक जैविक, रासायनिक और रोगी-केंद्रित डेटा वाली एक बायोटेक फर्म
500 पीबी से अधिक लॉग फ़ाइलों वाली एक साइबर सुरक्षा कंपनी
200 पीबी से अधिक वीडियो वाली मीडिया स्ट्रीमिंग कंपनी
एक रक्षा ठेकेदार जिसके पास विमानों से 80 पीबी से अधिक भू-स्थानिक, लॉग और टेलीमेट्री डेटा है
भले ही वे आज 100 पीबी पर न हों, लेकिन कुछ तिमाहियों में वे उस स्तर पर पहुंच जाएंगे। औसत फर्म सालाना 42% की दर से बढ़ रही है, डेटा-केंद्रित फर्में उस दर से दोगुनी या उससे भी अधिक की दर से बढ़ रही हैं।
मिनियो डेटापॉड संदर्भ आर्किटेक्चर को लगभग किसी भी पैमाने को प्राप्त करने के लिए विभिन्न तरीकों से स्टैक किया जा सकता है - वास्तव में हमारे पास ऐसे ग्राहक हैं जिन्होंने इस ब्लूप्रिंट का निर्माण किया है - एक एक्साबाइट से आगे और कई हार्डवेयर विक्रेताओं के साथ। मिनियो डेटापॉड एक एंड-टू-एंड आर्किटेक्चर प्रदान करता है जो इंफ्रास्ट्रक्चर प्रशासकों को विभिन्न प्रकार के AI और ML वर्कलोड के लिए लागत-कुशल समाधान तैनात करने में सक्षम बनाता है। यहाँ हमारे आर्किटेक्चर का तर्क है।
एआई वर्कलोड, विशेष रूप से जनरेटिव एआई, को कंप्यूट के लिए स्वाभाविक रूप से जीपीयू की आवश्यकता होती है। वे अविश्वसनीय थ्रूपुट, मेमोरी बैंडविड्थ और समानांतर प्रसंस्करण क्षमताओं वाले शानदार उपकरण हैं। तेजी से बढ़ते जीपीयू के साथ बने रहने के लिए हाई-स्पीड स्टोरेज की आवश्यकता होती है। यह विशेष रूप से तब सच होता है जब प्रशिक्षण डेटा मेमोरी में फिट नहीं हो सकता है और प्रशिक्षण लूप को स्टोरेज के लिए अधिक कॉल करने पड़ते हैं। इसके अलावा, उद्यमों को प्रदर्शन से अधिक की आवश्यकता होती है, उन्हें सुरक्षा, प्रतिकृति और लचीलापन की भी आवश्यकता होती है।
एंटरप्राइज़ स्टोरेज की आवश्यकता की मांग है कि आर्किटेक्चर स्टोरेज को कंप्यूट से पूरी तरह से अलग कर दे। यह स्टोरेज को कंप्यूट से स्वतंत्र रूप से स्केल करने की अनुमति देता है और यह देखते हुए कि स्टोरेज वृद्धि आम तौर पर कंप्यूट वृद्धि से एक या अधिक क्रम परिमाण अधिक होती है, यह दृष्टिकोण बेहतर क्षमता उपयोग के माध्यम से सर्वोत्तम अर्थशास्त्र सुनिश्चित करता है।
नेटवर्किंग इंफ्रास्ट्रक्चर ने AI वर्कलोड परिनियोजन के लिए 100 गीगाबिट प्रति सेकंड (Gbps) बैंडविड्थ लिंक पर मानकीकरण किया है। आधुनिक समय के NVMe ड्राइव औसतन 7GBps थ्रूपुट प्रदान करते हैं, जिससे स्टोरेज सर्वर और GPU कंप्यूट सर्वर के बीच नेटवर्क बैंडविड्थ AI पाइपलाइन निष्पादन प्रदर्शन के लिए बाधा बन जाती है।
इनफिनिबैंड (IB) जैसे जटिल नेटवर्किंग समाधानों के साथ इस समस्या को हल करने में वास्तविक सीमाएँ हैं। हम अनुशंसा करते हैं कि उद्यम मौजूदा, उद्योग-मानक ईथरनेट-आधारित समाधानों (जैसे, HTTP ओवर TCP) का लाभ उठाएँ जो GPU के लिए उच्च थ्रूपुट पर डेटा वितरित करने के लिए बॉक्स से बाहर काम करते हैं, निम्नलिखित कारणों से:
यह कोई संयोग नहीं है कि सार्वजनिक क्लाउड में AI डेटा इंफ्रास्ट्रक्चर सभी ऑब्जेक्ट स्टोर के ऊपर बनाए गए हैं। न ही यह कोई संयोग है कि हर प्रमुख आधारभूत मॉडल को ऑब्जेक्ट स्टोर पर प्रशिक्षित किया गया था। यह इस तथ्य का एक कार्य है कि POSIX AI द्वारा आवश्यक डेटा स्केल पर काम करने के लिए बहुत अधिक बातूनी है - भले ही विरासत फाइलर्स का कोरस क्या दावा करेगा।
सार्वजनिक क्लाउड में AI प्रदान करने वाली वही वास्तुकला निजी क्लाउड और स्पष्ट रूप से हाइब्रिड क्लाउड पर लागू की जानी चाहिए। ऑब्जेक्ट स्टोर विभिन्न डेटा प्रारूपों और असंरचित डेटा की बड़ी मात्रा को संभालने में उत्कृष्ट हैं और प्रदर्शन से समझौता किए बिना बढ़ते डेटा को समायोजित करने के लिए आसानी से स्केल कर सकते हैं। उनकी फ्लैट नेमस्पेस और मेटाडेटा क्षमताएं कुशल डेटा प्रबंधन और प्रसंस्करण को सक्षम करती हैं जो बड़े डेटासेट तक तेज़ पहुँच की आवश्यकता वाले AI कार्यों के लिए महत्वपूर्ण है।
जैसे-जैसे उच्च गति वाले GPU विकसित होते हैं और नेटवर्क बैंडविड्थ 200/400/800 Gbps और उससे आगे मानकीकृत होता है, आधुनिक ऑब्जेक्ट स्टोर ही एकमात्र समाधान होगा जो प्रदर्शन SLAs और AI कार्यभार के पैमाने को पूरा करता है।
हम जानते हैं कि GPU शो के स्टार हैं और वे हार्डवेयर हैं। लेकिन Nvidia भी आपको बताएगा कि गुप्त सॉस CUDA है। हालाँकि, चिप से बाहर निकलें, और बुनियादी ढाँचे की दुनिया तेजी से सॉफ़्टवेयर-परिभाषित है। स्टोरेज से कहीं ज़्यादा यह बात सच है। सॉफ़्टवेयर-परिभाषित स्टोरेज समाधान स्केलेबिलिटी, लचीलेपन और क्लाउड एकीकरण के लिए आवश्यक हैं, जो निम्नलिखित कारणों से पारंपरिक उपकरण-आधारित मॉडल से बेहतर हैं:
क्लाउड अनुकूलता : सॉफ्टवेयर-परिभाषित भंडारण, क्लाउड परिचालनों के साथ संरेखित होता है, जबकि अन्य उपकरण एकाधिक क्लाउडों पर नहीं चल सकते।
कंटेनरीकरण : उपकरणों को कंटेनरीकृत नहीं किया जा सकता, जिससे क्लाउड-नेटिव लाभ समाप्त हो जाते हैं और कुबेरनेट्स ऑर्केस्ट्रेशन में बाधा उत्पन्न होती है।
हार्डवेयर लचीलापन : सॉफ्टवेयर-परिभाषित भंडारण एज से लेकर कोर तक हार्डवेयर की एक विस्तृत श्रृंखला का समर्थन करता है, जो विविध आईटी वातावरणों को समायोजित करता है।
अनुकूली प्रदर्शन : सॉफ्टवेयर-परिभाषित भंडारण बेजोड़ लचीलापन प्रदान करता है, विभिन्न चिपसेटों में विभिन्न क्षमताओं और प्रदर्शन आवश्यकताओं को कुशलतापूर्वक प्रबंधित करता है।
एक्साबाइट पैमाने पर, सरलता और क्लाउड-आधारित ऑपरेटिंग मॉडल महत्वपूर्ण हैं। सॉफ़्टवेयर-परिभाषित समाधान के रूप में ऑब्जेक्ट स्टोरेज को कमोडिटी ऑफ़-द-शेल्फ़ (COTS) हार्डवेयर और किसी भी कंप्यूट प्लेटफ़ॉर्म पर निर्बाध रूप से काम करना चाहिए, चाहे वह बेयर मेटल, वर्चुअल मशीन या कंटेनर हो।
वस्तु भंडारण के लिए कस्टम-निर्मित हार्डवेयर उपकरण अक्सर महंगे हार्डवेयर और जटिल समाधानों के साथ खराब डिजाइन किए गए सॉफ्टवेयर की भरपाई करते हैं, जिसके परिणामस्वरूप स्वामित्व की कुल लागत (TCO) अधिक हो जाती है।
AI पहल के लिए MinIO का उपयोग करने वाले एंटरप्राइज़ ग्राहक 100PiB की दोहराए जाने योग्य इकाइयों के रूप में एक्साबाइट स्केल डेटा इंफ्रास्ट्रक्चर बनाते हैं। इससे इंफ्रास्ट्रक्चर प्रशासकों को तैनाती, रखरखाव और स्केलिंग की प्रक्रिया को आसान बनाने में मदद मिलती है क्योंकि समय के साथ AI डेटा तेजी से बढ़ता है। नीचे 100PiB स्केल डेटा इंफ्रास्ट्रक्चर बनाने के लिए सामग्री का बिल (BOM) दिया गया है।
अवयव | मात्रा |
---|---|
रैक की कुल संख्या | 30 |
स्टोरेज सर्वर की कुल संख्या | 330 |
प्रति रैक स्टोरेज सर्वर की कुल संख्या | 11 |
TOR स्विचों की कुल संख्या | 60 |
स्पाइन स्विच की कुल संख्या | 10 |
इरेज़र कोड पट्टी का आकार | 10 |
इरेज़र कोड समता | 4 |
अवयव | विवरण | मात्रा |
---|---|---|
रैक संलग्नक | 42U/45U स्लॉट रैक | 1 |
स्टोरेज सर्वर | 2U फॉर्म फैक्टर | 11 |
रैक के शीर्ष स्विच | लेयर 2 स्विच | 2 |
प्रबंधन स्विच | संयुक्त परत 2 और परत 3 | 1 |
नेटवर्क केबल्स | एओसी केबल | 30-40 |
शक्ति | आरपीडीयू के साथ दोहरी बिजली आपूर्ति | 17 किलोवाट - 20 किलोवाट |
अवयव | विनिर्देश |
---|---|
सर्वर | 2U, एकल सॉकेट |
CPU | 64 कोर, 128 * PCIe 4.0 लेन |
याद | 256 जीबी |
नेटवर्क | डुअल पोर्ट, 200gbe एनआईसी |
खाड़ी चलाना | 24 हॉट-स्वैप 2.5" U.2 NVMe |
ड्राइव | 30टीबी * 24 एनवीएमई |
शक्ति | 1600W अतिरिक्त बिजली आपूर्ति |
कुल कच्ची क्षमता | 720 टीबी |
डेल : पॉवरएज R7615 रैक सर्वर
एचपीई : एचपीई प्रोलिएंट डीएल345 जेन11
सुपरमाइक्रो : A+ सर्वर 2114S-WN24RT
अवयव | विनिर्देश | |
---|---|---|
टॉप ऑफ़ द रैक (TOR) स्विच | 32 * 100GbE QSFP 28 पोर्ट | |
स्पाइन स्विच | 64 * 100GbE QSFP 28 पोर्ट | |
केबल | 100जी क्यूएसएफपी 28 एओसी | |
शक्ति | 500 वाट प्रति स्विच | |
मिनियो ने इस आर्किटेक्चर को कई ग्राहकों के साथ मान्य किया है और उम्मीद है कि अन्य ग्राहक प्रति टेराबाइट प्रति माह निम्न औसत कीमत देखेंगे। यह एक औसत सड़क मूल्य है और वास्तविक मूल्य कॉन्फ़िगरेशन और हार्डवेयर विक्रेता संबंध के आधार पर भिन्न हो सकता है।
पैमाना | स्टोरेज हार्डवेयर की कीमत **(प्रति टीबी/माह)** | मिनियो सॉफ्टवेयर मूल्य **(प्रति टीबी/माह)** |
---|---|---|
100पीआईबी | $1.50 | $3.54 |
एआई के लिए विक्रेता विशिष्ट टर्नकी हार्डवेयर उपकरणों के परिणामस्वरूप उच्च टीसीओ होगा और एक्साबाइट पैमाने पर बड़े डेटा एआई पहलों के लिए इकाई अर्थशास्त्र के दृष्टिकोण से यह स्केलेबल नहीं है।
सभी AI/ML कार्यभार के लिए TCO उद्देश्यों को पूरा करते हुए एक्साबाइट पैमाने पर डेटा इन्फ्रास्ट्रक्चर सेटअप जटिल और सही तरीके से प्राप्त करना कठिन हो सकता है। मिनियो का डेटापॉड इन्फ्रास्ट्रक्चर ब्लूप्रिंट इन्फ्रास्ट्रक्चर प्रशासकों के लिए अत्यधिक स्केलेबल, प्रदर्शनकारी लागत प्रभावी S3 संगत मिनियो एंटरप्राइज़ ऑब्जेक्ट स्टोर के साथ आवश्यक कमोडिटी ऑफ़ द शेल्फ हार्डवेयर को सेट करना सरल और सीधा बनाता है, जिसके परिणामस्वरूप एंटरप्राइज़ परिदृश्य के भीतर संगठनों में AI पहलों से समग्र समय-से-बाजार में सुधार और मूल्य प्राप्त करने में तेज़ी आती है।