एआई को अपनाने के उत्साह के बीच एक महत्वपूर्ण और अक्सर नजरअंदाज की जाने वाली सच्चाई है - किसी भी एआई पहल की सफलता आंतरिक रूप से अंतर्निहित डेटा बुनियादी ढांचे की गुणवत्ता, विश्वसनीयता और प्रदर्शन से जुड़ी होती है। यदि आपके पास उचित नींव नहीं है, तो आप जो निर्माण कर सकते हैं उसमें सीमित हैं और इसलिए आप क्या हासिल कर सकते हैं।
आपका डेटा इन्फ्रास्ट्रक्चर वह आधार है जिस पर आपका संपूर्ण एआई इन्फ्रास्ट्रक्चर बनाया गया है। यह वह जगह है जहां डेटा एकत्र, संग्रहीत, संसाधित और रूपांतरित किया जाता है। पर्यवेक्षित, अप्रशिक्षित और सुदृढीकरण सीखने का उपयोग करने वाले प्रशिक्षण मॉडल के लिए भंडारण समाधान की आवश्यकता होती है जो संरचित डेटा को संभाल सके - जैसे डेटा वेयरहाउस। दूसरी ओर, यदि आप बड़े भाषा मॉडल (एलएलएम) का प्रशिक्षण ले रहे हैं, तो आपको असंरचित डेटा - दस्तावेज़ों को उनके कच्चे और संसाधित रूप में प्रबंधित करना होगा।
एक मॉडर्न डेटालेक, या लेकहाउस, एआई के इन दोनों अलग-अलग स्वादों की नींव है। एक मॉडर्न डाटालेक आधा डेटा वेयरहाउस और आधा डेटा लेक है और हर चीज के लिए ऑब्जेक्ट स्टोरेज का उपयोग करता है। हाल ही में, हमने ओपन टेबल प्रारूपों का उदय देखा है। अपाचे आइसबर्ग, अपाचे हुडी और डेल्टा लेक जैसे ओपन टेबल फॉर्मेट (ओटीएफ) डेटा वेयरहाउस के भीतर ऑब्जेक्ट स्टोरेज का उपयोग करना आसान बनाते हैं।
इस लेख के बाकी हिस्से में इस बात की जांच की जाएगी कि मॉडर्न डेटालेक की उन विशेषताओं का लाभ कैसे उठाया जाए जो इसे मालिकाना डेटा वेयरहाउस और उपकरणों जैसे पारंपरिक समाधानों से अलग करती हैं। एआई बुनियादी ढांचे की नींव बनाने के लिए आपको निम्नलिखित की आवश्यकता है:
यदि हम उपरोक्त पर सहमत हैं, तो सर्वोत्तम प्रथाओं की एक श्रृंखला सामने आती है जो प्रदर्शन के दो क्षेत्रों पर केंद्रित होती है। यदि शामिल किया गया, तो आधुनिक डेटालेक तेज़ और स्केलेबल दोनों होगा। इन सर्वोत्तम प्रथाओं में शामिल हैं:
आपके डेटा इंफ्रास्ट्रक्चर के भीतर गणना और भंडारण को अलग-अलग करने का मतलब है कि गणना और भंडारण के लिए अलग-अलग संसाधनों का उपयोग किया जाता है। यह पारंपरिक भंडारण समाधानों के विपरीत है, जहां सब कुछ एक ही सर्वर या इससे भी बदतर, एक उपकरण में पैक किया जाता है। हालाँकि, आधुनिक डेटालेक पृथक्करण को दूसरे स्तर पर ले जाता है। यदि डेटा लेक और डेटा वेयरहाउस की भंडारण आवश्यकताएं पूरी तरह से अलग हैं, तो हम ऑब्जेक्ट स्टोर के दो अलग-अलग उदाहरणों का उपयोग कर सकते हैं, जैसा कि नीचे दिखाया गया है।
इसके अतिरिक्त, यदि डेटा वेयरहाउस को ऐसे वर्कलोड का समर्थन करने की आवश्यकता है जिसके लिए परस्पर विरोधी कॉन्फ़िगरेशन की आवश्यकता होती है, तो आप एक से अधिक प्रोसेसिंग इंजन का उपयोग कर सकते हैं। यह नीचे दिखाया गया है.
एक कंपोज़ेबल इन्फ्रास्ट्रक्चर आपको अपनी गणना और भंडारण संसाधनों को स्वतंत्र रूप से मापने की अनुमति देता है। इसका मतलब यह है कि आप अपने बुनियादी ढांचे के उस हिस्से में अधिक संसाधन आवंटित कर सकते हैं, जिसे कंप्यूट और स्टोरेज दोनों को एक साथ अपग्रेड करने के बजाय इसकी सबसे अधिक आवश्यकता है। इसके परिणामस्वरूप लागत प्रभावी स्केलिंग होती है क्योंकि आप केवल आवश्यक संसाधनों में ही निवेश करते हैं।
एआई वर्कलोड डेटा गहन होते हैं, अक्सर कई सीपीयू या जीपीयू में वितरित होते हैं, प्रशिक्षण के लिए प्रचुर गणना शक्ति का उपयोग करते हैं, और वास्तविक समय अनुमान की आवश्यकता होती है। स्केलिंग आउट, न कि ऊपर, प्रदर्शन को अनुकूलित करने और हाई-स्पीड नेटवर्क को समायोजित करने में मदद करता है।
आपके डेटा इंफ्रास्ट्रक्चर की क्षमता और प्रदर्शन को बढ़ाने के लिए स्केलिंग आउट और स्केलिंग दो अलग-अलग दृष्टिकोण हैं। हालाँकि, स्केलिंग अधिक व्यवहार्य दृष्टिकोण साबित हो रहा है क्योंकि कुबेरनेट्स जैसे क्लस्टरिंग प्लेटफार्मों में प्रगति हुई है और अधिक से अधिक समाधान क्लाउड नेटिव बनने का प्रयास कर रहे हैं। अलग-अलग बुनियादी ढांचे में स्केलिंग प्रदान करता है:
उच्च उपलब्धता और दोष सहनशीलता - यदि एक नोड व्यस्त है, तो दूसरा नोड एक नया अनुरोध ले सकता है, प्रतीक्षा समय को कम कर सकता है और थ्रूपुट बढ़ा सकता है। यदि एक नोड विफल हो जाता है, तो कार्यभार को अन्य नोड्स पर स्थानांतरित किया जा सकता है, जिससे डाउनटाइम कम हो जाता है और निरंतरता सुनिश्चित होती है।
प्रदर्शन और लचीलापन - बड़ी मात्रा में डेटा और अधिक समवर्ती अनुरोधों को संभालने के लिए स्केलिंग आउट कई नोड्स या सर्वर पर वर्कलोड वितरित करके बेहतर प्रदर्शन प्रदान कर सकता है। स्केलिंग अधिक लचीली है क्योंकि आप आवश्यकतानुसार नोड्स जोड़ या हटा सकते हैं, जिससे उतार-चढ़ाव वाले कार्यभार को समायोजित करना या मौसमी बदलावों को समायोजित करना आसान हो जाता है।
परिचालन और संसाधन कुशल - जब आप स्केल आउट करते हैं तो रखरखाव और उन्नयन सरल हो जाते हैं। अपग्रेड के लिए एक महत्वपूर्ण सिस्टम को ऑफ़लाइन लेने के बजाय, आप संपूर्ण बुनियादी ढांचे को बाधित किए बिना व्यक्तिगत भंडारण या कंप्यूट नोड्स पर रखरखाव कर सकते हैं।
एआई के लिए एक मजबूत नींव बनाने के लिए मॉडर्न डेटालेक का लाभ उठाने का अंतिम घटक क्लाउड-नेटिव, सॉफ्टवेयर-परिभाषित दृष्टिकोण अपना रहा है।
डॉकर जैसे कंटेनर और कुबेरनेट्स जैसे कंटेनर ऑर्केस्ट्रेशन उपकरण, क्लाउड-नेटिव आर्किटेक्चर को संभव बनाते हैं। मॉडर्न डेटालेक के सभी घटक कुबेरनेट्स में चलने वाले कंटेनरों में चलते हैं। इसलिए, मॉडर्न डेटालेक क्लाउड नेटिव है।
"सॉफ़्टवेयर-परिभाषित" एक ऐसे दृष्टिकोण को संदर्भित करता है जिसमें सॉफ़्टवेयर हार्डवेयर घटकों के कॉन्फ़िगरेशन, कार्यक्षमता और व्यवहार को नियंत्रित और प्रबंधित करता है, अक्सर कंप्यूटर सिस्टम और नेटवर्किंग के संदर्भ में। यह कोड मूवमेंट के रूप में बुनियादी ढांचे का निर्माण खंड है जहां स्मार्ट सॉफ्टवेयर और डंब फास्ट हार्डवेयर पर जोर दिया जाता है। सॉफ्टवेयर-परिभाषित भंडारण सार और सॉफ्टवेयर के माध्यम से भंडारण संसाधनों का प्रबंधन करता है, जिससे विभिन्न उपकरणों और भंडारण मीडिया में भंडारण क्षमता का आवंटन और प्रबंधन आसान हो जाता है।
अपने कमोडिटी हार्डवेयर और सॉफ़्टवेयर-परिभाषित आर्किटेक्चर का पूरा लाभ उठाने के लिए - आपको दो और महत्वपूर्ण टुकड़ों की आवश्यकता है। पहला है NVMe ड्राइव। आधुनिक, प्रदर्शन उन्मुख कार्यभार, पढ़ने/लिखने की यादृच्छिक प्रकृति, छोटी वस्तुओं का उदय और एसएसडी मूल्य में गिरावट सभी एक पक्ष में हैं
दूसरा घटक 100GbE नेटवर्किंग है। सॉफ़्टवेयर-परिभाषित दुनिया में, 100 जीबीई पर भी नेटवर्क कई सेटअपों में बाधा बन जाता है। यहां उनमें से कुछ परिदृश्य हैं:
डेटा गहन - एआई वर्कलोड अक्सर बड़े पैमाने पर डेटासेट को संसाधित करता है, जैसे कि चित्र, वीडियो, प्राकृतिक भाषा पाठ और सेंसर डेटा। हाई-स्पीड नेटवर्क इन बड़े डेटासेट को स्टोरेज और प्रोसेसिंग इकाइयों के बीच जल्दी से स्थानांतरित कर सकते हैं, जिससे डेटा ट्रांसफर की बाधाएं कम हो सकती हैं।
वितरित कंप्यूटिंग - कई एआई कार्यों में कई सीपीयू या जीपीयू में वितरित कंप्यूटिंग शामिल होती है। हाई-स्पीड नेटवर्क इन उपकरणों के बीच कुशल संचार और डेटा विनिमय को सक्षम करते हैं, जिससे यह सुनिश्चित होता है कि कंप्यूटिंग क्लस्टर समानांतर रूप से प्रभावी ढंग से काम करते हैं।
मॉडल प्रशिक्षण - गहन शिक्षण मॉडल, विशेष रूप से ट्रांसफॉर्मर या कनवल्शनल न्यूरल नेटवर्क जैसे एलएलएम के प्रशिक्षण के लिए बहुत अधिक डेटा और कम्प्यूटेशनल शक्ति की आवश्यकता होती है। एक हाई-स्पीड नेटवर्क वितरित जीपीयू के बीच तेजी से डेटा लोडिंग और सिंक्रनाइज़ेशन की अनुमति देता है, जो प्रशिक्षण समय को काफी तेज कर सकता है।
वास्तविक समय अनुमान - एआई को शामिल करने वाले उत्तरदायी अनुप्रयोगों के लिए कम-विलंबता और उच्च-थ्रूपुट नेटवर्क आवश्यक हैं। एक हाई-स्पीड नेटवर्क उपयोगकर्ता के अनुरोध और मॉडल की प्रतिक्रिया के बीच न्यूनतम देरी सुनिश्चित करता है।
इन सिद्धांतों का पालन करके: गणना और भंडारण का पृथक्करण, स्केल-आउट, नॉट अप, डंब, तेज़ हार्डवेयर और स्मार्ट क्लाउड नेटिव सॉफ़्टवेयर उद्यम एक आधुनिक डेटालेक का निर्माण कर सकता है जिसके पास इन आवश्यकताओं को पूरा करने और आपकी एआई पहल को आगे बढ़ाने के लिए सही आधार है। आगे।
आप ख़राब नींव पर इमारत नहीं बना सकते, बस प्राचीन मिस्रवासियों से पूछें। एआई गेम बड़े पैमाने पर प्रदर्शन के बारे में है, और इसके लिए सही आधार की आवश्यकता होती है। नींव पर कंजूसी करना तकनीकी ऋण जमा करना है जो कुछ मिनटों के बाद आपके जेंगा टॉवर को गिरा देगा। स्मार्ट निर्माण करें, नींव सही रखें।