डेटा एनालिटिक्स के गतिशील परिदृश्य में, एक एनालिटिक्स प्लेटफ़ॉर्म चुनना आपके व्यवसाय की निचली रेखा पर महत्वपूर्ण प्रभाव डाल सकता है। इस शैक्षिक लेख में, हम तीन हेवीवेट एनालिटिक्स दावेदारों का पता लगाने की तलाश में हैं: स्नोफ्लेक, बिगक्वेरी और क्लिकहाउस। हम उनके लागत मॉडल में गहराई से जाएंगे और आपको लागत-कुशल विश्लेषण की कला में महारत हासिल करने में मदद करने के लिए मूल्यवान रणनीतियों का खुलासा करेंगे - यह अंतर्दृष्टि की खोज करने वाली एक यात्रा है जो आपके डेटा गेम को बदल सकती है!
डेटा एनालिटिक्स में लागत प्रभावी निर्णय लेने के लिए, विश्लेषणात्मक डेटाबेस प्रबंधन सिस्टम (डीबीएमएस) के पीछे के लागत मॉडल को समझना महत्वपूर्ण है। एक सामान्य प्रारंभिक बिंदु क्लाउड-आधारित व्यवसायों की लागत संरचना की जांच करना है।
तो, पहले, आइए क्लाउड-आधारित विश्लेषणात्मक डेटाबेस के बारे में बात करें और क्लाउड में चलते समय वे लागत को कैसे संभालते हैं। इसे चित्रित करें: यह 2013 से पहले की बात है, और एक डेटा वेयरहाउस स्थापित करने में कई विक्रेताओं, हार्डवेयर बाधाओं और कॉन्फ़िगरेशन से निपटने में कई महीने लग सकते हैं। फिर 2013 में अमेज़ॅन रेडशिफ्ट आया, जिससे आप केवल एक क्रेडिट कार्ड के साथ 20 मिनट से कम समय में अपना डेटा वेयरहाउस शुरू कर सकते हैं - काफी आगे। इसने अन्य क्लाउड-आधारित डेटा वेयरहाउस जैसे BigQuery , स्नोफ्लेक और स्नोफ्लेक को संचालित करने वाली क्लाउड सेवाओं के लिए मार्ग प्रशस्त किया।
अधिकांश डेवलपर्स जैसे ही अपने क्लाउड बिल प्राप्त करना शुरू करते हैं, लागत-दक्षता के महत्व के बारे में सीखते हैं। उदाहरण के लिए, आप BigQuery पर एक लंबे समय तक चलने वाली क्वेरी चला सकते हैं जिसके परिणामस्वरूप आपको सैकड़ों, अक्सर हजारों डॉलर खर्च करने पड़ते हैं। इसे निम्नलिखित ट्वीट/एक्स पोस्ट से लें; यह कोई अकेली घटना नहीं है.
हमने हाल ही में इस विषय पर विस्तार से चर्चा करते हुए एक वेबिनार चलाया जहां रॉबर्ट होजेस (एल्टिनिटी इंक. के सीईओ) प्रत्येक विकल्प के गहन लागत विश्लेषण में जाते हैं और अंत में आपको एक वैकल्पिक DIY समाधान दिखाते हैं। इस लेख को पढ़ने के बाद बेझिझक उस वेबिनार की ऑन-डिमांड रिकॉर्डिंग देखें!
तो, आइए जानें कि ये डेटाबेस कैसे काम करते हैं और, इससे भी महत्वपूर्ण बात यह है कि वे अपनी सेवाओं का मूल्य कैसे तय करते हैं।
हम स्नोफ्लेक से शुरुआत करेंगे, लेकिन इसकी वास्तुकला में आने से पहले, हम व्यवसाय पर बात करेंगे। स्नोफ्लेक, एक सार्वजनिक रूप से कारोबार करने वाली कंपनी होने के नाते, हमें इसकी वित्तीय स्थिति के बारे में जानने का मौका देती है। एक हालिया रिपोर्ट में, उन्होंने कुल राजस्व में $2 बिलियन की भारी कमाई की। दिलचस्प बात यह है कि उनकी सेवा प्रदान करने की लागत लगभग $717 मिलियन है। यह लागत, जिसे बेची गई वस्तुओं की लागत के रूप में भी जाना जाता है, शो को चलाने के लिए स्नोफ्लेक की आवश्यकता होती है।
स्नोफ्लेक की क्लाउड सेवाओं को चलाने की लागत को समझना एक छिपे हुए खजाने की खोज की तरह है। यदि आप संख्याओं पर नज़र डालें, तो यह उनके कुल राजस्व का लगभग एक तिहाई, शायद थोड़ा अधिक है। तो, स्पष्ट अंग्रेजी में, यदि वह सारी लागत सीधे उनके क्लाउड खर्चों को कवर करने में चली गई और कुछ नहीं, तो जब वे आपसे शुल्क लेंगे तो वे चीजों को लगभग तीन गुना बढ़ा देंगे।
लेकिन निःसंदेह, यह इतना आसान नहीं है! स्नोफ्लेक जैसे पावरहाउस को चलाने की वास्तविक लागत केवल वर्चुअल मशीन चलाने और अमेज़ॅन एस 3 में डेटा को छिपाने से परे है। अब, यदि हम फिर से गणित करें, तो उनकी लागत पर वह मार्कअप क्या होगा? यह 5x की तरह है।
यह आपकी पिछली जेब में रखने के लिए एक अच्छा बेंचमार्क है। यदि किसी चीज़ को 5x से अधिक मार्कअप मिला है, तो यह स्नोफ्लेक के मूल्य निर्धारण की दुनिया में बड़े पैमाने पर रह रहा है। दूसरी ओर, यदि यह 5x से कम है, तो आप अधिक बजट-अनुकूल विकल्प देख रहे हैं। यह लागत पहेली को समझने के लिए एक गुप्त डिकोडर रिंग रखने जैसा है।
लागत-कुशल विश्लेषण में महारत हासिल करने के लिए, आइए स्नोफ्लेक, बिगक्वेरी और क्लिकहाउस के लागत मॉडल का विश्लेषण करें।
अब, आइए स्नोफ्लेक की लागतों का विवरण दें। वे "वर्चुअल डेटा वेयरहाउस" मॉडल का उपयोग करते हैं, जहां आपका डेटा S3 ऑब्जेक्ट स्टोरेज में रहता है। जब आप SQL क्वेरी चलाते हैं, तो आप क्रेडिट द्वारा संचालित वर्चुअल डेटा वेयरहाउस बनाते हैं, अनिवार्य रूप से होस्ट की गई प्रोसेसिंग इकाइयां स्टोरेज से डेटा खींचती हैं। इन वर्चुअल मशीनों की कीमत उनके मूल्य निर्धारण में सूचीबद्ध लगभग $2-4/घंटा के बीच है। ध्यान रखें: यह सबसे मितव्ययी विकल्प नहीं है।
यदि यह दिलचस्प मोड़ नहीं होता तो यह हमारे स्नोफ्लेक लागत विश्लेषण को समाप्त कर देता: स्नोफ्लेक में एक हालिया बग से पता चला कि वर्चुअल डेटा वेयरहाउस के लिए क्रेडिट अक्सर c5d2x बड़े उदाहरणों में अनुवादित होते हैं, जिसकी लागत लगभग 38 सेंट प्रति घंटा होती है। उल्लेखनीय रूप से, स्नोफ्लेक ऑब्जेक्ट स्टोरेज को महत्वपूर्ण रूप से चिह्नित नहीं करता है, इसकी कीमत अमेज़ॅन की एस 3 लागत के समान $ 23-40 प्रति टेराबाइट प्रति माह है। इसके बजाय, वास्तविक मार्कअप कंप्यूटिंग में होता है, जो स्टोरेज से 5 से 10 गुना अधिक महंगा हो सकता है।
आइए BigQuery पर करीब से नज़र डालें, जो क्लाउड डेटाबेस एनालिटिक्स में एक और दिग्गज है। BigQuery एक विशिष्ट मूल्य निर्धारण मॉडल पेश करता है जिसे "सर्वर रहित" या "ऑन-डिमांड" के रूप में जाना जाता है। इस सेटअप में, आप अपना डेटा एक अद्वितीय वितरित स्टोरेज सिस्टम पर संग्रहीत करते हैं, न कि अधिकांश क्लाउड सेवाओं द्वारा उपयोग किए जाने वाले विशिष्ट ऑब्जेक्ट स्टोरेज पर। हालाँकि, मूल्य निर्धारण काफी प्रतिस्पर्धी है, वस्तु भंडारण दरों के समान, कम से कम असम्पीडित डेटा के लिए। भंडारण के लिए कीमतें $0.016-0.023 प्रति जीबी प्रति माह से शुरू होती हैं—अब यह अधिक बजट-अनुकूल है।
यहाँ समस्या है: जब आप कोई क्वेरी चलाते हैं, तो BigQuery आवश्यकतानुसार गतिशील रूप से गणना संसाधन आवंटित करता है। यह आपकी क्वेरी प्रोसेसिंग के दौरान स्कैन किए गए प्रत्येक टेराबाइट डेटा के लिए आपसे $6.25 का शुल्क लेता है। इस मूल्य निर्धारण संरचना का अर्थ है कि यदि वितरित भंडारण से बड़ी मात्रा में डेटा को स्कैन करना शामिल है तो प्रतीत होने वाली निर्दोष क्वेरी भी लागत बढ़ा सकती हैं।
अब, BigQuery लागतों की तुलना मानक क्लाउड संसाधनों से करना आसान नहीं है। आपका वास्तविक खर्च विभिन्न कारकों पर निर्भर करता है, जैसे आप कितनी बार क्वेरी चलाते हैं और आपके डेटा भंडारण के तरीके। उदाहरण के लिए, यदि आप छिटपुट रूप से क्वेरी चलाते हैं, तो BigQuery लागत प्रभावी हो सकता है। लेकिन यदि आप 24/7 क्वेरी चला रहे हैं, तो यह महंगा हो सकता है। इसलिए, अपने कार्यभार को समझना और अपनी वास्तविक लागतों का सावधानीपूर्वक आकलन करना महत्वपूर्ण है।
जिन पिछले मॉडलों पर हमने चर्चा की है वे आम तौर पर डेटा प्रबंधन के लिए ऑब्जेक्ट स्टोरेज, या कुछ इसी तरह पर निर्भर करते हैं। हालाँकि, एक और क्लाउड डेटाबेस ऑपरेटिंग दृष्टिकोण है, जिसे शुरू में एक दशक पहले रेडशिफ्ट द्वारा पेश किया गया था। आइए इसे "बाय-द-बॉक्स" मॉडल कहें।
यहां सौदा है: आप एक वर्चुअल मशीन (VM ) किराए पर लेते हैं, जैसे कि dc28x बड़ी, जो संलग्न SSD ब्लॉक स्टोरेज के साथ आती है। उदाहरण के लिए, Amazon us-west-2 में, इस VM की कीमत आपको लगभग 4.80 सेंट प्रति घंटा होगी। अब, आइए वास्तविक लागतों को तोड़ें। यह वीएम संभवतः i38x बड़े इंस्टेंस से मेल खाता है, एक पुराना अमेज़ॅन इंस्टेंस प्रकार, जो स्थानीय एसएसडी स्टोरेज के साथ आता है। इस प्रकार के उदाहरण की लागत लगभग $2.50 प्रति घंटा है, जो लगभग समान मात्रा में RAM प्रदान करता है।
मार्कअप के संदर्भ में, रेडशिफ्ट 92% अधिक महंगा है जबकि 66% कम स्टोरेज प्रदान करता है यदि आप स्वयं एक समान वीएम स्थापित करते हैं। दिलचस्प बात यह है कि रेडशिफ्ट का मार्कअप स्नोफ्लेक जैसी कुछ अन्य सेवाओं की तुलना में अपेक्षाकृत कम है, जो कंप्यूटिंग संसाधनों के लिए अधिक शुल्क लेती है।
लागत दक्षता के लिए पिछले मॉडलों में सुधार करने के लिए, आइए सबसे पहले हम आपको ClickHouse से परिचित कराते हैं। यह एक मुफ़्त, प्रसिद्ध, ओपन-सोर्स, रीयल-टाइम एनालिटिक्स डेटाबेस है। ClickHouse का आर्किटेक्चर इंटरकनेक्टेड सर्वरों के इर्द-गिर्द घूमता है, जो निर्बाध डेटा प्रतिकृति में सक्षम हैं, विशेष रूप से प्रतिकृति तालिकाओं के साथ। यह प्रणाली कुशल स्तंभ भंडारण को नियोजित करती है, जहां डेटा संपीड़ित सरणियों में रहता है, न केवल भंडारण लागत को कम करता है बल्कि क्वेरी प्रदर्शन को भी बढ़ाता है।
प्रारंभ में, ClickHouse ब्लॉक स्टोरेज तक ही सीमित था, लेकिन यह S3-संगत ऑब्जेक्ट स्टोरेज का समर्थन करने के लिए विकसित हुआ है, जिससे यह बहुमुखी हो गया है और किसी भी S3 एपीआई-सुसज्जित ऑब्जेक्ट स्टोरेज समाधान के साथ एकीकरण के लिए खुला है। प्रतिकृति सर्वसम्मति को कुशलतापूर्वक प्रबंधित करने के लिए, ClickHouse ClickHouseKeeper या ZooKeeper पर निर्भर करता है।
आप क्लिकहाउस के बारे में अधिक पढ़ सकते हैं
अब, आइए इसे क्लाउड सेवा प्रतिमान के रूप में कल्पना करें, जिसे हम "आधुनिकीकृत बाय-द-बॉक्स" कहते हैं। नीचे दी गई छवि के बाईं ओर पारंपरिक रेडशिफ्ट वास्तुकला है, जबकि दाईं ओर, हम नवाचार को अपनाते हैं। हम पुराने i3 इंस्टेंसेस को तेज़ Intel-आधारित m6is से बदलते हैं, जिससे गति में उल्लेखनीय वृद्धि होती है। गेम-चेंजर ईबीएस (इलास्टिक ब्लॉक स्टोरेज) जीपी3 स्टोरेज का उपयोग है, जो बैंडविड्थ और थ्रूपुट पर नियंत्रण प्रदान करता है। इसे, रेडशिफ्ट जैसे कुशल वीएम के साथ जोड़कर, प्रति घंटे 2.64 सेंट की अनुमानित लागत आती है।
असली जादू भंडारण और कंप्यूटिंग को अलग करने से होता है। यह लचीला दृष्टिकोण आपको समान स्टोरेज रखते हुए सीपीयू और वीएम प्रकारों को आसानी से समायोजित करने देता है, जिससे लागत को ऊपर या नीचे बढ़ाया जा सकता है। Altinity.Cloud में ClickHouse अनुप्रयोगों को प्रबंधित करने का हमारा अनुभव इस दक्षता को दर्शाता है।
नीचे दिए गए ग्राफ़ में, आप संपूर्ण ऑन-डिमांड लागत देखेंगे
संक्षेप में कहें तो, हमने तीन क्लाउड-होस्टेड विश्लेषणात्मक डेटाबेस मॉडल और उनके लागत निहितार्थ का पता लगाया है। हमारी तुलना में, हमने यह स्पष्ट करने के लिए एक बटुए के आकार की तालिका बनाई है कि ये मॉडल एक-दूसरे के मुकाबले कैसे खड़े हैं।
"बाय-द-बॉक्स" दृष्टिकोण लागत प्रभावी कंप्यूटिंग प्रदान करता है लेकिन ब्लॉक स्टोरेज उपयोग के कारण महंगा भंडारण प्रदान करता है। दूसरी ओर, स्नोफ्लेक और बिगक्वेरी किफायती भंडारण की पेशकश करते हैं लेकिन विभिन्न तरीकों से महंगे हो सकते हैं। कंप्यूटिंग के मामले में स्नोफ्लेक अपेक्षाकृत महंगा होता है, जबकि व्यापक डेटा स्कैन को संभालते समय BigQuery का ऑन-डिमांड क्वेरी मॉडल महंगा हो सकता है। प्रत्येक मॉडल की अपनी ताकत और कमजोरियां होती हैं, जिससे उन्हें आपकी विशिष्ट विश्लेषण आवश्यकताओं के साथ संरेखित करना आवश्यक हो जाता है। "बाय-द-बॉक्स" अप्रत्याशित कार्यभार के साथ ग्राहक-सामना वाले विश्लेषण के लिए उपयुक्त है, जबकि वर्चुअल डेटा वेयरहाउस मॉडल और बिगक्वेरी विशिष्ट परिदृश्यों में उत्कृष्टता प्राप्त करते हैं, लेकिन आश्चर्य से बचने के लिए सावधानीपूर्वक लागत प्रबंधन की आवश्यकता होती है। यह अवलोकन आपको परिदृश्य को प्रभावी ढंग से नेविगेट करने में मदद करता है।
जब विश्लेषण की बात आती है, तो लागत-दक्षता सर्वोपरि है। स्नोफ्लेक, बिगक्वेरी और क्लिकहाउस जैसे लोकप्रिय प्लेटफार्मों के लागत मॉडल को समझना सूचित निर्णय लेने के लिए आवश्यक है। प्रत्येक प्लेटफ़ॉर्म की ताकत और कमजोरियों का मूल्यांकन करके और उनकी लागत संरचनाओं पर विचार करके, संगठन अपनी विशिष्ट आवश्यकताओं के अनुरूप लागत-कुशल विश्लेषणात्मक समाधान तैयार कर सकते हैं। ओपन-सोर्स समाधानों और शैक्षिक संसाधनों का लाभ उठाने से लागत को और अधिक अनुकूलित किया जा सकता है, जिससे यह सुनिश्चित होता है कि संगठन अपने बजट के प्रति सचेत रहते हुए अपने विश्लेषणात्मक लक्ष्यों को प्राप्त कर सकें।
यह लेख Altinity.com वेबिनार से लिया गया था।