यह ब्लॉग समग्र रूप से कवर करेगा:
(ए) डेटा वेयरहाउसिंग क्या है
(बी) डेटा वेयरहाउस के लिए डेटा मॉडलिंग दृष्टिकोण
(सी) एडब्ल्यूएस पर डेटा वेयरहाउस, और अंत में
(डी) प्रबंधित सेवा का उपयोग करके परिचालन भार को कम करने के लिए डेटा वेयरहाउसिंग।
आइए एक आम आदमी के दृष्टिकोण से समझें " डेटा वेयरहाउस क्या है "
विकिपीडिया के अनुसार - एक डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, रिपोर्टिंग और डेटा विश्लेषण के लिए उपयोग की जाने वाली एक प्रणाली है और इसे बिजनेस इंटेलिजेंस का एक मुख्य घटक माना जाता है। डेटा वेयरहाउस एक या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार हैं। वे वर्तमान और ऐतिहासिक डेटा को एक ही स्थान पर संग्रहीत करते हैं जिसका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है। यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।
बुनियादी शब्दों में, यह किसी व्यवसाय को डेटा-संचालित संगठन बनने में मदद करने के लिए अंतर्दृष्टि (व्यावसायिक खुफिया) एकत्र करने, संग्रहीत करने और कुशलतापूर्वक प्रदान करने की कला है। कुछ अर्थों में यह एक अन्य लेन-देन डेटाबेस है, लेकिन इसे विश्लेषणात्मक कार्यभार के लिए अनुकूलित किया गया है।
उपरोक्त आरेख के अनुसार, डेटा स्रोत से एकत्र किया जाता है, प्रति उपयोग (ईटीएल/ईएलटी) में परिवर्तित किया जाता है, और डीडब्ल्यूएच/डेटा मार्ट में संग्रहीत किया जाता है और बिजनेस इंटेलिजेंस टूल के माध्यम से उजागर किया जाता है।
ऑन-प्रिमाइसेस सेटअप के दिनों में सब कुछ सरल दिखता था जब ईएलटी (ईटीएल बनाम ईएलटी), क्लाउड डीडब्ल्यूएच (एडब्ल्यूएस रेडशिफ्ट, गूगल बिग क्वेरी, स्नोफ्लेक, डेटाब्रिक्स) और अन्य प्रबंधित डेटा समाधान अस्तित्व में नहीं थे, जो हाल ही में सरलीकृत और स्केल किए गए थे। DWH की पहुंच. आइए इस ब्लॉग में हर पहलू को एक-एक करके समझते हैं।
सरलता के लिए आइए इस आधार पर चलें कि कोई अनंत गणना और भंडारण नहीं है और लेनदेन प्रणाली विश्लेषणात्मक प्रश्नों को कुशलतापूर्वक संसाधित नहीं कर सकती है। यहीं पर डेटा वेयरहाउस को डिजाइन करने के लिए एक कुशल तरीके की आवश्यकता थी जो भंडारण में इष्टतम हो, विश्लेषणात्मक प्रश्नों (स्लाइसिंग/डाइसिंग/क्यूब, आदि) को कुशलतापूर्वक संभालता हो, और आवश्यक विलंबता प्रदान करता हो।
इस सब के लिए, डेटावेयरहाउस डिज़ाइन के लिए दो सैद्धांतिक डिज़ाइन मॉडल चित्र में आए:
(ए) बिल इनमोन - टॉप डाउन दृष्टिकोण (ईडीडब्ल्यू) और
(बी) राल्फ किमबॉल - बॉटम-अप अप्रोच (डेटा मार्ट)।
इनमोन का दृष्टिकोण वैश्विक स्तर पर केंद्रीय रूप से निर्माण करना और धीमी गति से निर्माण करना है जबकि किमबॉल का तरीका साइलो द्वारा एक स्वतंत्र डेटा मार्ट बनाना और बाद में एक साथ जुड़ना है। आइए इस बात पर ध्यान न दें कि कौन सा मॉडल सबसे अच्छा है या किसे चुनना है। मेरे मामले में, संक्षेप में, दोनों मॉडल काम करते हैं और यह पूरी तरह से उपयोग के मामले और संगठन की परिपक्वता पर निर्भर करता है। इस डिज़ाइन में एक अन्य मुख्य बिंदु "डेटा प्रतिनिधित्व" है, स्टार स्कीमा, स्नोफ्लेक स्कीमा, या स्टार और स्नोफ्लेक के हाइब्रिड का उपयोग करके आयामी मॉडलिंग जो तेज़ क्वेरी और आयामीता की एक प्रमुख धुरी है।
एकमात्र महत्वपूर्ण उपाय यह है कि अनंत लॉजिस्टिक्स के बावजूद, एक अच्छा डेटावेयरहाउस डिज़ाइन एक बहु-आयामी समस्या को हल कर सकता है। इसलिए, बेहतर होगा कि इसे नज़रअंदाज न किया जाए।
DW के निर्माण में अगला कदम पसंद का प्लेटफ़ॉर्म है जो ऑन-प्रिमाइस (टेराडेटा, IBM DB2, Oracle, आदि) से लेकर क्लाउड DW (स्नोफ्लेक, रेडशिफ्ट, बिगक्वेरी, आदि) तक भिन्न हो सकता है। पारंपरिक डेटा वेयरहाउस का निर्माण जटिल है, और चल रहा प्रबंधन और रखरखाव चुनौतीपूर्ण और महंगा हो सकता है। अगले भाग में, हम AWS रेडशिफ्ट के साथ निर्माण करने के तरीके के बारे में जानेंगे (यदि ऑन-प्रिमाइसेस बेहतर है या क्लाउड या कौन सा क्लाउड DWH बेहतर है तो कोई तर्क नहीं)।
अमेज़ॅन रेडशिफ्ट एक पूरी तरह से प्रबंधित पेटाबाइट स्केल एंटरप्राइज-ग्रेड डेटा वेयरहाउस है जो एनालिटिक्स प्रश्नों के लिए असाधारण प्रदर्शन प्रदान करता है जो उपयोग में आसान और लागत प्रभावी है। अमेज़ॅन रेडशिफ्ट पैचिंग, बैकअप और हार्डवेयर प्रावधान जैसे कार्यों को स्वचालित करके पारंपरिक डेटा वेयरहाउस के साथ आवश्यक परिचालन ओवरहेड को कम करता है। आप अमेज़ॅन रेडशिफ्ट क्लस्टर को कॉन्फ़िगर कर सकते हैं जहां आप अपने डेटा वेयरहाउस के लिए बुनियादी ढांचे और प्रदर्शन बेसलाइन को अनुकूलित कर सकते हैं। अमेज़ॅन रेडशिफ्ट रेडशिफ्ट स्पेक्ट्रम, डेटाशेयर, रेडशिफ्ट एमएल और सर्वर रहित सेटअप भी प्रदान करता है जो आपको डीडब्ल्यूएच से परे अमेज़ॅन रेडशिफ्ट क्लस्टर का उपयोग करने की अनुमति देता है।
सेटअप करने का तरीका,
अब तक क्लाउड डीडब्ल्यूएच का उपयोग करना समझ में आता है लेकिन यह डेटा समाधान के लिए डीडब्ल्यूएच + डेटा लेक/प्रबंधित सेवाओं की बड़ी योजना में कैसे फिट बैठता है ? नीचे दी गई छवि बताती है कि डेटा लेक और डेटा वेयरहाउस एक साथ कैसे निर्बाध रूप से काम करते हैं। AWS RDS डेटा स्रोत के रूप में कार्य करता है, एक लागत प्रभावी और टिकाऊ समाधान प्रदान करता है, जो Amazon S3 में फीड होता है। फिर डेटा को ETL प्रक्रियाओं का उपयोग करके रूपांतरित किया जाता है और Redshift में ऑनबोर्ड किया जाता है। अतिरिक्त AWS सेवाएँ जैसे एथेना, ग्लू, स्पेक्ट्रम, लेक फॉर्मेशन और अन्य एक व्यापक डेटा समाधान बनाने के लिए अंतर को पाटने में महत्वपूर्ण भूमिका निभाते हैं।
अंत में, यह ब्लॉग डेटा वेयरहाउसिंग के बुनियादी सिद्धांतों को शामिल करता है, सैद्धांतिक रूप से और तकनीकी स्टैक पर ध्यान केंद्रित करते हुए कार्यान्वयन दृष्टिकोण पर प्रकाश डालता है। हम यह भी समझते हैं कि यह कैसे डेटा समाधानों के व्यापक परिदृश्य में सहजता से एकीकृत होता है।