यह ब्लॉग समग्र रूप से कवर करेगा:  (ए) डेटा वेयरहाउसिंग क्या है  (बी) डेटा वेयरहाउस के लिए डेटा मॉडलिंग दृष्टिकोण  (सी) एडब्ल्यूएस पर डेटा वेयरहाउस, और अंत में  (डी) प्रबंधित सेवा का उपयोग करके परिचालन भार को कम करने के लिए डेटा वेयरहाउसिंग।  आइए एक आम आदमी के दृष्टिकोण से समझें "   " डेटा वेयरहाउस क्या है     विकिपीडिया के अनुसार - एक डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, रिपोर्टिंग और डेटा विश्लेषण के लिए उपयोग की जाने वाली एक प्रणाली है और इसे   का एक मुख्य घटक माना जाता है। डेटा वेयरहाउस एक या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार हैं। वे वर्तमान और ऐतिहासिक डेटा को एक ही स्थान पर संग्रहीत करते हैं जिसका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है। यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है। बिजनेस इंटेलिजेंस  बुनियादी शब्दों में, यह किसी व्यवसाय को डेटा-संचालित संगठन बनने में मदद करने के लिए अंतर्दृष्टि (व्यावसायिक खुफिया) एकत्र करने, संग्रहीत करने और कुशलतापूर्वक प्रदान करने की कला है। कुछ अर्थों में यह एक अन्य लेन-देन डेटाबेस है, लेकिन इसे विश्लेषणात्मक कार्यभार के लिए अनुकूलित किया गया है।   उपरोक्त आरेख के अनुसार, डेटा स्रोत से एकत्र किया जाता है, प्रति उपयोग (ईटीएल/ईएलटी) में परिवर्तित किया जाता है, और डीडब्ल्यूएच/डेटा मार्ट में संग्रहीत किया जाता है और बिजनेस इंटेलिजेंस टूल के माध्यम से उजागर किया जाता है।  ऑन-प्रिमाइसेस सेटअप के दिनों में सब कुछ सरल दिखता था जब ईएलटी (ईटीएल बनाम ईएलटी), क्लाउड डीडब्ल्यूएच (एडब्ल्यूएस रेडशिफ्ट, गूगल बिग क्वेरी, स्नोफ्लेक, डेटाब्रिक्स) और अन्य प्रबंधित डेटा समाधान अस्तित्व में नहीं थे, जो हाल ही में सरलीकृत और स्केल किए गए थे। DWH की पहुंच. आइए इस ब्लॉग में हर पहलू को एक-एक करके समझते हैं।  सरलता के लिए आइए इस आधार पर चलें कि कोई अनंत गणना और भंडारण नहीं है और लेनदेन प्रणाली विश्लेषणात्मक प्रश्नों को कुशलतापूर्वक संसाधित नहीं कर सकती है। यहीं पर डेटा वेयरहाउस को डिजाइन करने के लिए एक कुशल तरीके की आवश्यकता थी जो भंडारण में इष्टतम हो, विश्लेषणात्मक प्रश्नों (स्लाइसिंग/डाइसिंग/क्यूब, आदि) को कुशलतापूर्वक संभालता हो, और आवश्यक विलंबता प्रदान करता हो।  इस सब के लिए,   के लिए दो सैद्धांतिक डिज़ाइन मॉडल चित्र में आए: डेटावेयरहाउस डिज़ाइन  (ए) बिल इनमोन - टॉप डाउन दृष्टिकोण (ईडीडब्ल्यू) और  (बी) राल्फ किमबॉल - बॉटम-अप अप्रोच (डेटा मार्ट)।  इनमोन का दृष्टिकोण वैश्विक स्तर पर केंद्रीय रूप से निर्माण करना और धीमी गति से निर्माण करना है जबकि किमबॉल का तरीका साइलो द्वारा एक स्वतंत्र डेटा मार्ट बनाना और बाद में एक साथ जुड़ना है। आइए इस बात पर ध्यान न दें कि कौन सा मॉडल सबसे अच्छा है या किसे चुनना है। मेरे मामले में, संक्षेप में, दोनों मॉडल काम करते हैं और यह पूरी तरह से उपयोग के मामले और संगठन की परिपक्वता पर निर्भर करता है। इस डिज़ाइन में एक अन्य मुख्य बिंदु "डेटा प्रतिनिधित्व" है, स्टार स्कीमा, स्नोफ्लेक स्कीमा, या स्टार और स्नोफ्लेक के हाइब्रिड का उपयोग करके आयामी मॉडलिंग जो तेज़ क्वेरी और आयामीता की एक प्रमुख धुरी है।   एकमात्र महत्वपूर्ण उपाय यह है कि अनंत लॉजिस्टिक्स के बावजूद, एक अच्छा डेटावेयरहाउस डिज़ाइन एक बहु-आयामी समस्या को हल कर सकता है। इसलिए, बेहतर होगा कि इसे नज़रअंदाज न किया जाए।    में अगला कदम पसंद का प्लेटफ़ॉर्म है जो ऑन-प्रिमाइस (टेराडेटा, IBM DB2, Oracle, आदि) से लेकर क्लाउड DW (स्नोफ्लेक, रेडशिफ्ट, बिगक्वेरी, आदि) तक भिन्न हो सकता है। पारंपरिक डेटा वेयरहाउस का निर्माण जटिल है, और चल रहा प्रबंधन और रखरखाव चुनौतीपूर्ण और महंगा हो सकता है। अगले भाग में, हम AWS रेडशिफ्ट के साथ निर्माण करने के तरीके के बारे में जानेंगे (यदि ऑन-प्रिमाइसेस बेहतर है या क्लाउड या कौन सा क्लाउड DWH बेहतर है तो कोई तर्क नहीं)। DW के निर्माण  अमेज़ॅन रेडशिफ्ट एक पूरी तरह से प्रबंधित पेटाबाइट स्केल एंटरप्राइज-ग्रेड डेटा वेयरहाउस है जो एनालिटिक्स प्रश्नों के लिए असाधारण प्रदर्शन प्रदान करता है जो उपयोग में आसान और लागत प्रभावी है। अमेज़ॅन रेडशिफ्ट पैचिंग, बैकअप और हार्डवेयर प्रावधान जैसे कार्यों को स्वचालित करके पारंपरिक डेटा वेयरहाउस के साथ आवश्यक परिचालन ओवरहेड को कम करता है। आप अमेज़ॅन रेडशिफ्ट क्लस्टर को कॉन्फ़िगर कर सकते हैं जहां आप अपने डेटा वेयरहाउस के लिए बुनियादी ढांचे और प्रदर्शन बेसलाइन को अनुकूलित कर सकते हैं। अमेज़ॅन रेडशिफ्ट रेडशिफ्ट स्पेक्ट्रम, डेटाशेयर, रेडशिफ्ट एमएल और सर्वर रहित सेटअप भी प्रदान करता है जो आपको डीडब्ल्यूएच से परे अमेज़ॅन रेडशिफ्ट क्लस्टर का उपयोग करने की अनुमति देता है।  सेटअप करने का तरीका,  परिभाषित करें कि डेटा संग्रह के लिए किन सेवाओं का लाभ उठाया जाए (AWS DMS, DynamoDB, EMR, ग्लू, किनेसिस, S3, SSH होस्ट, आदि)  बातचीत करने का एक तरीका परिभाषित करें (क्वेरी विश्लेषण उपकरण और प्रबंधन इंटरफेस)  रेडशिफ्ट एमपीपी आर्किटेक्चर को समझें (वितरित, साझा-कुछ नहीं)  आवश्यक डेटा आकार, वृद्धि, नोड और क्वेरी प्रदर्शन के साथ क्लस्टर (DC2, DS2, या RA3) लॉन्च करें  आवश्यक डेटा प्रकार, स्कीमा प्रकार, संपीड़न, बफर, एन्कोडिंग के साथ उपयोग के मामले या डीडब्ल्यूएच कार्यान्वयन के अनुसार डेटाबेस स्कीमा डिज़ाइन करें  विभिन्न फ़ाइल प्रकारों के लिए COPY, न्यूनतम परिवर्तन के लिए INSERT, और रखरखाव के लिए विश्लेषण और VACUUM का उपयोग करके डेटा लोड करना  क्वेरी अनुकूलन और प्रदर्शन संवर्द्धन करें  बाहरी तालिका के लिए स्पेक्ट्रम और शून्य-प्रतिलिपि के लिए डेटा शेयर का उपयोग करके S3 का लाभ उठाएं  गहरी जानकारी के लिए रेडशिफ्ट एमएल का उपयोग करें  अंतर्दृष्टि प्राप्त करने के लिए बीआई टूलींग के लिए एडब्ल्यूएस क्विकसाइट का लाभ उठाएं।  अब तक क्लाउड डीडब्ल्यूएच का उपयोग करना समझ में आता है लेकिन   ? नीचे दी गई छवि बताती है कि डेटा लेक और डेटा वेयरहाउस एक साथ कैसे निर्बाध रूप से काम करते हैं। AWS RDS डेटा स्रोत के रूप में कार्य करता है, एक लागत प्रभावी और टिकाऊ समाधान प्रदान करता है, जो   में फीड होता है। फिर डेटा को ETL प्रक्रियाओं का उपयोग करके रूपांतरित किया जाता है और Redshift में ऑनबोर्ड किया जाता है। अतिरिक्त AWS सेवाएँ जैसे एथेना, ग्लू, स्पेक्ट्रम, लेक फॉर्मेशन और अन्य एक व्यापक डेटा समाधान बनाने के लिए अंतर को पाटने में महत्वपूर्ण भूमिका निभाते हैं।  यह डेटा समाधान के लिए डीडब्ल्यूएच + डेटा लेक/प्रबंधित सेवाओं की बड़ी योजना में कैसे फिट बैठता है Amazon S3  अंत में, यह ब्लॉग डेटा वेयरहाउसिंग के बुनियादी सिद्धांतों को शामिल करता है, सैद्धांतिक रूप से और तकनीकी स्टैक पर ध्यान केंद्रित करते हुए कार्यान्वयन दृष्टिकोण पर प्रकाश डालता है। हम यह भी समझते हैं कि यह कैसे डेटा समाधानों के व्यापक परिदृश्य में सहजता से एकीकृत होता है।

Read My Stories

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

यह समझना कि AWS पर डेटा वेयरहाउसिंग कैसे काम करती है

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps