এই ব্লগটি সামগ্রিকভাবে কভার করবে:
(a) ডেটা গুদামজাতকরণ কী
(b) ডেটা গুদামের জন্য ডেটা মডেলিং পদ্ধতি
(c) AWS-এ ডেটা গুদাম, এবং সবশেষে
(d) পরিচালিত পরিষেবা ব্যবহার করে অপারেশনাল লোড কমানোর জন্য ডেটা গুদামজাতকরণ।
আসুন একজন সাধারণ মানুষের দৃষ্টিকোণ থেকে বুঝতে পারি “ ডাটা গুদাম কী ”
উইকিপিডিয়া অনুসারে - একটি ডেটা ওয়ারহাউস (DW বা DWH), যা একটি এন্টারপ্রাইজ ডেটা ওয়ারহাউস (EDW) নামেও পরিচিত, একটি সিস্টেম যা রিপোর্টিং এবং ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয় এবং এটি ব্যবসায়িক বুদ্ধিমত্তার একটি মূল উপাদান হিসাবে বিবেচিত হয়। ডেটা গুদামগুলি হল এক বা একাধিক অসম উৎস থেকে সমন্বিত ডেটার কেন্দ্রীয় ভান্ডার। তারা বর্তমান এবং ঐতিহাসিক ডেটা একটি একক জায়গায় সংরক্ষণ করে যা সমগ্র এন্টারপ্রাইজ জুড়ে কর্মীদের জন্য বিশ্লেষণাত্মক প্রতিবেদন তৈরি করতে ব্যবহৃত হয়। এটি কোম্পানিগুলির জন্য উপকারী কারণ এটি তাদের জিজ্ঞাসাবাদ করতে এবং তাদের ডেটা থেকে অন্তর্দৃষ্টি আঁকতে এবং সিদ্ধান্ত নিতে সক্ষম করে৷
মৌলিক পরিভাষায়, এটি একটি ব্যবসাকে ডেটা-চালিত সংস্থায় পরিণত করতে সাহায্য করার জন্য সংগ্রহ, সংরক্ষণ এবং দক্ষতার সাথে অন্তর্দৃষ্টি (ব্যবসায়িক বুদ্ধিমত্তা) প্রদানের শিল্প। কিছু অর্থে এটি আরেকটি লেনদেন ডাটাবেস কিন্তু একটি যা বিশ্লেষণমূলক কাজের চাপের জন্য অপ্টিমাইজ করা হয়।
উপরের চিত্র অনুসারে, উৎস থেকে ডেটা সংগ্রহ করা হয়, প্রতি ব্যবহারে রূপান্তরিত করা হয় (ETL/ELT), এবং DWH/Data mart এবং Insights-এ সংরক্ষিত হয় যা ব্যবসায়িক বুদ্ধিমত্তা টুলের মাধ্যমে প্রকাশ করা হয়।
অন-প্রিম সেটআপের দিনগুলিতে সবগুলিকে সহজ দেখাচ্ছিল যখন ELT (ETL বনাম ELT), ক্লাউড DWH (AWS Redshift, Google Big Query, Snowflake, Databricks), এবং অন্যান্য পরিচালিত ডেটা সমাধানগুলি বিদ্যমান ছিল না, যা সম্প্রতি সরলীকৃত এবং স্কেল করা হয়েছে DWH এর নাগাল। এই ব্লগে আসুন এক সময়ে প্রতিটি দিক বুঝতে পারি।
সরলতার জন্য আসুন এই ভিত্তির সাথে যাই যে কোনও অসীম গণনা এবং স্টোরেজ নেই এবং লেনদেন ব্যবস্থা বিশ্লেষণাত্মক প্রশ্নগুলি দক্ষতার সাথে প্রক্রিয়া করতে পারে না। এখানেই একটি দক্ষ উপায় প্রয়োজন ছিল একটি ডেটা গুদাম ডিজাইন করার জন্য যা স্টোরেজের জন্য সর্বোত্তম, দক্ষতার সাথে বিশ্লেষণাত্মক প্রশ্নগুলি পরিচালনা করে (স্লাইসিং/ডাইসিং/কিউব, ইত্যাদি), এবং প্রয়োজনীয় লেটেন্সি প্রদান করে।
এই সবের জন্য, ডেটাওয়্যারহাউস ডিজাইনের জন্য দুটি তাত্ত্বিক নকশা মডেল ছবিতে এসেছে:
(ক) বিল ইনমন - টপ ডাউন অ্যাপ্রোচ (EDW) এবং
(খ) রাল্ফ কিমবল – বটম-আপ অ্যাপ্রোচ (ডেটা মার্ট)।
Inmon এর পন্থা হল বিশ্বব্যাপী কেন্দ্রীভূতভাবে নির্মাণ করা এবং ধীরগতির নির্মাণের কারণ যেখানে Kimball এর উপায় হল সাইলো দ্বারা একটি স্বাধীন ডেটা মার্ট তৈরি করা এবং পরে একসাথে সংযোগ করা। আসুন কোন মডেলটি সেরা বা কোনটি বেছে নেওয়া উচিত সেদিকে ডুবে নেই। আমার ক্ষেত্রে, সংক্ষেপে, উভয় মডেলই কাজ করে এবং এটি সম্পূর্ণরূপে প্রতিষ্ঠানের ব্যবহারের ক্ষেত্রে এবং পরিপক্কতার উপর নির্ভর করে। এই ডিজাইনের আরেকটি মূল বিষয় হল "ডেটা রিপ্রেজেন্টেশন", স্টার স্কিমা, স্নোফ্লেক স্কিমা, বা স্টার এবং স্নোফ্লেকের একটি হাইব্রিড ব্যবহার করে ডাইমেনশনাল মডেলিং যা দ্রুত অনুসন্ধান এবং মাত্রার মূল পিভট।
অসীম লজিস্টিক থাকা সত্ত্বেও একমাত্র মূল উপায় হল, একটি ভাল ডেটাওয়ারহাউস ডিজাইন একটি বহুমাত্রিক সমস্যা সমাধান করতে পারে। সুতরাং, এটি উপেক্ষা না করাই ভাল।
DW তৈরির পরবর্তী ধাপ হল পছন্দের প্ল্যাটফর্ম যা অন-প্রিমিস (Teradata, IBM DB2, Oracle, ইত্যাদি) থেকে Cloud DW (Snowflake, Redshift, BigQuery, ইত্যাদি) পর্যন্ত পরিবর্তিত হতে পারে। একটি ঐতিহ্যগত ডেটা গুদাম তৈরি করা জটিল, এবং চলমান ব্যবস্থাপনা এবং রক্ষণাবেক্ষণ চ্যালেঞ্জিং এবং ব্যয়বহুল হতে পারে। পরবর্তী বিভাগে, আমরা এডব্লিউএস রেডশিফ্ট (অন-প্রেম ভাল বা ক্লাউড বা কোন ক্লাউড ডিডব্লিউএইচ ভাল) এর সাথে কীভাবে তৈরি করা যায় তা নিয়ে আলোচনা করব।
Amazon Redshift হল একটি সম্পূর্ণরূপে পরিচালিত পেটাবাইট স্কেল এন্টারপ্রাইজ-গ্রেড ডেটা গুদাম যা বিশ্লেষণমূলক প্রশ্নের জন্য ব্যতিক্রমী কর্মক্ষমতা প্রদান করে যা ব্যবহার করা সহজ এবং সাশ্রয়ী। অ্যামাজন রেডশিফ্ট প্যাচিং, ব্যাকআপ এবং হার্ডওয়্যার প্রভিশনিংয়ের মতো স্বয়ংক্রিয় কাজগুলি দ্বারা ঐতিহ্যগত ডেটা গুদামগুলির সাথে প্রয়োজনীয় অপারেশনাল ওভারহেড হ্রাস করে৷ আপনি একটি Amazon Redshift ক্লাস্টার কনফিগার করতে পারেন যেখানে আপনি আপনার ডেটা গুদামের জন্য অবকাঠামো এবং কর্মক্ষমতা বেসলাইনগুলি কাস্টমাইজ করতে পারেন। Amazon Redshift এছাড়াও Redshift Spectrum, Datashare, Redshift ML, এবং Serverless সেটআপ প্রদান করে যা আপনাকে DWH এর বাইরে Amazon Redshift ক্লাস্টার ব্যবহার করতে দেয়।
সেটআপ করার উপায়,
এখন পর্যন্ত ক্লাউড ডিডব্লিউএইচ ব্যবহার করা বোধগম্য, কিন্তু ডেটা সমাধানের জন্য ডিডব্লিউএইচ + ডেটা লেক/পরিচালিত পরিষেবাগুলির বিগ স্কিমে এটি কীভাবে ফিট করে ? নীচের চিত্রটি ব্যাখ্যা করে যে কীভাবে ডেটা লেক এবং ডেটা গুদামগুলি নির্বিঘ্নে একসাথে কাজ করে৷ AWS RDS ডেটা উৎস হিসেবে কাজ করে, একটি সাশ্রয়ী এবং টেকসই সমাধান প্রদান করে, যা Amazon S3- এ ফিড করে। ডেটা তারপর ETL প্রক্রিয়া ব্যবহার করে রূপান্তরিত হয় এবং Redshift এ অনবোর্ড করা হয়। অতিরিক্ত AWS পরিষেবা যেমন অ্যাথেনা, আঠালো, স্পেকট্রাম, লেক ফর্মেশন, এবং অন্যান্যগুলি একটি ব্যাপক ডেটা সলিউশন তৈরি করতে ব্যবধান পূরণে গুরুত্বপূর্ণ ভূমিকা পালন করে।
উপসংহারে, এই ব্লগটি ডেটা গুদামজাতকরণের মৌলিক বিষয়গুলিকে কভার করে, তাত্ত্বিকভাবে এবং প্রযুক্তিগত স্ট্যাকের উপর ফোকাস করে উভয়ই বাস্তবায়ন পদ্ধতির মধ্যে পড়ে। এটি কীভাবে ডেটা সমাধানের বিস্তৃত ল্যান্ডস্কেপে নির্বিঘ্নে একত্রিত হয় সে সম্পর্কেও আমরা একটি পাখির দৃষ্টিভঙ্গি অর্জন করি।