ডেটা অ্যানালিটিক্সের গতিশীল ল্যান্ডস্কেপে, একটি অ্যানালিটিক্স প্ল্যাটফর্ম বেছে নেওয়া আপনার ব্যবসার নিচের লাইনকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে। এই শিক্ষামূলক নিবন্ধে, আমরা তিনটি হেভিওয়েট অ্যানালিটিক্স প্রতিযোগীদের অন্বেষণ করার চেষ্টা করছি: Snowflake, BigQuery এবং ClickHouse৷ আমরা তাদের খরচের মডেলগুলি অনুসন্ধান করব এবং আপনাকে ব্যয়-দক্ষ বিশ্লেষণের শিল্প আয়ত্ত করতে সাহায্য করার জন্য মূল্যবান কৌশলগুলি প্রকাশ করব – এটি অন্তর্দৃষ্টি অন্বেষণের একটি যাত্রা যা আপনার ডেটা গেমকে রূপান্তর করতে পারে!
ডেটা অ্যানালিটিক্সে খরচ-কার্যকর সিদ্ধান্ত নেওয়ার জন্য, বিশ্লেষণাত্মক ডাটাবেস ম্যানেজমেন্ট সিস্টেমের (DBMS) পিছনে খরচের মডেলগুলি বোঝা অত্যন্ত গুরুত্বপূর্ণ। একটি সাধারণ সূচনা বিন্দু হল ক্লাউড-ভিত্তিক ব্যবসার খরচ কাঠামো পরীক্ষা করা।
সুতরাং, প্রথমে, আসুন ক্লাউড-ভিত্তিক বিশ্লেষণাত্মক ডেটাবেস সম্পর্কে কথা বলি এবং ক্লাউডে চলাকালীন তারা কীভাবে খরচ পরিচালনা করে। এটির চিত্র: এটি 2013 সালের আগে, এবং একটি ডেটা গুদাম স্থাপন করতে একাধিক বিক্রেতা, হার্ডওয়্যার বাধা এবং কনফিগারেশনের সাথে কাজ করতে কয়েক মাস সময় লাগতে পারে। তারপরে 2013 সালে অ্যামাজন রেডশিফ্ট এসেছিল, যা আপনাকে শুধুমাত্র একটি ক্রেডিট কার্ডের মাধ্যমে 20 মিনিটের মধ্যে আপনার ডেটা গুদাম শুরু করতে দেয়—বেশ লাফিয়ে। এটি অন্যান্য ক্লাউড-ভিত্তিক ডেটা গুদামগুলির জন্য পথ তৈরি করেছে যেমন BigQuery , Snowflake , এবং ক্লাউড পরিষেবাগুলি যেগুলি Snowflake পরিচালনা করে৷
বেশিরভাগ বিকাশকারীরা তাদের ক্লাউড বিল পেতে শুরু করার সাথে সাথে ব্যয়-দক্ষতার গুরুত্ব সম্পর্কে শিখেছেন। উদাহরণ স্বরূপ, আপনি BigQuery-এ একটি দীর্ঘমেয়াদী কোয়েরি চালাতে পারেন যেটির জন্য আপনার শত শত, প্রায়ই হাজার হাজার ডলার খরচ হয়। নিম্নলিখিত টুইট/এক্স পোস্ট থেকে এটি নিন; এটি একটি বিচ্ছিন্ন ঘটনা নয়।
আমরা সম্প্রতি এই বিষয়ে আরও বিশদে আলোচনা করার জন্য একটি ওয়েবিনার চালিয়েছি যেখানে রবার্ট হজেস (অল্টিনিটি ইনকর্পোরেটেডের সিইও) প্রতিটি বিকল্পের গভীরভাবে খরচ বিশ্লেষণ করেন এবং শেষে আপনাকে একটি বিকল্প DIY সমাধান দেখান। একবার আপনি এই নিবন্ধটি পড়া শেষ করে সেই ওয়েবিনারের অন-ডিমান্ড রেকর্ডিং দেখতে নির্দ্বিধায় দেখুন!
সুতরাং, আসুন এই ডাটাবেসগুলি কীভাবে কাজ করে এবং আরও গুরুত্বপূর্ণভাবে, তারা তাদের পরিষেবার মূল্য কীভাবে খুঁজে বের করে।
আমরা স্নোফ্লেক দিয়ে শুরু করব, কিন্তু এর আর্কিটেকচারে নামার আগে আমরা ব্যবসার কথা বলব। স্নোফ্লেক, একটি সর্বজনীনভাবে ব্যবসা করা কোম্পানি হওয়ায়, আমাদেরকে এর আর্থিক বিষয়ে খোঁচা দেওয়ার সুযোগ দেয়। সাম্প্রতিক একটি প্রতিবেদনে , তারা মোট রাজস্ব $2 বিলিয়ন অর্জন করেছে। কি চমকপ্রদ বিষয় হল তাদের পরিষেবা প্রদানের খরচ, প্রায় $717 মিলিয়ন। এই খরচ, বিক্রি করা পণ্যের খরচ হিসাবেও পরিচিত, শো চালাতে স্নোফ্লেক লাগে।
স্নোফ্লেকের ক্লাউড পরিষেবাগুলি চালানোর খরচ বোঝা একটি লুকানো ধন সন্ধানের মতো। আপনি যদি সংখ্যাগুলিকে ক্রাঞ্চ করেন তবে এটি তাদের মোট আয়ের প্রায় এক-তৃতীয়াংশ, হয়তো একটু বেশি। সুতরাং, সরল ইংরেজিতে, যদি এই সমস্ত খরচ সরাসরি তাদের ক্লাউড খরচগুলি কভার করে এবং অন্য কিছু না হয়, তারা আপনাকে চার্জ করার সময় প্রায় তিনগুণ করে জিনিসগুলি চিহ্নিত করবে।
তবে অবশ্যই, এটি এত সহজ নয়! স্নোফ্লেকের মতো একটি পাওয়ার হাউস চালানোর আসল খরচ শুধু ভার্চুয়াল মেশিন চালানো এবং অ্যামাজন এস 3-তে ডেটা জমা করার চেয়েও বেশি। এখন, আমরা যদি আবার গণিত করি, তাহলে তাদের খরচের উপর সেই মার্কআপ? এটা আরো 5x মত.
এটি আপনার পিছনের পকেটে বহন করার জন্য একটি নিফটি বেঞ্চমার্ক। যদি কোনো কিছুর মার্কআপ 5x-এর বেশি হয়, ভাল, এটি স্নোফ্লেকের মূল্যের বিশ্বে বড় বাস করছে। উল্টো দিকে, যদি এটি 5x এর কম হয়, আপনি আরও বাজেট-বান্ধব বিকল্প খুঁজছেন। এটি ব্যয় ধাঁধাটি বোঝার জন্য একটি গোপন ডিকোডার রিং থাকার মতো।
খরচ-দক্ষ বিশ্লেষণে দক্ষতা অর্জন করতে, আসুন Snowflake, BigQuery এবং ClickHouse-এর খরচ মডেলগুলিকে বিচ্ছিন্ন করি।
এখন, স্নোফ্লেকের খরচগুলি ভেঙে দেওয়া যাক। তারা একটি "ভার্চুয়াল ডেটা গুদাম" মডেল ব্যবহার করে, যেখানে আপনার ডেটা S3 অবজেক্ট স্টোরেজে থাকে। আপনি যখন এসকিউএল কোয়েরি চালান, তখন আপনি ক্রেডিট দ্বারা চালিত ভার্চুয়াল ডেটা গুদাম তৈরি করেন, মূলত হোস্ট করা প্রসেসিং ইউনিটগুলি স্টোরেজ থেকে ডেটা টেনে নেয়। এই ভার্চুয়াল মেশিনগুলির মূল্য তাদের মূল্য তালিকায় তালিকাভুক্ত হিসাবে প্রায় $2-4/ঘন্টা পর্যন্ত। মনে রাখবেন: এটি সবচেয়ে ব্যয়বহুল পছন্দ নয়।
এই কৌতূহলজনক মোচড়ের জন্য না হলে এটি আমাদের স্নোফ্লেকের খরচ বিশ্লেষণকে গুটিয়ে দেবে: স্নোফ্লেকের একটি সাম্প্রতিক বাগ উন্মোচন করেছে যে ভার্চুয়াল ডেটা গুদামগুলির জন্য ক্রেডিটগুলি প্রায়শই c5d2x বড় উদাহরণে অনুবাদ করে, প্রতি ঘন্টায় প্রায় 38 সেন্ট খরচ হয়৷ লক্ষণীয়ভাবে, স্নোফ্লেক বস্তুর সঞ্চয়স্থানকে উল্লেখযোগ্যভাবে চিহ্নিত করে না, প্রতি মাসে এটির মূল্য $23-40 প্রতি টেরাবাইট, যা Amazon এর S3 খরচের মতো। পরিবর্তে, প্রকৃত মার্কআপটি কম্পিউটিংয়ে ঘটে, যা স্টোরেজের চেয়ে 5 থেকে 10 গুণ বেশি ব্যয়বহুল হতে পারে।
ক্লাউড ডাটাবেস অ্যানালিটিক্সের আরেকটি হেভিওয়েট, BigQuery-কে ঘনিষ্ঠভাবে দেখে নেওয়া যাক। BigQuery একটি স্বতন্ত্র মূল্যের মডেল অফার করে যা "সার্ভারলেস" বা "অন-ডিমান্ড" নামে পরিচিত। এই সেটআপে, আপনি একটি অনন্য বিতরণ স্টোরেজ সিস্টেমে আপনার ডেটা সঞ্চয় করেন, বেশিরভাগ ক্লাউড পরিষেবাগুলির দ্বারা ব্যবহৃত সাধারণ বস্তু সঞ্চয়স্থানে নয়। যাইহোক, মূল্য বেশ প্রতিযোগিতামূলক, অবজেক্ট স্টোরেজ রেটগুলির অনুরূপ, অন্তত সংকুচিত ডেটার জন্য। স্টোরেজের জন্য দাম প্রতি GB প্রতি মাসে $0.016-0.023 থেকে শুরু হয়—এখন এটি আরও বাজেট-বান্ধব।
এই হল ক্যাচ: আপনি যখন একটি কোয়েরি চালান, BigQuery ডায়নামিকভাবে প্রয়োজন অনুযায়ী কম্পিউট রিসোর্স বরাদ্দ করে। আপনার ক্যোয়ারী প্রক্রিয়াকরণের সময় স্ক্যান করা প্রতিটি টেরাবাইট ডেটার জন্য এটি আপনাকে $6.25 চার্জ করে। এই মূল্যের কাঠামোর অর্থ হল যে এমনকি আপাতদৃষ্টিতে নির্দোষ প্রশ্নগুলি খরচ বাড়াতে পারে যদি তারা বিতরণ করা স্টোরেজ থেকে প্রচুর পরিমাণে ডেটা স্ক্যান করে।
এখন, স্ট্যান্ডার্ড ক্লাউড সংস্থানগুলির সাথে BigQuery খরচের তুলনা করা সহজ নয়৷ আপনার প্রকৃত খরচ বিভিন্ন কারণের উপর নির্ভর করে, যেমন আপনি কত ঘন ঘন কোয়েরি চালান এবং আপনার ডেটা স্টোরেজ পদ্ধতি। উদাহরণস্বরূপ, আপনি যদি বিক্ষিপ্তভাবে প্রশ্নগুলি চালান, তাহলে BigQuery সাশ্রয়ী হতে পারে। কিন্তু আপনি যদি 24/7 প্রশ্ন চালান তবে এটি ব্যয়বহুল হতে পারে। সুতরাং, আপনার কাজের চাপ বোঝা এবং আপনার প্রকৃত খরচগুলি যত্ন সহকারে মূল্যায়ন করা অত্যন্ত গুরুত্বপূর্ণ।
আমরা যে পূর্ববর্তী মডেলগুলি নিয়ে আলোচনা করেছি সেগুলি ডেটা পরিচালনার জন্য সাধারণত অবজেক্ট স্টোরেজ বা বেশ অনুরূপ কিছুর উপর নির্ভর করে। যাইহোক, আরেকটি ক্লাউড ডাটাবেস অপারেটিং পদ্ধতি রয়েছে, একটি প্রাথমিকভাবে এক দশক আগে রেডশিফ্ট দ্বারা প্রবর্তিত হয়েছিল। আসুন এটিকে "বাই-দ্য-বক্স" মডেল বলি।
এখানে চুক্তি হল: আপনি একটি ভার্চুয়াল মেশিন (VM ), যেমন একটি dc28x বড়, যা সংযুক্ত SSD ব্লক স্টোরেজ সহ আসে। উদাহরণস্বরূপ, Amazon us-west-2-এ, এই VM-এর জন্য আপনার প্রতি ঘন্টায় প্রায় 4.80 সেন্ট খরচ হবে। এখন, আসল খরচগুলি ভেঙে দেওয়া যাক। এই VM সম্ভবত একটি i38x বড় উদাহরণের সাথে মিলে যায়, একটি পুরানো আমাজন ইনস্ট্যান্স টাইপ, যা স্থানীয় SSD স্টোরেজের সাথে আসে। এই ধরনের উদাহরণের জন্য প্রতি ঘন্টায় প্রায় $2.50 খরচ হয়, যা প্রায় একই পরিমাণ RAM প্রদান করে।
মার্কআপের ক্ষেত্রে, Redshift 92% বেশি ব্যয়বহুল এবং 66% কম স্টোরেজ প্রদান করে যদি আপনি নিজে একই রকম VM সেট আপ করেন। মজার বিষয় হল, রেডশিফ্টের মার্কআপ অন্যান্য কিছু পরিষেবার তুলনায় তুলনামূলকভাবে কম, যেমন স্নোফ্লেক, যা কম্পিউটিং সংস্থানগুলির জন্য বেশি চার্জ করে।
খরচ দক্ষতার জন্য পূর্ববর্তী মডেলগুলিতে উন্নতি করতে, আসুন প্রথমে আপনাকে ক্লিকহাউসের সাথে পরিচয় করিয়ে দিই। এটি একটি বিনামূল্যের, বিখ্যাত, ওপেন সোর্স, রিয়েল-টাইম অ্যানালিটিক্স ডাটাবেস। ClickHouse এর আর্কিটেকচার আন্তঃসংযুক্ত সার্ভারের চারপাশে ঘোরে যা নিরবিচ্ছিন্ন ডেটা প্রতিলিপি করতে সক্ষম, বিশেষ করে প্রতিলিপি করা টেবিলের সাথে। এই সিস্টেমটি দক্ষ কলামার স্টোরেজ নিয়োগ করে, যেখানে ডেটা সংকুচিত অ্যারেতে থাকে, যা শুধুমাত্র স্টোরেজ খরচ কমায় না বরং ক্যোয়ারী কর্মক্ষমতাও বাড়িয়ে দেয়।
প্রাথমিকভাবে, ClickHouse ব্লক স্টোরেজের মধ্যে সীমাবদ্ধ ছিল, কিন্তু এটি S3-সামঞ্জস্যপূর্ণ অবজেক্ট স্টোরেজকে সমর্থন করার জন্য বিকশিত হয়েছে, এটিকে বহুমুখী করে তুলেছে এবং যেকোনো S3 API-সজ্জিত অবজেক্ট স্টোরেজ সমাধানের সাথে একীকরণের জন্য উন্মুক্ত। দক্ষতার সাথে প্রতিলিপি সম্মতি পরিচালনা করতে, ClickHouse ClickHouseKeeper বা ZooKeeper এর উপর নির্ভর করে।
আপনি Clickhouse সম্পর্কে আরও পড়তে পারেন
এখন, আসুন এটিকে একটি ক্লাউড পরিষেবা দৃষ্টান্ত হিসাবে কল্পনা করা যাক, যাকে আমরা "মডার্নাইজড বাই-দ্য-বক্স" বলি। নীচের ছবিটির বাম দিকে ঐতিহ্যগত রেডশিফ্ট স্থাপত্য, যখন ডানদিকে, আমরা উদ্ভাবনকে আলিঙ্গন করি৷ আমরা পুরানো i3 দৃষ্টান্তগুলিকে দ্রুত Intel-ভিত্তিক m6is দিয়ে প্রতিস্থাপন করি, একটি উল্লেখযোগ্য গতি বৃদ্ধি প্রদান করে। গেম-চেঞ্জার হল EBS (ইলাস্টিক ব্লক স্টোরেজ) gp3 স্টোরেজ ব্যবহার করে, ব্যান্ডউইথ এবং থ্রুপুট নিয়ন্ত্রণ করে। এটি, রেডশিফ্টের মতো দক্ষ VM-এর সাথে যুক্ত, এর ফলে প্রতি ঘন্টায় আনুমানিক 2.64 সেন্ট খরচ হয়।
স্টোরেজ এবং কম্পিউটিং আলাদা করার সাথে আসল জাদু ঘটে। এই নমনীয় পদ্ধতির সাহায্যে আপনি একই স্টোরেজ রাখার সময় সিপিইউ এবং ভিএম প্রকারগুলিকে সহজেই সামঞ্জস্য করতে পারেন, খরচ বাড়ানো বা কম করার অনুমতি দেয়। Altinity.Cloud এ ClickHouse অ্যাপ্লিকেশন পরিচালনা করার আমাদের অভিজ্ঞতা এই দক্ষতাকে প্রতিফলিত করে।
নীচের গ্রাফে, আপনি সব-ইন-অন-ডিমান্ড খরচ দেখতে পাবেন
সংক্ষিপ্ত করার জন্য, আমরা তিনটি ক্লাউড-হোস্টেড বিশ্লেষণাত্মক ডাটাবেস মডেল এবং তাদের খরচের প্রভাবগুলি অন্বেষণ করেছি। আমাদের তুলনাতে, এই মডেলগুলি একে অপরের বিরুদ্ধে কীভাবে স্ট্যাক আপ হয় তা পরিষ্কার করার জন্য আমরা একটি ওয়ালেট-আকারের টেবিল তৈরি করেছি।
"বাই-দ্য-বক্স" পদ্ধতিটি সাশ্রয়ী কম্পিউটিং অফার করে তবে ব্লক স্টোরেজ ব্যবহারের কারণে আরও দামী স্টোরেজ। অন্যদিকে, Snowflake এবং BigQuery, লাভজনক স্টোরেজ অফার করে কিন্তু বিভিন্ন উপায়ে ব্যয়বহুল হতে পারে। কম্পিউটিংয়ের ক্ষেত্রে স্নোফ্লেক তুলনামূলকভাবে ব্যয়বহুল হতে থাকে, যখন বিস্তৃত ডেটা স্ক্যান পরিচালনা করার সময় BigQuery-এর অন-ডিমান্ড ক্যোয়ারী মডেলটি দামী হয়ে উঠতে পারে। প্রতিটি মডেলের শক্তি এবং দুর্বলতা রয়েছে, এটিকে আপনার নির্দিষ্ট বিশ্লেষণের প্রয়োজনের সাথে সারিবদ্ধ করা অপরিহার্য করে তোলে। "বাই-দ্য-বক্স" অপ্রত্যাশিত কাজের চাপ সহ গ্রাহক-মুখী বিশ্লেষণের জন্য উপযুক্ত, যখন ভার্চুয়াল ডেটা ওয়্যারহাউস মডেল এবং BigQuery নির্দিষ্ট পরিস্থিতিতে উৎকৃষ্ট কিন্তু বিস্ময় এড়াতে যত্নশীল খরচ ব্যবস্থাপনা প্রয়োজন। এই ওভারভিউ আপনাকে কার্যকরভাবে ল্যান্ডস্কেপ নেভিগেট করতে সাহায্য করে।
বিশ্লেষণের ক্ষেত্রে, খরচ-দক্ষতা সর্বাগ্রে। Snowflake, BigQuery, এবং ClickHouse-এর মতো জনপ্রিয় প্ল্যাটফর্মের দামের মডেলগুলি বোঝা অবগত সিদ্ধান্ত নেওয়ার জন্য অপরিহার্য। প্রতিটি প্ল্যাটফর্মের শক্তি এবং দুর্বলতাগুলিকে মূল্যায়ন করে এবং তাদের ব্যয়ের কাঠামো বিবেচনা করে, সংস্থাগুলি তাদের নির্দিষ্ট প্রয়োজন অনুসারে সাশ্রয়ী মূল্যের বিশ্লেষণাত্মক সমাধান তৈরি করতে পারে। ওপেন-সোর্স সমাধান এবং শিক্ষাগত সংস্থানগুলিকে ব্যবহার করা খরচকে আরও অপ্টিমাইজ করতে পারে, সংস্থাগুলি তাদের বাজেটের প্রতি সচেতন থাকাকালীন তাদের বিশ্লেষণ লক্ষ্য অর্জন নিশ্চিত করে।
এই নিবন্ধটি একটি Altinity.com ওয়েবিনার থেকে প্রাপ্ত করা হয়েছে.