paint-brush
স্নোফ্লেক বনাম BigQuery বনাম ক্লিকহাউস: ব্যয়-কার্যকর ব্যবসায়িক বিশ্লেষণ আয়ত্ত করাদ্বারা@altinityinc
1,853 পড়া
1,853 পড়া

স্নোফ্লেক বনাম BigQuery বনাম ক্লিকহাউস: ব্যয়-কার্যকর ব্যবসায়িক বিশ্লেষণ আয়ত্ত করা

দ্বারা Altinity Inc.7m2023/12/06
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

TL;DR: বিশ্লেষণ প্ল্যাটফর্ম স্নোফ্লেক, বিগকুয়েরি, এবং ক্লিকহাউসের খরচ মডেলের তুলনা করা বিভিন্ন মূল্যের কাঠামো প্রকাশ করে। স্নোফ্লেকের খরচ কম্পিউটিং-এর দিকে ঝুঁকছে, BigQuery-এর অন-ডিমান্ড মডেল ব্যাপক ডেটা স্ক্যানের সাহায্যে র‍্যাক আপ করতে পারে, যখন ClickHouse দক্ষ স্টোরেজ সহ রিয়েল-টাইম অ্যানালিটিক্স অফার করে। প্রতিটি প্ল্যাটফর্মের শক্তির সাথে সঠিকভাবে সারিবদ্ধ করা এবং তাদের খরচের সূক্ষ্মতা বোঝা ব্যবসাগুলিকে আরও সাশ্রয়ী-কার্যকর বিশ্লেষণ সমাধানের জন্য গাইড করতে পারে।
featured image - স্নোফ্লেক বনাম BigQuery বনাম ক্লিকহাউস: ব্যয়-কার্যকর ব্যবসায়িক বিশ্লেষণ আয়ত্ত করা
Altinity Inc. HackerNoon profile picture

ডেটা অ্যানালিটিক্সের গতিশীল ল্যান্ডস্কেপে, একটি অ্যানালিটিক্স প্ল্যাটফর্ম বেছে নেওয়া আপনার ব্যবসার নিচের লাইনকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে। এই শিক্ষামূলক নিবন্ধে, আমরা তিনটি হেভিওয়েট অ্যানালিটিক্স প্রতিযোগীদের অন্বেষণ করার চেষ্টা করছি: Snowflake, BigQuery এবং ClickHouse৷ আমরা তাদের খরচের মডেলগুলি অনুসন্ধান করব এবং আপনাকে ব্যয়-দক্ষ বিশ্লেষণের শিল্প আয়ত্ত করতে সাহায্য করার জন্য মূল্যবান কৌশলগুলি প্রকাশ করব – এটি অন্তর্দৃষ্টি অন্বেষণের একটি যাত্রা যা আপনার ডেটা গেমকে রূপান্তর করতে পারে!


বিশ্লেষণাত্মক DBMS খরচ মডেল বোঝা

ডেটা অ্যানালিটিক্সে খরচ-কার্যকর সিদ্ধান্ত নেওয়ার জন্য, বিশ্লেষণাত্মক ডাটাবেস ম্যানেজমেন্ট সিস্টেমের (DBMS) পিছনে খরচের মডেলগুলি বোঝা অত্যন্ত গুরুত্বপূর্ণ। একটি সাধারণ সূচনা বিন্দু হল ক্লাউড-ভিত্তিক ব্যবসার খরচ কাঠামো পরীক্ষা করা।
সুতরাং, প্রথমে, আসুন ক্লাউড-ভিত্তিক বিশ্লেষণাত্মক ডেটাবেস সম্পর্কে কথা বলি এবং ক্লাউডে চলাকালীন তারা কীভাবে খরচ পরিচালনা করে। এটির চিত্র: এটি 2013 সালের আগে, এবং একটি ডেটা গুদাম স্থাপন করতে একাধিক বিক্রেতা, হার্ডওয়্যার বাধা এবং কনফিগারেশনের সাথে কাজ করতে কয়েক মাস সময় লাগতে পারে। তারপরে 2013 সালে অ্যামাজন রেডশিফ্ট এসেছিল, যা আপনাকে শুধুমাত্র একটি ক্রেডিট কার্ডের মাধ্যমে 20 মিনিটের মধ্যে আপনার ডেটা গুদাম শুরু করতে দেয়—বেশ লাফিয়ে। এটি অন্যান্য ক্লাউড-ভিত্তিক ডেটা গুদামগুলির জন্য পথ তৈরি করেছে যেমন BigQuery , Snowflake , এবং ক্লাউড পরিষেবাগুলি যেগুলি Snowflake পরিচালনা করে৷


বেশিরভাগ বিকাশকারীরা তাদের ক্লাউড বিল পেতে শুরু করার সাথে সাথে ব্যয়-দক্ষতার গুরুত্ব সম্পর্কে শিখেছেন। উদাহরণ স্বরূপ, আপনি BigQuery-এ একটি দীর্ঘমেয়াদী কোয়েরি চালাতে পারেন যেটির জন্য আপনার শত শত, প্রায়ই হাজার হাজার ডলার খরচ হয়। নিম্নলিখিত টুইট/এক্স পোস্ট থেকে এটি নিন; এটি একটি বিচ্ছিন্ন ঘটনা নয়।

আমরা সম্প্রতি এই বিষয়ে আরও বিশদে আলোচনা করার জন্য একটি ওয়েবিনার চালিয়েছি যেখানে রবার্ট হজেস (অল্টিনিটি ইনকর্পোরেটেডের সিইও) প্রতিটি বিকল্পের গভীরভাবে খরচ বিশ্লেষণ করেন এবং শেষে আপনাকে একটি বিকল্প DIY সমাধান দেখান। একবার আপনি এই নিবন্ধটি পড়া শেষ করে সেই ওয়েবিনারের অন-ডিমান্ড রেকর্ডিং দেখতে নির্দ্বিধায় দেখুন!


সুতরাং, আসুন এই ডাটাবেসগুলি কীভাবে কাজ করে এবং আরও গুরুত্বপূর্ণভাবে, তারা তাদের পরিষেবার মূল্য কীভাবে খুঁজে বের করে।


আমরা স্নোফ্লেক দিয়ে শুরু করব, কিন্তু এর আর্কিটেকচারে নামার আগে আমরা ব্যবসার কথা বলব। স্নোফ্লেক, একটি সর্বজনীনভাবে ব্যবসা করা কোম্পানি হওয়ায়, আমাদেরকে এর আর্থিক বিষয়ে খোঁচা দেওয়ার সুযোগ দেয়। সাম্প্রতিক একটি প্রতিবেদনে , তারা মোট রাজস্ব $2 বিলিয়ন অর্জন করেছে। কি চমকপ্রদ বিষয় হল তাদের পরিষেবা প্রদানের খরচ, প্রায় $717 মিলিয়ন। এই খরচ, বিক্রি করা পণ্যের খরচ হিসাবেও পরিচিত, শো চালাতে স্নোফ্লেক লাগে।




স্নোফ্লেকের ক্লাউড পরিষেবাগুলি চালানোর খরচ বোঝা একটি লুকানো ধন সন্ধানের মতো। আপনি যদি সংখ্যাগুলিকে ক্রাঞ্চ করেন তবে এটি তাদের মোট আয়ের প্রায় এক-তৃতীয়াংশ, হয়তো একটু বেশি। সুতরাং, সরল ইংরেজিতে, যদি এই সমস্ত খরচ সরাসরি তাদের ক্লাউড খরচগুলি কভার করে এবং অন্য কিছু না হয়, তারা আপনাকে চার্জ করার সময় প্রায় তিনগুণ করে জিনিসগুলি চিহ্নিত করবে।


তবে অবশ্যই, এটি এত সহজ নয়! স্নোফ্লেকের মতো একটি পাওয়ার হাউস চালানোর আসল খরচ শুধু ভার্চুয়াল মেশিন চালানো এবং অ্যামাজন এস 3-তে ডেটা জমা করার চেয়েও বেশি। এখন, আমরা যদি আবার গণিত করি, তাহলে তাদের খরচের উপর সেই মার্কআপ? এটা আরো 5x মত.


এটি আপনার পিছনের পকেটে বহন করার জন্য একটি নিফটি বেঞ্চমার্ক। যদি কোনো কিছুর মার্কআপ 5x-এর বেশি হয়, ভাল, এটি স্নোফ্লেকের মূল্যের বিশ্বে বড় বাস করছে। উল্টো দিকে, যদি এটি 5x এর কম হয়, আপনি আরও বাজেট-বান্ধব বিকল্প খুঁজছেন। এটি ব্যয় ধাঁধাটি বোঝার জন্য একটি গোপন ডিকোডার রিং থাকার মতো।


Snowflake, BigQuery, এবং ClickHouse-এর দামের মডেল আনপ্যাক করা

খরচ-দক্ষ বিশ্লেষণে দক্ষতা অর্জন করতে, আসুন Snowflake, BigQuery এবং ClickHouse-এর খরচ মডেলগুলিকে বিচ্ছিন্ন করি।


স্নোফ্লেক ভার্চুয়াল ডেটা গুদাম মডেল

এখন, স্নোফ্লেকের খরচগুলি ভেঙে দেওয়া যাক। তারা একটি "ভার্চুয়াল ডেটা গুদাম" মডেল ব্যবহার করে, যেখানে আপনার ডেটা S3 অবজেক্ট স্টোরেজে থাকে। আপনি যখন এসকিউএল কোয়েরি চালান, তখন আপনি ক্রেডিট দ্বারা চালিত ভার্চুয়াল ডেটা গুদাম তৈরি করেন, মূলত হোস্ট করা প্রসেসিং ইউনিটগুলি স্টোরেজ থেকে ডেটা টেনে নেয়। এই ভার্চুয়াল মেশিনগুলির মূল্য তাদের মূল্য তালিকায় তালিকাভুক্ত হিসাবে প্রায় $2-4/ঘন্টা পর্যন্ত। মনে রাখবেন: এটি সবচেয়ে ব্যয়বহুল পছন্দ নয়।





এই কৌতূহলজনক মোচড়ের জন্য না হলে এটি আমাদের স্নোফ্লেকের খরচ বিশ্লেষণকে গুটিয়ে দেবে: স্নোফ্লেকের একটি সাম্প্রতিক বাগ উন্মোচন করেছে যে ভার্চুয়াল ডেটা গুদামগুলির জন্য ক্রেডিটগুলি প্রায়শই c5d2x বড় উদাহরণে অনুবাদ করে, প্রতি ঘন্টায় প্রায় 38 সেন্ট খরচ হয়৷ লক্ষণীয়ভাবে, স্নোফ্লেক বস্তুর সঞ্চয়স্থানকে উল্লেখযোগ্যভাবে চিহ্নিত করে না, প্রতি মাসে এটির মূল্য $23-40 প্রতি টেরাবাইট, যা Amazon এর S3 খরচের মতো। পরিবর্তে, প্রকৃত মার্কআপটি কম্পিউটিংয়ে ঘটে, যা স্টোরেজের চেয়ে 5 থেকে 10 গুণ বেশি ব্যয়বহুল হতে পারে।




BigQuery সার্ভারহীন ক্যোয়ারী মডেল

ক্লাউড ডাটাবেস অ্যানালিটিক্সের আরেকটি হেভিওয়েট, BigQuery-কে ঘনিষ্ঠভাবে দেখে নেওয়া যাক। BigQuery একটি স্বতন্ত্র মূল্যের মডেল অফার করে যা "সার্ভারলেস" বা "অন-ডিমান্ড" নামে পরিচিত। এই সেটআপে, আপনি একটি অনন্য বিতরণ স্টোরেজ সিস্টেমে আপনার ডেটা সঞ্চয় করেন, বেশিরভাগ ক্লাউড পরিষেবাগুলির দ্বারা ব্যবহৃত সাধারণ বস্তু সঞ্চয়স্থানে নয়। যাইহোক, মূল্য বেশ প্রতিযোগিতামূলক, অবজেক্ট স্টোরেজ রেটগুলির অনুরূপ, অন্তত সংকুচিত ডেটার জন্য। স্টোরেজের জন্য দাম প্রতি GB প্রতি মাসে $0.016-0.023 থেকে শুরু হয়—এখন এটি আরও বাজেট-বান্ধব।


এই হল ক্যাচ: আপনি যখন একটি কোয়েরি চালান, BigQuery ডায়নামিকভাবে প্রয়োজন অনুযায়ী কম্পিউট রিসোর্স বরাদ্দ করে। আপনার ক্যোয়ারী প্রক্রিয়াকরণের সময় স্ক্যান করা প্রতিটি টেরাবাইট ডেটার জন্য এটি আপনাকে $6.25 চার্জ করে। এই মূল্যের কাঠামোর অর্থ হল যে এমনকি আপাতদৃষ্টিতে নির্দোষ প্রশ্নগুলি খরচ বাড়াতে পারে যদি তারা বিতরণ করা স্টোরেজ থেকে প্রচুর পরিমাণে ডেটা স্ক্যান করে।


এখন, স্ট্যান্ডার্ড ক্লাউড সংস্থানগুলির সাথে BigQuery খরচের তুলনা করা সহজ নয়৷ আপনার প্রকৃত খরচ বিভিন্ন কারণের উপর নির্ভর করে, যেমন আপনি কত ঘন ঘন কোয়েরি চালান এবং আপনার ডেটা স্টোরেজ পদ্ধতি। উদাহরণস্বরূপ, আপনি যদি বিক্ষিপ্তভাবে প্রশ্নগুলি চালান, তাহলে BigQuery সাশ্রয়ী হতে পারে। কিন্তু আপনি যদি 24/7 প্রশ্ন চালান তবে এটি ব্যয়বহুল হতে পারে। সুতরাং, আপনার কাজের চাপ বোঝা এবং আপনার প্রকৃত খরচগুলি যত্ন সহকারে মূল্যায়ন করা অত্যন্ত গুরুত্বপূর্ণ।




AWS RedShift "Buy the Box" মডেল

আমরা যে পূর্ববর্তী মডেলগুলি নিয়ে আলোচনা করেছি সেগুলি ডেটা পরিচালনার জন্য সাধারণত অবজেক্ট স্টোরেজ বা বেশ অনুরূপ কিছুর উপর নির্ভর করে। যাইহোক, আরেকটি ক্লাউড ডাটাবেস অপারেটিং পদ্ধতি রয়েছে, একটি প্রাথমিকভাবে এক দশক আগে রেডশিফ্ট দ্বারা প্রবর্তিত হয়েছিল। আসুন এটিকে "বাই-দ্য-বক্স" মডেল বলি।


এখানে চুক্তি হল: আপনি একটি ভার্চুয়াল মেশিন (VM ), যেমন একটি dc28x বড়, যা সংযুক্ত SSD ব্লক স্টোরেজ সহ আসে। উদাহরণস্বরূপ, Amazon us-west-2-এ, এই VM-এর জন্য আপনার প্রতি ঘন্টায় প্রায় 4.80 সেন্ট খরচ হবে। এখন, আসল খরচগুলি ভেঙে দেওয়া যাক। এই VM সম্ভবত একটি i38x বড় উদাহরণের সাথে মিলে যায়, একটি পুরানো আমাজন ইনস্ট্যান্স টাইপ, যা স্থানীয় SSD স্টোরেজের সাথে আসে। এই ধরনের উদাহরণের জন্য প্রতি ঘন্টায় প্রায় $2.50 খরচ হয়, যা প্রায় একই পরিমাণ RAM প্রদান করে।


মার্কআপের ক্ষেত্রে, Redshift 92% বেশি ব্যয়বহুল এবং 66% কম স্টোরেজ প্রদান করে যদি আপনি নিজে একই রকম VM সেট আপ করেন। মজার বিষয় হল, রেডশিফ্টের মার্কআপ অন্যান্য কিছু পরিষেবার তুলনায় তুলনামূলকভাবে কম, যেমন স্নোফ্লেক, যা কম্পিউটিং সংস্থানগুলির জন্য বেশি চার্জ করে।






ক্লিক হাউস ডাটাবেস আর্কিটেকচার

খরচ দক্ষতার জন্য পূর্ববর্তী মডেলগুলিতে উন্নতি করতে, আসুন প্রথমে আপনাকে ক্লিকহাউসের সাথে পরিচয় করিয়ে দিই। এটি একটি বিনামূল্যের, বিখ্যাত, ওপেন সোর্স, রিয়েল-টাইম অ্যানালিটিক্স ডাটাবেস। ClickHouse এর আর্কিটেকচার আন্তঃসংযুক্ত সার্ভারের চারপাশে ঘোরে যা নিরবিচ্ছিন্ন ডেটা প্রতিলিপি করতে সক্ষম, বিশেষ করে প্রতিলিপি করা টেবিলের সাথে। এই সিস্টেমটি দক্ষ কলামার স্টোরেজ নিয়োগ করে, যেখানে ডেটা সংকুচিত অ্যারেতে থাকে, যা শুধুমাত্র স্টোরেজ খরচ কমায় না বরং ক্যোয়ারী কর্মক্ষমতাও বাড়িয়ে দেয়।


প্রাথমিকভাবে, ClickHouse ব্লক স্টোরেজের মধ্যে সীমাবদ্ধ ছিল, কিন্তু এটি S3-সামঞ্জস্যপূর্ণ অবজেক্ট স্টোরেজকে সমর্থন করার জন্য বিকশিত হয়েছে, এটিকে বহুমুখী করে তুলেছে এবং যেকোনো S3 API-সজ্জিত অবজেক্ট স্টোরেজ সমাধানের সাথে একীকরণের জন্য উন্মুক্ত। দক্ষতার সাথে প্রতিলিপি সম্মতি পরিচালনা করতে, ClickHouse ClickHouseKeeper বা ZooKeeper এর উপর নির্ভর করে।


আপনি Clickhouse সম্পর্কে আরও পড়তে পারেন এখানে .



আধুনিকীকৃত "বাই-দ্য-বক্স" পদ্ধতি

এখন, আসুন এটিকে একটি ক্লাউড পরিষেবা দৃষ্টান্ত হিসাবে কল্পনা করা যাক, যাকে আমরা "মডার্নাইজড বাই-দ্য-বক্স" বলি। নীচের ছবিটির বাম দিকে ঐতিহ্যগত রেডশিফ্ট স্থাপত্য, যখন ডানদিকে, আমরা উদ্ভাবনকে আলিঙ্গন করি৷ আমরা পুরানো i3 দৃষ্টান্তগুলিকে দ্রুত Intel-ভিত্তিক m6is দিয়ে প্রতিস্থাপন করি, একটি উল্লেখযোগ্য গতি বৃদ্ধি প্রদান করে। গেম-চেঞ্জার হল EBS (ইলাস্টিক ব্লক স্টোরেজ) gp3 স্টোরেজ ব্যবহার করে, ব্যান্ডউইথ এবং থ্রুপুট নিয়ন্ত্রণ করে। এটি, রেডশিফ্টের মতো দক্ষ VM-এর সাথে যুক্ত, এর ফলে প্রতি ঘন্টায় আনুমানিক 2.64 সেন্ট খরচ হয়।



স্টোরেজ এবং কম্পিউটিং আলাদা করার সাথে আসল জাদু ঘটে। এই নমনীয় পদ্ধতির সাহায্যে আপনি একই স্টোরেজ রাখার সময় সিপিইউ এবং ভিএম প্রকারগুলিকে সহজেই সামঞ্জস্য করতে পারেন, খরচ বাড়ানো বা কম করার অনুমতি দেয়। Altinity.Cloud এ ClickHouse অ্যাপ্লিকেশন পরিচালনা করার আমাদের অভিজ্ঞতা এই দক্ষতাকে প্রতিফলিত করে।


নীচের গ্রাফে, আপনি সব-ইন-অন-ডিমান্ড খরচ দেখতে পাবেন Altinity.Cloud ক্লিক হাউস চালানোর সময়। উদাহরণস্বরূপ, m6i 12x বড় বেছে নিতে প্রতি ঘণ্টায় ছয় ডলার খরচ হতে পারে, যা Redshift থেকে সামান্য বেশি। যাইহোক, ClickHouse এত দ্রুত যে ছোট ইনস্ট্যান্স সাইজ রেডশিফ্টের চেয়ে ভালো পারফরম্যান্স পায়, যার অর্থ পারফরম্যান্সের সাথে আপোস না করে কম খরচ হয়। এটি স্টোরেজ এবং কম্পিউটিং আলাদা করার অসাধারণ সুবিধাগুলি দেখায়।





সংক্ষিপ্ত করার জন্য, আমরা তিনটি ক্লাউড-হোস্টেড বিশ্লেষণাত্মক ডাটাবেস মডেল এবং তাদের খরচের প্রভাবগুলি অন্বেষণ করেছি। আমাদের তুলনাতে, এই মডেলগুলি একে অপরের বিরুদ্ধে কীভাবে স্ট্যাক আপ হয় তা পরিষ্কার করার জন্য আমরা একটি ওয়ালেট-আকারের টেবিল তৈরি করেছি।



"বাই-দ্য-বক্স" পদ্ধতিটি সাশ্রয়ী কম্পিউটিং অফার করে তবে ব্লক স্টোরেজ ব্যবহারের কারণে আরও দামী স্টোরেজ। অন্যদিকে, Snowflake এবং BigQuery, লাভজনক স্টোরেজ অফার করে কিন্তু বিভিন্ন উপায়ে ব্যয়বহুল হতে পারে। কম্পিউটিংয়ের ক্ষেত্রে স্নোফ্লেক তুলনামূলকভাবে ব্যয়বহুল হতে থাকে, যখন বিস্তৃত ডেটা স্ক্যান পরিচালনা করার সময় BigQuery-এর অন-ডিমান্ড ক্যোয়ারী মডেলটি দামী হয়ে উঠতে পারে। প্রতিটি মডেলের শক্তি এবং দুর্বলতা রয়েছে, এটিকে আপনার নির্দিষ্ট বিশ্লেষণের প্রয়োজনের সাথে সারিবদ্ধ করা অপরিহার্য করে তোলে। "বাই-দ্য-বক্স" অপ্রত্যাশিত কাজের চাপ সহ গ্রাহক-মুখী বিশ্লেষণের জন্য উপযুক্ত, যখন ভার্চুয়াল ডেটা ওয়্যারহাউস মডেল এবং BigQuery নির্দিষ্ট পরিস্থিতিতে উৎকৃষ্ট কিন্তু বিস্ময় এড়াতে যত্নশীল খরচ ব্যবস্থাপনা প্রয়োজন। এই ওভারভিউ আপনাকে কার্যকরভাবে ল্যান্ডস্কেপ নেভিগেট করতে সাহায্য করে।


উপসংহারে

বিশ্লেষণের ক্ষেত্রে, খরচ-দক্ষতা সর্বাগ্রে। Snowflake, BigQuery, এবং ClickHouse-এর মতো জনপ্রিয় প্ল্যাটফর্মের দামের মডেলগুলি বোঝা অবগত সিদ্ধান্ত নেওয়ার জন্য অপরিহার্য। প্রতিটি প্ল্যাটফর্মের শক্তি এবং দুর্বলতাগুলিকে মূল্যায়ন করে এবং তাদের ব্যয়ের কাঠামো বিবেচনা করে, সংস্থাগুলি তাদের নির্দিষ্ট প্রয়োজন অনুসারে সাশ্রয়ী মূল্যের বিশ্লেষণাত্মক সমাধান তৈরি করতে পারে। ওপেন-সোর্স সমাধান এবং শিক্ষাগত সংস্থানগুলিকে ব্যবহার করা খরচকে আরও অপ্টিমাইজ করতে পারে, সংস্থাগুলি তাদের বাজেটের প্রতি সচেতন থাকাকালীন তাদের বিশ্লেষণ লক্ষ্য অর্জন নিশ্চিত করে।


এই নিবন্ধটি একটি Altinity.com ওয়েবিনার থেকে প্রাপ্ত করা হয়েছে.