paint-brush
Snowflake so với BigQuery so với ClickHouse: Làm chủ phân tích kinh doanh hiệu quả về chi phítừ tác giả@altinityinc
1,853 lượt đọc
1,853 lượt đọc

Snowflake so với BigQuery so với ClickHouse: Làm chủ phân tích kinh doanh hiệu quả về chi phí

từ tác giả Altinity Inc.7m2023/12/06
Read on Terminal Reader

dài quá đọc không nổi

TL;DR: So sánh mô hình chi phí của các nền tảng phân tích Snowflake, BigQuery và ClickHouse cho thấy cấu trúc giá đa dạng. Chi phí của Snowflake nghiêng về điện toán, mô hình theo yêu cầu của BigQuery có thể đáp ứng nhu cầu quét dữ liệu trên diện rộng, trong khi ClickHouse cung cấp khả năng phân tích theo thời gian thực với khả năng lưu trữ hiệu quả. Việc điều chỉnh phù hợp với điểm mạnh của từng nền tảng và hiểu rõ các sắc thái chi phí của chúng có thể hướng dẫn doanh nghiệp tìm ra các giải pháp phân tích hiệu quả hơn về mặt chi phí.
featured image - Snowflake so với BigQuery so với ClickHouse: Làm chủ phân tích kinh doanh hiệu quả về chi phí
Altinity Inc. HackerNoon profile picture

Trong bối cảnh năng động của phân tích dữ liệu, việc chọn nền tảng phân tích có thể tác động đáng kể đến kết quả kinh doanh của doanh nghiệp bạn. Trong bài viết hướng dẫn này, chúng tôi đang nỗ lực khám phá ba ứng cử viên nặng ký về phân tích: Snowflake, BigQuery và ClickHouse. Chúng tôi sẽ đi sâu vào mô hình chi phí của họ và tiết lộ các chiến lược có giá trị để giúp bạn nắm vững nghệ thuật phân tích hiệu quả về mặt chi phí - đó là hành trình khám phá những hiểu biết sâu sắc có thể biến đổi trò chơi dữ liệu của bạn!


Tìm hiểu các mô hình chi phí DBMS phân tích

Để đưa ra quyết định hiệu quả về mặt chi phí trong phân tích dữ liệu, điều quan trọng là phải hiểu các mô hình chi phí đằng sau hệ thống quản lý cơ sở dữ liệu phân tích (DBMS). Điểm khởi đầu chung là kiểm tra cấu trúc chi phí của các doanh nghiệp dựa trên đám mây.
Vì vậy, trước tiên, hãy nói về cơ sở dữ liệu phân tích dựa trên đám mây và cách chúng xử lý chi phí khi chạy trên đám mây. Hãy tưởng tượng điều này: Đó là trước năm 2013 và việc thiết lập kho dữ liệu có thể mất tới vài tháng để xử lý nhiều nhà cung cấp, tắc nghẽn phần cứng và cấu hình. Sau đó là Amazon Redshift vào năm 2013 , cho phép bạn khởi động kho dữ liệu trong vòng chưa đầy 20 phút chỉ bằng thẻ tín dụng—một bước tiến khá lớn. Điều này đã mở đường cho các kho dữ liệu dựa trên đám mây khác như BigQuery , Snowflake và các dịch vụ đám mây vận hành Snowflake.


Hầu hết các nhà phát triển đều tìm hiểu về tầm quan trọng của hiệu quả chi phí ngay khi họ bắt đầu nhận được hóa đơn đám mây. Ví dụ: bạn có thể chạy một truy vấn dài hạn trên BigQuery và khiến bạn tốn hàng trăm, thường là hàng nghìn đô la. Lấy nó từ bài đăng tweet/X sau đây; đây không phải là một trường hợp cá biệt.

Gần đây, chúng tôi đã tổ chức một hội thảo trực tuyến thảo luận chi tiết hơn về chủ đề này, trong đó Robert Hodges (CEO của Altinity Inc.) đi sâu vào phân tích chi phí chuyên sâu của từng tùy chọn và hiển thị cho bạn giải pháp DIY thay thế ở phần cuối. Vui lòng xem bản ghi của hội thảo trên web theo yêu cầu sau khi bạn đọc xong bài viết này!


Vì vậy, hãy tìm hiểu cách hoạt động của các cơ sở dữ liệu này và quan trọng hơn là cách họ định giá dịch vụ của mình.


Chúng ta sẽ bắt đầu với Snowflake, nhưng trước khi đi vào kiến trúc của nó, chúng ta sẽ nói về kinh doanh. Snowflake, là một công ty giao dịch đại chúng, cho chúng ta cơ hội tìm hiểu tình hình tài chính của công ty. Trong một báo cáo gần đây , họ đã thu về tổng doanh thu khổng lồ là 2 tỷ USD. Điều thú vị là chi phí cung cấp dịch vụ của họ vào khoảng 717 triệu USD. Chi phí này, còn được gọi là giá vốn hàng bán, là những gì Snowflake cần để thực hiện chương trình.




Hiểu được chi phí vận hành các dịch vụ đám mây của Snowflake giống như một cuộc truy tìm kho báu ẩn giấu. Nếu bạn tính toán các con số, thì nó chiếm khoảng một phần ba, có thể nhiều hơn một chút, trong tổng doanh thu của họ. Vì vậy, nói một cách dễ hiểu, nếu tất cả chi phí đó được dùng thẳng vào chi phí đám mây của họ và không có gì khác, thì họ sẽ tăng giá mọi thứ lên khoảng ba lần khi họ tính phí cho bạn.


Nhưng tất nhiên, nó không đơn giản như vậy! Chi phí thực tế để vận hành một cỗ máy mạnh mẽ như Snowflake không chỉ dừng lại ở việc chạy máy ảo và lưu trữ dữ liệu trong Amazon S3. Bây giờ, nếu chúng ta làm lại phép toán, mức tăng giá trên chi phí của họ? Nó giống 5x hơn.


Đó là một tiêu chuẩn tiện lợi để mang theo trong túi sau của bạn. Nếu thứ gì đó có mức tăng giá lớn hơn 5 lần thì tức là nó đang có giá trị lớn trong thế giới định giá của Snowflake. Mặt khác, nếu nó nhỏ hơn 5 lần thì bạn đang xem xét một lựa chọn thân thiện với ngân sách hơn. Nó giống như có một vòng giải mã bí mật để giải câu đố về chi phí.


Giải nén các mô hình chi phí của Snowflake, BigQuery và ClickHouse

Để nắm vững các phân tích hiệu quả về chi phí, hãy phân tích các mô hình chi phí của Snowflake, BigQuery và ClickHouse.


Mô hình kho dữ liệu ảo Snowflake

Bây giờ, hãy chia nhỏ chi phí của Snowflake. Họ sử dụng mô hình "kho dữ liệu ảo", nơi dữ liệu của bạn nằm trong bộ lưu trữ đối tượng S3. Khi bạn chạy truy vấn SQL, bạn tạo kho dữ liệu ảo được cung cấp bởi tín dụng, về cơ bản là các đơn vị xử lý được lưu trữ lấy dữ liệu từ bộ lưu trữ. Giá cho các máy ảo này dao động từ khoảng 2-4 USD/giờ như được liệt kê trong giá của chúng. Hãy ghi nhớ: đó không phải là sự lựa chọn tiết kiệm nhất.





Điều này sẽ kết thúc phân tích chi phí Snowflake của chúng tôi nếu không có sự thay đổi hấp dẫn này: một lỗi gần đây trong Snowflake đã tiết lộ rằng tín dụng cho kho dữ liệu ảo thường chuyển sang các phiên bản lớn c5d2x, có giá khoảng 38 cent mỗi giờ. Đáng chú ý, Snowflake không tăng đáng kể dung lượng lưu trữ đối tượng, định giá nó ở mức 23-40 USD mỗi terabyte mỗi tháng, tương tự như chi phí S3 của Amazon. Thay vào đó, mức tăng giá thực sự xảy ra trong điện toán, có thể đắt hơn từ 5 đến 10 lần so với việc lưu trữ.




Mô hình truy vấn không có máy chủ BigQuery

Chúng ta hãy xem xét kỹ hơn về BigQuery, một đối thủ nặng ký khác trong phân tích cơ sở dữ liệu đám mây. BigQuery cung cấp một mô hình định giá riêng biệt được gọi là "không có máy chủ" hoặc "theo yêu cầu". Trong thiết lập này, bạn lưu trữ dữ liệu của mình trên một hệ thống lưu trữ phân tán duy nhất, không phải bộ lưu trữ đối tượng thông thường được hầu hết các dịch vụ đám mây sử dụng. Tuy nhiên, giá cả khá cạnh tranh, tương đương với tốc độ lưu trữ đối tượng, ít nhất là đối với dữ liệu không nén. Giá bắt đầu từ 0,016-0,023 USD mỗi GB mỗi tháng cho dung lượng lưu trữ—giờ đây giá cả phù hợp với ngân sách hơn.


Đây là điểm hấp dẫn: khi bạn chạy một truy vấn, BigQuery sẽ tự động phân bổ tài nguyên điện toán nếu cần. Nó tính phí cho bạn 6,25 USD cho mỗi terabyte dữ liệu được quét trong quá trình xử lý truy vấn của bạn. Cấu trúc định giá này có nghĩa là ngay cả những truy vấn có vẻ vô hại cũng có thể tăng chi phí nếu chúng liên quan đến việc quét một lượng lớn dữ liệu từ bộ lưu trữ phân tán.


Hiện tại, việc so sánh chi phí BigQuery với tài nguyên đám mây tiêu chuẩn không hề đơn giản. Chi phí thực tế của bạn phụ thuộc vào nhiều yếu tố khác nhau, như tần suất bạn chạy truy vấn và phương pháp lưu trữ dữ liệu của bạn. Ví dụ: nếu bạn chạy truy vấn không thường xuyên, BigQuery có thể tiết kiệm chi phí. Nhưng nếu bạn chạy truy vấn 24/7 thì có thể tốn kém. Vì vậy, điều quan trọng là phải hiểu khối lượng công việc của bạn và đánh giá chi phí thực sự của bạn một cách cẩn thận.




Mô hình "Mua hộp" của AWS RedShift

Các mô hình trước đây mà chúng ta đã thảo luận thường dựa vào lưu trữ đối tượng hoặc thứ gì đó tương tự để xử lý dữ liệu. Tuy nhiên, có một phương pháp vận hành cơ sở dữ liệu đám mây khác, được Redshift giới thiệu lần đầu cách đây một thập kỷ. Hãy gọi nó là mô hình "Mua theo hộp".


Đây là thỏa thuận: bạn thuê một máy ảo (VM ), chẳng hạn như một máy ảo lớn dc28x, đi kèm với bộ lưu trữ khối SSD kèm theo. Ví dụ: trong Amazon us-west-2, máy ảo này sẽ khiến bạn mất khoảng 4,80 cent mỗi giờ. Bây giờ, hãy chia nhỏ chi phí thực tế. Máy ảo này có thể tương ứng với phiên bản lớn i38x, loại phiên bản Amazon cũ hơn, đi kèm với bộ lưu trữ SSD cục bộ. Loại phiên bản này có giá khoảng 2,50 USD mỗi giờ, cung cấp lượng RAM gần như tương đương.


Về mặt đánh dấu, Redshift đắt hơn 92% trong khi cung cấp dung lượng lưu trữ ít hơn 66% so với khi bạn tự thiết lập một VM tương tự. Điều thú vị là mức tăng giá của Redshift tương đối thấp hơn so với một số dịch vụ khác, như Snowflake, dịch vụ có xu hướng tính phí nhiều hơn cho tài nguyên máy tính.






Kiến trúc cơ sở dữ liệu ClickHouse

Để cải thiện các mô hình trước đó nhằm tiết kiệm chi phí, trước tiên chúng tôi xin giới thiệu với bạn về ClickHouse. Đây là cơ sở dữ liệu phân tích thời gian thực, mã nguồn mở, miễn phí, nổi tiếng. Kiến trúc của ClickHouse xoay quanh các máy chủ được kết nối với nhau có khả năng sao chép dữ liệu liền mạch, đặc biệt là với các bảng được sao chép. Hệ thống này sử dụng lưu trữ cột hiệu quả, trong đó dữ liệu nằm trong các mảng nén, không chỉ giảm chi phí lưu trữ mà còn tăng hiệu suất truy vấn.


Ban đầu, ClickHouse chỉ giới hạn ở khối lưu trữ, nhưng nó đã phát triển để hỗ trợ lưu trữ đối tượng tương thích với S3, khiến nó trở nên linh hoạt và có thể tích hợp với bất kỳ giải pháp lưu trữ đối tượng nào được trang bị API S3. Để quản lý sự đồng thuận sao chép một cách hiệu quả, ClickHouse dựa vào ClickHouseKeeper hoặc ZooKeeper.


Bạn có thể đọc thêm về Clickhouse đây .



Phương pháp tiếp cận "Mua theo hộp" hiện đại hóa

Bây giờ, hãy hình dung đây là mô hình dịch vụ đám mây mà chúng tôi gọi là "Mua theo hộp hiện đại hóa". Ở bên trái của hình ảnh bên dưới là kiến trúc Redshift truyền thống, trong khi ở bên phải, chúng tôi đón nhận sự đổi mới. Chúng tôi thay thế các phiên bản i3 cũ bằng m6is dựa trên Intel nhanh hơn, giúp tăng tốc độ đáng kể. Yếu tố thay đổi cuộc chơi là việc sử dụng bộ lưu trữ gp3 EBS (Elastic Block Storage), cấp quyền kiểm soát băng thông và thông lượng. Điều này, kết hợp với các máy ảo hiệu quả tương tự như Redshift, dẫn đến chi phí xấp xỉ là 2,64 xu mỗi giờ.



Điều kỳ diệu thực sự xảy ra với sự tách biệt giữa lưu trữ và tính toán. Cách tiếp cận linh hoạt này cho phép bạn dễ dàng điều chỉnh các loại CPU và VM trong khi vẫn giữ nguyên bộ nhớ, cho phép tăng hoặc giảm chi phí. Trải nghiệm của chúng tôi tại Altinity.Cloud khi quản lý các ứng dụng ClickHouse phản ánh tính hiệu quả này.


Trong biểu đồ bên dưới, bạn sẽ thấy tổng chi phí theo yêu cầu cho Altinity.Cloud khi chạy ClickHouse. Ví dụ: việc chọn m6i 12x lớn có thể tốn sáu đô la mỗi giờ, cao hơn một chút so với Redshift. Tuy nhiên, ClickHouse nhanh đến mức kích thước phiên bản nhỏ hơn sẽ có hiệu suất tốt hơn Redshift, nghĩa là chi phí thấp hơn mà không ảnh hưởng đến hiệu suất. Điều này cho thấy những lợi ích to lớn của việc tách biệt lưu trữ và tính toán.





Tóm lại, chúng tôi đã khám phá ba mô hình cơ sở dữ liệu phân tích được lưu trữ trên đám mây và ý nghĩa chi phí của chúng. Trong quá trình so sánh, chúng tôi đã tạo một bảng có kích thước bằng chiếc ví để làm rõ cách các mô hình này xếp chồng lên nhau.



Phương pháp "Mua theo hộp" mang lại khả năng tính toán hiệu quả về mặt chi phí nhưng lưu trữ đắt hơn do sử dụng bộ nhớ khối. Mặt khác, Snowflake và BigQuery cung cấp dung lượng lưu trữ tiết kiệm nhưng có thể tốn kém theo nhiều cách khác nhau. Snowflake có xu hướng tương đối đắt về mặt tính toán, trong khi mô hình truy vấn theo yêu cầu của BigQuery có thể trở nên đắt đỏ khi xử lý các đợt quét dữ liệu trên diện rộng. Mỗi mô hình đều có điểm mạnh và điểm yếu, điều cần thiết là phải điều chỉnh chúng phù hợp với nhu cầu phân tích cụ thể của bạn. "Buy-the-Box" phù hợp với hoạt động phân tích hướng tới khách hàng với khối lượng công việc không thể đoán trước, trong khi mô hình kho dữ liệu ảo và BigQuery vượt trội trong các tình huống cụ thể nhưng yêu cầu quản lý chi phí cẩn thận để tránh những bất ngờ. Tổng quan này giúp bạn điều hướng cảnh quan một cách hiệu quả.


Tóm lại là

Khi nói đến phân tích, hiệu quả chi phí là điều tối quan trọng. Hiểu mô hình chi phí của các nền tảng phổ biến như Snowflake, BigQuery và ClickHouse là điều cần thiết để đưa ra quyết định sáng suốt. Bằng cách đánh giá điểm mạnh và điểm yếu của từng nền tảng cũng như xem xét cấu trúc chi phí của chúng, các tổ chức có thể tạo ra các giải pháp phân tích hiệu quả về mặt chi phí phù hợp với nhu cầu cụ thể của mình. Việc tận dụng các giải pháp nguồn mở và tài nguyên giáo dục có thể tối ưu hóa chi phí hơn nữa, đảm bảo các tổ chức đạt được mục tiêu phân tích trong khi vẫn quan tâm đến ngân sách của mình.


Bài viết này được lấy từ hội thảo trực tuyến của Altinity.com .