paint-brush
Snowflake vs. BigQuery vs. ClickHouse: 비용 효율적인 비즈니스 분석 마스터하기~에 의해@altinityinc
1,951 판독값
1,951 판독값

Snowflake vs. BigQuery vs. ClickHouse: 비용 효율적인 비즈니스 분석 마스터하기

~에 의해 Altinity Inc.7m2023/12/06
Read on Terminal Reader

너무 오래; 읽다

요약: Snowflake, BigQuery 및 ClickHouse 분석 플랫폼의 비용 모델을 비교하면 다양한 가격 구조가 드러납니다. Snowflake의 비용은 컴퓨팅에 집중되고 BigQuery의 주문형 모델은 광범위한 데이터 스캔을 통해 성능을 발휘할 수 있으며 ClickHouse는 효율적인 저장을 통해 실시간 분석을 제공합니다. 각 플랫폼의 장점을 적절하게 조정하고 비용의 미묘한 차이를 이해하면 기업은 보다 비용 효율적인 분석 솔루션을 찾을 수 있습니다.
featured image - Snowflake vs. BigQuery vs. ClickHouse: 비용 효율적인 비즈니스 분석 마스터하기
Altinity Inc. HackerNoon profile picture

데이터 분석의 역동적인 환경에서 분석 플랫폼을 선택하면 비즈니스 수익에 큰 영향을 미칠 수 있습니다. 이 교육 기사에서는 세 가지 강력한 분석 경쟁자인 Snowflake, BigQuery 및 ClickHouse를 탐색하고 있습니다. 우리는 비용 모델을 탐구하고 비용 효율적인 분석 기술을 익히는 데 도움이 되는 귀중한 전략을 공개할 것입니다. 이는 데이터 게임을 변화시킬 수 있는 통찰력을 탐구하는 여정입니다!


분석 DBMS 비용 모델 이해

데이터 분석에서 비용 효과적인 결정을 내리려면 분석 데이터베이스 관리 시스템(DBMS)의 비용 모델을 이해하는 것이 중요합니다. 일반적인 출발점은 클라우드 기반 비즈니스의 비용 구조를 조사하는 것입니다.
그럼 먼저 클라우드 기반 분석 데이터베이스에 대해 알아보고, 클라우드에서 실행할 때 비용을 처리하는 방법을 살펴보겠습니다. 2013년 이전이고 데이터 웨어하우스를 설정하려면 여러 공급업체, 하드웨어 병목 현상 및 구성을 처리하는 데 최대 몇 달이 걸릴 수 있습니다. 그러다가 2013년에 Amazon Redshift가 출시되어 신용 카드만으로 20분 이내에 데이터 웨어하우스를 시작할 수 있게 되었습니다. 이는 상당한 발전입니다. 이는 BigQuery , Snowflake 및 Snowflake를 운영하는 클라우드 서비스와 같은 다른 클라우드 기반 데이터 웨어하우스를 위한 기반을 마련했습니다.


대부분의 개발자는 클라우드 청구서를 받기 시작하자마자 비용 효율성의 중요성에 대해 배웁니다. 예를 들어 BigQuery에서 장기 실행 쿼리를 실행하면 수백 달러, 때로는 수천 달러의 비용이 발생할 수 있습니다. 다음 트윗/X 게시물에서 가져오세요. 이것은 고립된 사건이 아닙니다.

최근 우리는 Robert Hodges(Altinity Inc.의 CEO)가 각 옵션에 대한 심층적인 비용 분석에 대해 설명하고 마지막에 대체 DIY 솔루션을 보여주는 이 주제를 더 자세히 논의하는 웹 세미나를 진행했습니다. 이 기사를 다 읽고 나면 언제든지 해당 웹 세미나 녹화본을 주문형으로 시청하실 수 있습니다!


이제 이러한 데이터베이스가 어떻게 작동하는지, 그리고 더 중요하게는 서비스 가격이 어떻게 책정되는지 자세히 살펴보겠습니다.


Snowflake부터 시작하겠습니다. 하지만 아키텍처에 들어가기 전에 비즈니스에 대해 이야기하겠습니다. 상장 회사인 Snowflake는 우리에게 재무 상태를 살펴볼 기회를 제공합니다. 최근 보고서 에 따르면 총 수익은 무려 20억 달러에 달합니다. 흥미로운 점은 서비스 제공 비용이 대략 7억 1,700만 달러에 달한다는 것입니다. 판매된 상품 비용이라고도 알려진 이 비용은 Snowflake가 쇼를 진행하는 데 필요한 비용입니다.




Snowflake의 클라우드 서비스 실행 비용을 이해하는 것은 숨겨진 보물찾기와 같습니다. 숫자를 자세히 살펴보면 전체 수익의 약 3분의 1, 어쩌면 그보다 조금 더 많은 금액입니다. 따라서 쉽게 말해서 해당 비용이 모두 클라우드 비용을 충당하는 데 사용되고 다른 비용은 전혀 발생하지 않는다면 청구할 때 비용이 대략 3배 정도 인상될 것입니다.


하지만 물론 그렇게 간단하지는 않습니다! Snowflake와 같은 강력한 시스템을 운영하는 데 드는 실제 비용은 가상 머신을 실행하고 Amazon S3에 데이터를 저장하는 것 이상입니다. 이제 다시 계산해 보면 비용에 대한 인상이 어떻게 될까요? 5배 정도 되는 것 같습니다.


그것은 뒷주머니에 넣고 다닐 수 있는 멋진 벤치마크입니다. 5배보다 큰 마크업이 있는 경우 Snowflake의 가격 책정 세계에서 큰 의미를 지닌 것입니다. 반대로 5배 미만이면 예산 친화적인 옵션을 찾고 있는 것입니다. 이는 비용 퍼즐을 해독하기 위한 비밀 디코더 링을 갖는 것과 같습니다.


Snowflake, BigQuery 및 ClickHouse의 비용 모델 압축 풀기

비용 효율적인 분석을 익히기 위해 Snowflake, BigQuery, ClickHouse의 비용 모델을 분석해 보겠습니다.


Snowflake 가상 데이터 웨어하우스 모델

이제 Snowflake의 비용을 분석해 보겠습니다. 이들은 데이터가 S3 객체 스토리지에 있는 "가상 데이터 웨어하우스" 모델을 사용합니다. SQL 쿼리를 실행하면 기본적으로 스토리지에서 데이터를 가져오는 호스팅 처리 장치인 크레딧으로 구동되는 가상 데이터 웨어하우스가 생성됩니다. 이러한 가상 머신의 가격은 가격에 표시된 대로 시간당 약 2~4달러입니다. 명심하십시오: 그것은 가장 절약적인 선택이 아닙니다.





흥미로운 반전이 아니라면 이것으로 Snowflake 비용 분석을 마무리할 것입니다. Snowflake의 최근 버그는 가상 데이터 웨어하우스에 대한 크레딧이 종종 c5d2x 대형 인스턴스로 변환되어 시간당 약 38센트의 비용이 든다는 사실을 공개했습니다. 놀랍게도 Snowflake는 객체 스토리지를 크게 늘리지 않고 Amazon의 S3 비용과 비슷한 테라바이트당 월 23~40달러의 가격을 책정합니다. 대신 실제 마크업은 컴퓨팅에서 발생하며 이는 스토리지보다 5~10배 더 비쌀 수 있습니다.




BigQuery 서버리스 쿼리 모델

클라우드 데이터베이스 분석의 또 다른 주요 도구인 BigQuery에 대해 자세히 살펴보겠습니다. BigQuery는 '서버리스' 또는 '주문형'이라는 고유한 가격 책정 모델을 제공합니다. 이 설정에서는 대부분의 클라우드 서비스에서 사용하는 일반적인 객체 스토리지가 아닌 고유한 분산 스토리지 시스템에 데이터를 저장합니다. 그러나 적어도 비압축 데이터의 경우 가격은 객체 스토리지 요금과 비슷하게 상당히 경쟁력이 있습니다. 스토리지 가격은 월별 GB당 $0.016-0.023부터 시작합니다. 이제는 더욱 예산 친화적입니다.


중요한 점은 쿼리를 실행하면 BigQuery가 필요에 따라 컴퓨팅 리소스를 동적으로 할당한다는 것입니다. 쿼리 처리 중에 스캔된 데이터 1테라바이트당 6.25달러가 청구됩니다. 이러한 가격 책정 구조는 겉으로는 무해해 보이는 쿼리라도 분산 스토리지에서 대량의 데이터를 스캔하는 경우 비용이 증가할 수 있음을 의미합니다.


이제 BigQuery 비용을 표준 클라우드 리소스와 비교하는 것이 간단하지 않습니다. 실제 비용은 쿼리 실행 빈도, 데이터 저장 방법 등 다양한 요인에 따라 달라집니다. 예를 들어 쿼리를 산발적으로 실행하는 경우 BigQuery가 비용 효율적일 수 있습니다. 그러나 연중무휴 24시간 쿼리를 실행하는 경우 비용이 많이 들 수 있습니다. 따라서 워크로드를 이해하고 실제 비용을 신중하게 평가하는 것이 중요합니다.




AWS RedShift "박스 구매" 모델

우리가 논의한 이전 모델은 일반적으로 데이터 처리를 위해 객체 스토리지 또는 매우 유사한 것에 의존합니다. 그러나 10년 전 Redshift 가 처음 도입한 또 다른 클라우드 데이터베이스 운영 접근 방식이 있습니다. 이를 "Buy-the-Box" 모델이라고 부르겠습니다.


거래 내용은 다음과 같습니다. SSD 블록 스토리지가 연결된 dc28x 대형과 같은 가상 머신(VM )을 임대합니다. 예를 들어 Amazon us-west-2에서 이 VM의 비용은 시간당 약 4.80센트입니다. 이제 실제 비용을 분석해 보겠습니다. 이 VM은 로컬 SSD 스토리지와 함께 제공되는 이전 Amazon 인스턴스 유형인 i38x 대형 인스턴스에 해당할 가능성이 높습니다. 이 유형의 인스턴스 비용은 시간당 약 $2.50이며 거의 동일한 양의 RAM을 제공합니다.


마크업 측면에서 Redshift는 유사한 VM을 직접 설정하는 경우보다 92% 더 비싸고 66% 더 적은 스토리지를 제공합니다. 흥미롭게도 Redshift의 마크업은 컴퓨팅 리소스에 대해 더 많은 비용을 청구하는 경향이 있는 Snowflake와 같은 일부 다른 서비스에 비해 상대적으로 낮습니다.






ClickHouse 데이터베이스 아키텍처

이전 모델의 비용 효율성을 개선하기 위해 먼저 ClickHouse를 소개하겠습니다. 무료로 제공되는 유명한 오픈 소스 실시간 분석 데이터베이스입니다. ClickHouse의 아키텍처는 특히 복제된 테이블을 통해 원활한 데이터 복제가 가능한 상호 연결된 서버를 중심으로 이루어집니다. 이 시스템은 데이터가 압축된 배열에 상주하는 효율적인 컬럼형 스토리지를 사용하여 스토리지 비용을 절감할 뿐만 아니라 쿼리 성능도 향상시킵니다.


처음에 ClickHouse는 블록 스토리지에 국한되었지만 S3 호환 개체 스토리지를 지원하도록 발전하여 S3 API가 탑재된 개체 스토리지 솔루션과 다용도로 통합할 수 있게 되었습니다. 복제 합의를 효율적으로 관리하기 위해 ClickHouse는 ClickHouseKeeper 또는 ZooKeeper를 사용합니다.


Clickhouse에 대해 자세히 알아볼 수 있습니다. 여기 .



현대화된 "Buy-the-Box" 접근 방식

이제 이것을 "현대화된 Buy-the-Box"라는 클라우드 서비스 패러다임으로 상상해 보겠습니다. 아래 이미지의 왼쪽은 전통적인 Redshift 아키텍처이고 오른쪽은 혁신을 수용하는 것입니다. 기존 i3 인스턴스를 더 빠른 Intel 기반 m6is로 교체하여 속도를 크게 향상시켰습니다. 획기적인 변화는 EBS(Elastic Block Storage) gp3 스토리지를 사용하여 대역폭과 처리량을 제어할 수 있다는 것입니다. 이는 Redshift와 유사한 효율적인 VM과 결합되어 시간당 대략 2.64센트의 비용이 발생합니다.



진정한 마법은 스토리지와 컴퓨팅이 분리될 때 일어납니다. 이러한 유연한 접근 방식을 사용하면 동일한 스토리지를 유지하면서 CPU 및 VM 유형을 쉽게 조정할 수 있으므로 비용을 확장하거나 축소할 수 있습니다. ClickHouse 애플리케이션을 관리하는 Altinity.Cloud에서의 경험은 이러한 효율성을 반영합니다.


아래 그래프에서는 다음에 대한 올인 온디맨드 비용을 볼 수 있습니다. Altinity.클라우드 ClickHouse를 실행할 때. 예를 들어 m6i 12x 대형을 선택하면 시간당 6달러가 소요될 수 있으며 이는 Redshift보다 약간 더 비쌉니다. 그러나 ClickHouse는 속도가 매우 빠르므로 더 작은 인스턴스 크기가 Redshift보다 더 나은 성능을 제공하므로 성능 저하 없이 비용이 절감됩니다. 이는 스토리지와 컴퓨팅 분리의 엄청난 이점을 보여줍니다.





요약하자면, 우리는 세 가지 클라우드 호스팅 분석 데이터베이스 모델과 해당 모델의 비용 영향을 살펴보았습니다. 비교에서 우리는 이러한 모델이 서로 어떻게 비교되는지 명확하게 보여주기 위해 지갑 크기의 테이블을 만들었습니다.



"Buy-the-Box" 접근 방식은 비용 효율적인 컴퓨팅을 제공하지만 블록 스토리지 사용으로 인해 더 비싼 스토리지를 제공합니다. 반면 Snowflake와 BigQuery는 경제적인 스토리지를 제공하지만 여러 면에서 비용이 많이 들 수 있습니다. Snowflake는 컴퓨팅 측면에서 상대적으로 비용이 많이 드는 경향이 있는 반면, BigQuery의 주문형 쿼리 모델은 광범위한 데이터 스캔을 처리할 때 비용이 많이 들 수 있습니다. 각 모델에는 장단점이 있으므로 이를 특정 분석 요구 사항에 맞게 조정하는 것이 중요합니다. "Buy-the-Box"는 예측할 수 없는 워크로드가 있는 고객 대면 분석에 적합한 반면, 가상 데이터 웨어하우스 모델과 BigQuery는 특정 시나리오에서 탁월하지만 예상치 못한 상황을 피하기 위해 신중한 비용 관리가 필요합니다. 이 개요는 풍경을 효과적으로 탐색하는 데 도움이 됩니다.


결론적으로

분석에서는 비용 효율성이 가장 중요합니다. Snowflake, BigQuery, ClickHouse와 같은 인기 있는 플랫폼의 비용 모델을 이해하는 것은 정보에 입각한 결정을 내리는 데 필수적입니다. 각 플랫폼의 강점과 약점을 평가하고 비용 구조를 고려함으로써 조직은 특정 요구 사항에 맞는 비용 효율적인 분석 솔루션을 만들 수 있습니다. 오픈 소스 솔루션과 교육 리소스를 활용하면 비용을 더욱 최적화하여 조직이 예산을 고려하면서 분석 목표를 달성할 수 있습니다.


이 기사는 Altinity.com 웹 세미나에서 파생되었습니다.