No cenário dinâmico da análise de dados, a escolha de uma plataforma de análise pode impactar significativamente os resultados financeiros do seu negócio. Neste artigo educacional, pretendemos explorar três concorrentes de peso em análises: Snowflake, BigQuery e ClickHouse. Iremos nos aprofundar em seus modelos de custos e revelar estratégias valiosas para ajudá-lo a dominar a arte da análise econômica – é uma jornada que explora insights que podem transformar seu jogo de dados!
Para tomar decisões econômicas em análise de dados, é crucial compreender os modelos de custo por trás dos sistemas analíticos de gerenciamento de banco de dados (SGBD). Um ponto de partida comum é examinar a estrutura de custos das empresas baseadas na nuvem.
Então, primeiro, vamos falar sobre bancos de dados analíticos baseados em nuvem e como eles lidam com os custos quando executados na nuvem. Imagine o seguinte: isso é antes de 2013, e a configuração de um data warehouse pode levar vários meses para lidar com vários fornecedores, gargalos de hardware e configurações. Depois veio o Amazon Redshift em 2013 , permitindo que você iniciasse seu data warehouse em menos de 20 minutos com apenas um cartão de crédito – um grande avanço. Isso abriu caminho para outros data warehouses baseados em nuvem, como BigQuery , Snowflake e serviços em nuvem que operam o Snowflake.
A maioria dos desenvolvedores aprende sobre a importância da economia assim que começa a receber suas contas de nuvem. Por exemplo, você pode executar uma consulta de longa duração no BigQuery que acaba custando centenas, muitas vezes milhares de dólares. Veja o seguinte tweet/postagem X; esta não é uma ocorrência isolada.
Recentemente, realizamos um webinar discutindo este tópico com mais detalhes, onde Robert Hodges (CEO da Altinity Inc.) analisa detalhadamente os custos de cada opção e mostra uma solução DIY alternativa no final. Sinta-se à vontade para assistir à gravação desse webinar sob demanda quando terminar de ler este artigo!
Então, vamos nos aprofundar em como esses bancos de dados funcionam e, mais importante, como eles definem o preço de seus serviços.
Começaremos com Snowflake, mas antes de entrarmos em sua arquitetura, falaremos de negócios. A Snowflake, sendo uma empresa de capital aberto, nos dá a chance de fuçar em suas finanças. Em um relatório recente , eles arrecadaram impressionantes US$ 2 bilhões em receita total. O que é intrigante é o custo de entrega do serviço, cerca de US$ 717 milhões. Esse custo, também conhecido como custo dos produtos vendidos, é o que Snowflake leva para comandar o show.
Compreender o custo de execução dos serviços em nuvem da Snowflake é como uma caça ao tesouro escondido. Se você analisar os números, verá que representa cerca de um terço, talvez um pouco mais, de sua receita total. Então, em linguagem simples, se todo esse custo fosse direto para cobrir suas despesas com nuvem e nada mais, eles estariam aumentando as coisas em cerca de três vezes quando cobrassem de você.
Mas é claro que não é tão simples! Os custos reais de administrar uma potência como o Snowflake vão além de apenas executar máquinas virtuais e armazenar dados no Amazon S3. Agora, se fizermos as contas novamente, qual é o aumento sobre seus custos? É mais como 5x.
Essa é uma referência bacana para carregar no bolso de trás. Se algo tem uma margem de lucro superior a 5x, bem, está vivendo bem no mundo dos preços do Snowflake. Por outro lado, se for inferior a 5x, você está procurando uma opção mais econômica. É como ter um anel decodificador secreto para decifrar o quebra-cabeça dos custos.
Para dominar análises econômicas, vamos dissecar os modelos de custo de Snowflake, BigQuery e ClickHouse.
Agora, vamos analisar os custos do Snowflake. Eles usam um modelo de “data warehouse virtual”, onde seus dados residem no armazenamento de objetos S3. Ao executar consultas SQL, você cria data warehouses virtuais alimentados por créditos, essencialmente unidades de processamento hospedadas que extraem dados do armazenamento. O preço dessas máquinas virtuais varia de cerca de US$ 2 a 4/hora, conforme listado em seus preços. Tenha em mente: não é a escolha mais econômica.
Isso encerraria nossa análise de custos do Snowflake se não fosse por esta reviravolta intrigante: um bug recente no Snowflake revelou que os créditos para data warehouses virtuais geralmente se traduzem em grandes instâncias c5d2x, custando cerca de 38 centavos por hora. Notavelmente, o Snowflake não aumenta significativamente o armazenamento de objetos, custando US$ 23-40 por terabyte por mês, semelhante aos custos do S3 da Amazon. Em vez disso, a verdadeira margem ocorre na computação, que pode ser de 5 a 10 vezes mais cara que o armazenamento.
Vamos dar uma olhada mais de perto no BigQuery, outro peso pesado na análise de banco de dados em nuvem. O BigQuery oferece um modelo de preços distinto conhecido como “sem servidor” ou “sob demanda”. Nesta configuração, você armazena seus dados em um sistema de armazenamento distribuído exclusivo, e não no armazenamento de objetos típico usado pela maioria dos serviços em nuvem. No entanto, o preço é bastante competitivo, semelhante às taxas de armazenamento de objetos, pelo menos para dados não compactados. Os preços começam em US$ 0,016-0,023 por GB por mês para armazenamento – agora isso é mais econômico.
Aqui está o problema: quando você executa uma consulta, o BigQuery aloca dinamicamente recursos de computação conforme necessário. Ele cobra US$ 6,25 por cada terabyte de dados verificados durante o processamento da consulta. Essa estrutura de preços significa que mesmo consultas aparentemente inocentes podem gerar custos se envolverem a verificação de uma grande quantidade de dados do armazenamento distribuído.
Agora, comparar os custos do BigQuery com os recursos padrão da nuvem não é simples. Suas despesas reais dependem de vários fatores, como a frequência com que você executa consultas e seus métodos de armazenamento de dados. Por exemplo, se você executar consultas esporadicamente, o BigQuery poderá ser econômico. Mas se você estiver executando consultas 24 horas por dia, 7 dias por semana, isso pode sair caro. Portanto, é crucial compreender sua carga de trabalho e avaliar cuidadosamente seus custos reais.
Os modelos anteriores que discutimos normalmente dependem de armazenamento de objetos, ou algo bastante semelhante, para manipulação de dados. No entanto, há outra abordagem operacional de banco de dados em nuvem, introduzida inicialmente pelo Redshift há uma década. Vamos chamá-lo de modelo “Compre a Caixa”.
O negócio é o seguinte: você aluga uma máquina virtual (VM ), como uma dc28x grande, que vem com armazenamento em bloco SSD anexado. Por exemplo, no Amazon us-west-2, esta VM custaria cerca de 4,80 centavos por hora. Agora, vamos analisar os custos reais. Esta VM provavelmente corresponde a uma instância grande i38x, um tipo de instância mais antigo da Amazon, que vem com armazenamento SSD local. Esse tipo de instância custa aproximadamente US$ 2,50 por hora, oferecendo quase a mesma quantidade de RAM.
Em termos de marcação, o Redshift é 92% mais caro e fornece 66% menos armazenamento do que se você mesmo configurasse uma VM semelhante. Curiosamente, a margem de lucro do Redshift é relativamente menor em comparação com alguns outros serviços, como o Snowflake, que tende a cobrar mais pelos recursos de computação.
Para melhorar a eficiência de custos dos modelos anteriores, vamos primeiro apresentar o ClickHouse. É um banco de dados analítico gratuito, renomado, de código aberto e em tempo real. A arquitetura do ClickHouse gira em torno de servidores interconectados capazes de replicação contínua de dados, especialmente com tabelas replicadas. Este sistema emprega armazenamento colunar eficiente, onde os dados residem em matrizes compactadas, não apenas reduzindo os custos de armazenamento, mas também aumentando o desempenho das consultas.
Inicialmente, o ClickHouse estava confinado ao armazenamento em bloco, mas evoluiu para oferecer suporte ao armazenamento de objetos compatível com S3, tornando-o versátil e aberto à integração com qualquer solução de armazenamento de objetos equipada com API S3. Para gerenciar o consenso de replicação de forma eficiente, ClickHouse depende do ClickHouseKeeper ou do ZooKeeper.
Você pode ler mais sobre Clickhouse
Agora, vamos imaginar isso como um paradigma de serviço em nuvem, que chamamos de “Compre a Caixa Modernizada”. No lado esquerdo da imagem abaixo está a arquitetura tradicional do Redshift, enquanto no lado direito abraçamos a inovação. Substituímos as antigas instâncias i3 por m6is mais rápidas baseadas em Intel, proporcionando um aumento significativo de velocidade. A virada de jogo é o uso do armazenamento gp3 EBS (Elastic Block Storage), garantindo controle sobre a largura de banda e a taxa de transferência. Isso, combinado com VMs eficientes semelhantes ao Redshift, resulta em um custo aproximado de 2,64 centavos por hora.
A verdadeira mágica acontece com a separação entre armazenamento e computação. Essa abordagem flexível permite ajustar facilmente os tipos de CPU e VM, mantendo o mesmo armazenamento, permitindo aumentar ou diminuir os custos. Nossa experiência na Altinity.Cloud gerenciando aplicativos ClickHouse reflete essa eficiência.
No gráfico abaixo, você verá o custo total sob demanda para
Para resumir, exploramos três modelos de banco de dados analítico hospedados na nuvem e suas implicações de custo. Em nossa comparação, criamos uma tabela do tamanho de uma carteira para deixar claro como esses modelos se comparam.
A abordagem "Buy-the-Box" oferece computação econômica, mas armazenamento mais caro devido ao uso de armazenamento em bloco. Snowflake e BigQuery, por outro lado, oferecem armazenamento econômico, mas podem ser caros de diferentes maneiras. O Snowflake tende a ser relativamente caro em termos de computação, enquanto o modelo de consulta sob demanda do BigQuery pode se tornar caro ao lidar com extensas varreduras de dados. Cada modelo tem seus pontos fortes e fracos, sendo essencial alinhá-los com suas necessidades analíticas específicas. O "Buy-the-Box" combina análises voltadas para o cliente com cargas de trabalho imprevisíveis, enquanto o modelo de data warehouse virtual e o BigQuery se destacam em cenários específicos, mas exigem um gerenciamento cuidadoso de custos para evitar surpresas. Esta visão geral ajuda você a navegar pela paisagem de maneira eficaz.
Quando se trata de análise, a relação custo-benefício é fundamental. Compreender os modelos de custo de plataformas populares como Snowflake, BigQuery e ClickHouse é essencial para tomar decisões informadas. Ao avaliar os pontos fortes e fracos de cada plataforma e considerar as suas estruturas de custos, as organizações podem criar soluções analíticas económicas e adaptadas às suas necessidades específicas. Aproveitar soluções de código aberto e recursos educacionais pode otimizar ainda mais os custos, garantindo que as organizações atinjam seus objetivos analíticos e, ao mesmo tempo, estejam conscientes de seus orçamentos.
Este artigo foi derivado de um webinar do Altinity.com .