En el panorama dinámico del análisis de datos, elegir una plataforma de análisis puede afectar significativamente los resultados de su negocio. En este artículo educativo, nos embarcamos en una búsqueda para explorar tres contendientes de análisis de peso: Snowflake, BigQuery y ClickHouse. Profundizaremos en sus modelos de costos y revelaremos estrategias valiosas para ayudarlo a dominar el arte del análisis rentable: ¡es un viaje que explora conocimientos que pueden transformar su juego de datos!
Para tomar decisiones rentables en el análisis de datos, es fundamental comprender los modelos de costos detrás de los sistemas analíticos de gestión de bases de datos (DBMS). Un punto de partida común es examinar la estructura de costos de las empresas basadas en la nube.
Entonces, primero, hablemos de las bases de datos analíticas basadas en la nube y de cómo manejan los costos cuando se ejecutan en la nube. Imagínese esto: es antes de 2013, y configurar un almacén de datos podría llevar varios meses de lidiar con múltiples proveedores, cuellos de botella de hardware y configuraciones. Luego llegó Amazon Redshift en 2013 , lo que le permite iniciar su almacén de datos en menos de 20 minutos con solo una tarjeta de crédito: todo un salto adelante. Esto allanó el camino para otros almacenes de datos basados en la nube como BigQuery , Snowflake y los servicios en la nube que operan Snowflake.
La mayoría de los desarrolladores aprenden sobre la importancia de la rentabilidad tan pronto como empiezan a recibir sus facturas de la nube. Por ejemplo, podría ejecutar una consulta de larga duración en BigQuery que termine costándole cientos, a menudo miles de dólares. Tómelo del siguiente tweet/publicación X; Este no es un hecho aislado.
Recientemente organizamos un seminario web en el que se analiza este tema con más detalle en el que Robert Hodges (CEO de Altinity Inc.) analiza en profundidad los costos de cada opción y al final le muestra una solución alternativa de bricolaje. ¡No dudes en ver la grabación de ese seminario web a pedido una vez que hayas terminado de leer este artículo!
Entonces, profundicemos en cómo funcionan estas bases de datos y, lo que es más importante, cómo fijan el precio de sus servicios.
Comenzaremos con Snowflake, pero antes de entrar en su arquitectura, hablaremos de negocios. Snowflake, al ser una empresa que cotiza en bolsa, nos brinda la oportunidad de husmear en sus finanzas. En un informe reciente , obtuvieron la friolera de 2 mil millones de dólares en ingresos totales. Lo que resulta intrigante es el coste de prestar su servicio, aproximadamente unos 717 millones de dólares. Este costo, también conocido como costo de los bienes vendidos, es lo que necesita Snowflake para ejecutar el espectáculo.
Comprender el costo de ejecutar los servicios en la nube de Snowflake es como una búsqueda del tesoro escondido. Si analizamos los números, representa aproximadamente un tercio, tal vez un poco más, de sus ingresos totales. Entonces, en términos sencillos, si todo ese costo se destinara directamente a cubrir sus gastos de nube y nada más, estarían marcando las cosas aproximadamente tres veces cuando le cobraran.
Pero claro, ¡no es tan sencillo! Los costos reales de ejecutar una potencia como Snowflake van más allá de simplemente ejecutar máquinas virtuales y almacenar datos en Amazon S3. Ahora bien, si volvemos a hacer los cálculos, ¿ese margen sobre sus costos? Es más como 5x.
Se trata de un punto de referencia ingenioso para llevar en el bolsillo trasero. Si algo tiene un margen de beneficio superior a 5x, bueno, está viviendo a lo grande en el mundo de los precios de Snowflake. Por otro lado, si es menos de 5 veces, estás buscando una opción más económica. Es como tener un anillo decodificador secreto para descifrar el rompecabezas de costos.
Para dominar el análisis rentable, analicemos los modelos de costos de Snowflake, BigQuery y ClickHouse.
Ahora, analicemos los costos de Snowflake. Utilizan un modelo de "almacén de datos virtual", donde sus datos residen en el almacenamiento de objetos de S3. Cuando ejecuta consultas SQL, crea almacenes de datos virtuales impulsados por créditos, esencialmente unidades de procesamiento alojadas que extraen datos del almacenamiento. El precio de estas máquinas virtuales oscila entre 2 y 4 dólares por hora, como se indica en su precio. Tenga en cuenta: no es la opción más económica.
Esto concluiría nuestro análisis de costos de Snowflake si no fuera por este giro intrigante: un error reciente en Snowflake reveló que los créditos para almacenes de datos virtuales a menudo se traducen en instancias grandes c5d2x, que cuestan alrededor de 38 centavos por hora. Sorprendentemente, Snowflake no aumenta significativamente el almacenamiento de objetos, con un precio de entre 23 y 40 dólares por terabyte al mes, similar a los costos del S3 de Amazon. En cambio, el verdadero margen de beneficio se produce en la informática, que puede ser de 5 a 10 veces más cara que el almacenamiento.
Echemos un vistazo más de cerca a BigQuery, otro peso pesado en el análisis de bases de datos en la nube. BigQuery ofrece un modelo de precios distinto conocido como "sin servidor" o "bajo demanda". En esta configuración, almacena sus datos en un sistema de almacenamiento distribuido único, no en el almacenamiento de objetos típico utilizado por la mayoría de los servicios en la nube. Sin embargo, el precio es bastante competitivo, similar a las tarifas de almacenamiento de objetos, al menos para datos sin comprimir. Los precios comienzan en $0,016-0,023 por GB por mes para almacenamiento, ahora eso es más económico.
Aquí está el truco: cuando ejecutas una consulta, BigQuery asigna dinámicamente recursos informáticos según sea necesario. Le cobra $6,25 por cada terabyte de datos escaneados durante el procesamiento de su consulta. Esta estructura de precios significa que incluso consultas aparentemente inocentes pueden aumentar los costos si implican escanear una gran cantidad de datos desde un almacenamiento distribuido.
Ahora bien, comparar los costos de BigQuery con los recursos estándar de la nube no es sencillo. Sus gastos reales dependen de varios factores, como la frecuencia con la que realiza consultas y sus métodos de almacenamiento de datos. Por ejemplo, si ejecuta consultas esporádicamente, BigQuery podría resultar rentable. Pero si realiza consultas las 24 horas del día, los 7 días de la semana, podría resultar costoso. Por lo tanto, es fundamental comprender su carga de trabajo y evaluar cuidadosamente sus costos reales.
Los modelos anteriores que hemos analizado normalmente se basan en el almacenamiento de objetos, o algo bastante similar, para el manejo de datos. Sin embargo, existe otro enfoque operativo de base de datos en la nube, uno introducido inicialmente por Redshift hace una década. Llamémoslo el modelo "Buy-the-Box".
Este es el trato: usted alquila una máquina virtual (VM ), como una dc28x grande, que viene con almacenamiento en bloque SSD adjunto. Por ejemplo, en Amazon us-west-2, esta máquina virtual le costaría alrededor de 4,80 centavos por hora. Ahora, analicemos los costos reales. Es probable que esta máquina virtual corresponda a una instancia grande i38x, un tipo de instancia de Amazon más antiguo, que viene con almacenamiento SSD local. Este tipo de instancia cuesta aproximadamente $2,50 por hora y ofrece casi la misma cantidad de RAM.
En términos de margen de beneficio, Redshift es un 92 % más caro y proporciona un 66 % menos de almacenamiento que si usted mismo configurara una máquina virtual similar. Curiosamente, el margen de beneficio de Redshift es relativamente menor en comparación con otros servicios, como Snowflake, que tiende a cobrar más por los recursos informáticos.
Para mejorar los modelos anteriores en términos de rentabilidad, primero permítanos presentarle ClickHouse. Es una base de datos de análisis en tiempo real, gratuita, reconocida y de código abierto. La arquitectura de ClickHouse gira en torno a servidores interconectados capaces de replicar datos sin problemas, especialmente con tablas replicadas. Este sistema emplea un almacenamiento en columnas eficiente, donde los datos residen en matrices comprimidas, lo que no solo reduce los costos de almacenamiento sino que también aumenta el rendimiento de las consultas.
Inicialmente, ClickHouse se limitaba al almacenamiento en bloques, pero ha evolucionado para admitir el almacenamiento de objetos compatible con S3, lo que lo hace versátil y abierto a la integración con cualquier solución de almacenamiento de objetos equipada con API de S3. Para gestionar el consenso de replicación de manera eficiente, ClickHouse depende de ClickHouseKeeper o ZooKeeper.
Puedes leer más sobre Clickhouse
Ahora, imaginemos esto como un paradigma de servicio en la nube, al que denominamos "Buy-the-Box modernizado". En el lado izquierdo de la imagen a continuación se encuentra la arquitectura tradicional de Redshift, mientras que en el lado derecho adoptamos la innovación. Reemplazamos las antiguas instancias i3 con m6is más rápidos basados en Intel, lo que proporciona un aumento de velocidad significativo. Lo que cambia las reglas del juego es el uso del almacenamiento gp3 EBS (Elastic Block Storage), que otorga control sobre el ancho de banda y el rendimiento. Esto, combinado con máquinas virtuales eficientes como Redshift, da como resultado un costo aproximado de 2,64 centavos por hora.
La verdadera magia ocurre con la separación del almacenamiento y la informática. Este enfoque flexible le permite ajustar fácilmente los tipos de CPU y VM manteniendo el mismo almacenamiento, lo que permite aumentar o reducir los costos. Nuestra experiencia en Altinity.Cloud gestionando aplicaciones ClickHouse refleja esta eficiencia.
En el siguiente gráfico, verá el costo total bajo demanda para
En resumen, hemos explorado tres modelos de bases de datos analíticas alojadas en la nube y sus implicaciones de costos. En nuestra comparación, hemos creado una tabla del tamaño de una billetera para dejar claro cómo se comparan estos modelos entre sí.
El enfoque "Buy-the-Box" ofrece informática rentable pero un almacenamiento más caro debido al uso de almacenamiento en bloque. Snowflake y BigQuery, por otro lado, ofrecen almacenamiento económico pero pueden resultar costosos de diferentes maneras. Snowflake tiende a ser relativamente costoso en términos de informática, mientras que el modelo de consulta bajo demanda de BigQuery puede resultar costoso cuando se manejan análisis de datos extensos. Cada modelo tiene sus fortalezas y debilidades, por lo que es esencial alinearlos con sus necesidades analíticas específicas. "Buy-the-Box" se adapta a los análisis de cara al cliente con cargas de trabajo impredecibles, mientras que el modelo de almacén de datos virtual y BigQuery sobresalen en escenarios específicos, pero requieren una cuidadosa gestión de costos para evitar sorpresas. Esta descripción general le ayuda a navegar por el paisaje de forma eficaz.
Cuando se trata de análisis, la rentabilidad es primordial. Comprender los modelos de costos de plataformas populares como Snowflake, BigQuery y ClickHouse es esencial para tomar decisiones informadas. Al evaluar las fortalezas y debilidades de cada plataforma y considerar sus estructuras de costos, las organizaciones pueden diseñar soluciones analíticas rentables adaptadas a sus necesidades específicas. Aprovechar las soluciones de código abierto y los recursos educativos puede optimizar aún más los costos, garantizando que las organizaciones alcancen sus objetivos de análisis teniendo en cuenta sus presupuestos.
Este artículo se deriva de un seminario web de Altinity.com .