paint-brush
Snowflake vs BigQuery vs ClickHouse : maîtriser l'analyse commerciale rentablepar@altinityinc
1,954 lectures
1,954 lectures

Snowflake vs BigQuery vs ClickHouse : maîtriser l'analyse commerciale rentable

par Altinity Inc.7m2023/12/06
Read on Terminal Reader

Trop long; Pour lire

TL;DR : La comparaison des modèles de coûts des plateformes d'analyse Snowflake, BigQuery et ClickHouse révèle diverses structures de tarification. Les coûts de Snowflake penchent vers l'informatique, le modèle à la demande de BigQuery peut accumuler des analyses de données approfondies, tandis que ClickHouse propose des analyses en temps réel avec un stockage efficace. S'aligner correctement sur les atouts de chaque plateforme et comprendre leurs nuances de coûts peut guider les entreprises vers des solutions d'analyse plus rentables.
featured image - Snowflake vs BigQuery vs ClickHouse : maîtriser l'analyse commerciale rentable
Altinity Inc. HackerNoon profile picture

Dans le paysage dynamique de l'analyse de données, le choix d'une plateforme d'analyse peut avoir un impact significatif sur les résultats de votre entreprise. Dans cet article éducatif, nous cherchons à explorer trois concurrents de poids en matière d'analyse : Snowflake, BigQuery et ClickHouse. Nous approfondirons leurs modèles de coûts et révélerons des stratégies précieuses pour vous aider à maîtriser l'art de l'analyse rentable : c'est un voyage explorant des informations qui peuvent transformer votre jeu de données !


Comprendre les modèles de coûts des SGBD analytiques

Pour prendre des décisions rentables en matière d'analyse de données, il est essentiel de comprendre les modèles de coûts derrière les systèmes de gestion de bases de données analytiques (SGBD). Un point de départ courant consiste à examiner la structure des coûts des entreprises basées sur le cloud.
Parlons donc d’abord des bases de données analytiques basées sur le cloud et de la manière dont elles gèrent les coûts lorsqu’elles sont exécutées dans le cloud. Imaginez ceci : nous sommes avant 2013, et la mise en place d'un entrepôt de données pourrait prendre jusqu'à plusieurs mois de gestion de plusieurs fournisseurs, de goulots d'étranglement matériels et de configurations. Puis est arrivé Amazon Redshift en 2013 , vous permettant de démarrer votre entrepôt de données en moins de 20 minutes avec une simple carte de crédit : un grand pas en avant. Cela a ouvert la voie à d'autres entrepôts de données basés sur le cloud comme BigQuery , Snowflake et aux services cloud qui exploitent Snowflake.


La plupart des développeurs découvrent l’importance de la rentabilité dès qu’ils commencent à recevoir leurs factures cloud. Par exemple, vous pouvez exécuter une requête de longue durée sur BigQuery qui finit par vous coûter des centaines, voire des milliers de dollars. Prenez-le du post tweet/X suivant ; ce n’est pas un cas isolé.

Nous avons récemment organisé un webinaire discutant de ce sujet plus en détail, au cours duquel Robert Hodges (PDG d'Altinity Inc.) aborde l'analyse approfondie des coûts de chaque option et vous montre à la fin une solution alternative de bricolage. N'hésitez pas à regarder l' enregistrement de ce webinaire à la demande une fois que vous avez fini de lire cet article !


Voyons donc comment fonctionnent ces bases de données et, plus important encore, comment elles tarifent leurs services.


Nous commencerons par Snowflake, mais avant d'entrer dans son architecture, nous parlerons affaires. Snowflake, étant une société cotée en bourse, nous donne l'occasion de fouiller dans ses données financières. Dans un rapport récent , ils ont engrangé un chiffre d'affaires total de 2 milliards de dollars. Ce qui est intriguant, c'est le coût de la prestation de leurs services, soit environ 717 millions de dollars. Ce coût, également connu sous le nom de coût des marchandises vendues, est ce qu'il faut à Snowflake pour diriger le spectacle.




Comprendre le coût de fonctionnement des services cloud de Snowflake s'apparente à une chasse au trésor cachée. Si vous faites les calculs, cela représente environ un tiers, peut-être un peu plus, de leurs revenus totaux. Donc, en termes simples, si tout ce coût servait directement à couvrir leurs dépenses cloud et rien d'autre, ils majoreraient les choses environ trois fois lorsqu'ils vous factureraient.


Mais bien sûr, ce n’est pas si simple ! Les coûts réels de fonctionnement d'une centrale comme Snowflake vont au-delà de la simple gestion de machines virtuelles et du stockage de données dans Amazon S3. Maintenant, si nous refaisons le calcul, quelle majoration sur leurs coûts ? C'est plutôt 5x.


C’est une référence intéressante à emporter dans votre poche arrière. Si quelque chose a une majoration supérieure à 5x, eh bien, il occupe une place importante dans le monde des prix de Snowflake. D’un autre côté, s’il est inférieur à 5x, vous envisagez une option plus économique. C'est comme avoir un anneau décodeur secret pour déchiffrer l'énigme des coûts.


Déballage des modèles de coûts de Snowflake, BigQuery et ClickHouse

Pour maîtriser des analyses rentables, disséquons les modèles de coûts de Snowflake, BigQuery et ClickHouse.


Modèle d'entrepôt de données virtuel Snowflake

Maintenant, décomposons les coûts de Snowflake. Ils utilisent un modèle « d'entrepôt de données virtuel », dans lequel vos données résident dans un stockage d'objets S3. Lorsque vous exécutez des requêtes SQL, vous créez des entrepôts de données virtuels alimentés par des crédits, essentiellement des unités de traitement hébergées extrayant les données du stockage. Le prix de ces machines virtuelles varie d'environ 2 à 4 $/heure, comme indiqué dans leur tarification. Gardez à l’esprit : ce n’est pas le choix le plus économe.





Ceci mettrait fin à notre analyse des coûts de Snowflake sans cette tournure intrigante : un bug récent dans Snowflake a révélé que les crédits pour les entrepôts de données virtuels se traduisent souvent par de grandes instances c5d2x, coûtant environ 38 cents par heure. Remarquablement, Snowflake n'augmente pas de manière significative le stockage d'objets, le tarifant entre 23 et 40 $ par téraoctet et par mois, similaire aux coûts S3 d'Amazon. Au lieu de cela, la véritable majoration se produit dans l’informatique, qui peut être 5 à 10 fois plus coûteuse que le stockage.




Modèle de requête sans serveur BigQuery

Examinons de plus près BigQuery, un autre poids lourd de l'analyse de bases de données cloud. BigQuery propose un modèle de tarification distinct appelé « sans serveur » ou « à la demande ». Dans cette configuration, vous stockez vos données sur un système de stockage distribué unique, et non sur le stockage objet typique utilisé par la plupart des services cloud. Cependant, les prix sont assez compétitifs, similaires aux tarifs du stockage objet, du moins pour les données non compressées. Les prix commencent entre 0,016 et 0,023 USD par Go et par mois pour le stockage, ce qui est désormais plus économique.


Voici le problème : lorsque vous exécutez une requête, BigQuery alloue dynamiquement les ressources de calcul selon les besoins. Il vous facture 6,25 $ pour chaque téraoctet de données analysées lors du traitement de votre requête. Cette structure tarifaire signifie que même des requêtes apparemment innocentes peuvent générer des coûts si elles impliquent l'analyse d'une grande quantité de données à partir d'un stockage distribué.


Désormais, comparer les coûts de BigQuery aux ressources cloud standards n'est pas simple. Vos dépenses réelles dépendent de divers facteurs, comme la fréquence à laquelle vous exécutez des requêtes et vos méthodes de stockage de données. Par exemple, si vous exécutez des requêtes de manière sporadique, BigQuery peut s'avérer rentable. Mais si vous exécutez des requêtes 24h/24 et 7j/7, cela peut coûter cher. Il est donc crucial de comprendre votre charge de travail et d’évaluer soigneusement vos coûts réels.




Modèle AWS RedShift « Acheter la boîte »

Les modèles précédents dont nous avons parlé s'appuient généralement sur le stockage d'objets, ou quelque chose d'assez similaire, pour la gestion des données. Cependant, il existe une autre approche d'exploitation des bases de données cloud, initialement introduite par Redshift il y a dix ans. Appelons-le le modèle « Buy-the-Box ».


Voici le problème : vous louez une machine virtuelle (VM ), telle qu'un dc28x large, qui est livrée avec un stockage en bloc SSD connecté. Par exemple, sur Amazon us-west-2, cette VM vous coûterait environ 4,80 cents par heure. Maintenant, décomposons les coûts réels. Cette VM correspond probablement à une grande instance i38x, un type d'instance Amazon plus ancien, fournie avec un stockage SSD local. Ce type d'instance coûte environ 2,50 $ par heure, offrant presque la même quantité de RAM.


En termes de balisage, Redshift est 92 % plus cher tout en offrant 66 % de stockage en moins que si vous deviez configurer vous-même une VM similaire. Il est intéressant de noter que la majoration de Redshift est relativement inférieure à celle de certains autres services, comme Snowflake, qui a tendance à facturer davantage les ressources informatiques.






Architecture de la base de données ClickHouse

Pour améliorer les modèles précédents en termes de rentabilité, laissez-nous d'abord vous présenter ClickHouse. Il s'agit d'une base de données d'analyse en temps réel gratuite, renommée et open source. L'architecture de ClickHouse s'articule autour de serveurs interconnectés capables de réplication transparente des données, notamment avec les tables répliquées. Ce système utilise un stockage en colonnes efficace, où les données résident dans des tableaux compressés, ce qui réduit non seulement les coûts de stockage, mais améliore également les performances des requêtes.


Initialement, ClickHouse se limitait au stockage en bloc, mais il a évolué pour prendre en charge le stockage d'objets compatible S3, le rendant polyvalent et ouvert à l'intégration avec toute solution de stockage d'objets équipée de l'API S3. Pour gérer efficacement le consensus de réplication, ClickHouse s'appuie sur ClickHouseKeeper ou ZooKeeper.


Vous pouvez en savoir plus sur Clickhouse ici .



L'approche modernisée du « Buy-the-Box »

Maintenant, envisageons cela comme un paradigme de service cloud, que nous appelons « Buy-the-Box modernisé ». Sur le côté gauche de l'image ci-dessous se trouve l'architecture traditionnelle Redshift, tandis qu'à droite, nous embrassons l'innovation. Nous remplaçons les anciennes instances i3 par des m6is Intel plus rapides, offrant ainsi une augmentation significative de la vitesse. Ce qui change la donne, c'est l'utilisation du stockage gp3 EBS (Elastic Block Storage), qui permet de contrôler la bande passante et le débit. Ceci, associé à des machines virtuelles efficaces telles que Redshift, entraîne un coût approximatif de 2,64 cents par heure.



La véritable magie opère avec la séparation du stockage et de l’informatique. Cette approche flexible vous permet d'ajuster facilement les types de processeurs et de machines virtuelles tout en conservant le même stockage, ce qui permet d'augmenter ou de réduire les coûts. Notre expérience chez Altinity.Cloud dans la gestion des applications ClickHouse reflète cette efficacité.


Dans le graphique ci-dessous, vous verrez le coût tout compris à la demande pour Altinity.Cloud lors de l'exécution de ClickHouse. Par exemple, opter pour m6i 12x large pourrait coûter six dollars de l’heure, soit un peu plus que Redshift. Cependant, ClickHouse est si rapide que les instances plus petites obtiennent de meilleures performances que Redshift, ce qui signifie un coût inférieur sans compromettre les performances. Cela met en valeur les énormes avantages de la séparation du stockage et de l’informatique.





Pour résumer, nous avons exploré trois modèles de bases de données analytiques hébergées dans le cloud et leurs implications en termes de coûts. Dans notre comparaison, nous avons créé un tableau de la taille d'un portefeuille pour montrer clairement comment ces modèles se comparent les uns aux autres.



L'approche « Buy-the-Box » offre une informatique rentable mais un stockage plus coûteux en raison de l'utilisation du stockage en bloc. Snowflake et BigQuery, en revanche, offrent un stockage économique mais peuvent être coûteux à différents égards. Snowflake a tendance à être relativement coûteux en termes de calcul, tandis que le modèle de requête à la demande de BigQuery peut devenir coûteux lors de la gestion d'analyses de données approfondies. Chaque modèle a ses forces et ses faiblesses, il est donc essentiel de les aligner sur vos besoins analytiques spécifiques. Le « Buy-the-Box » convient aux analyses orientées client avec des charges de travail imprévisibles, tandis que le modèle d'entrepôt de données virtuel et BigQuery excellent dans des scénarios spécifiques mais nécessitent une gestion minutieuse des coûts pour éviter les surprises. Cet aperçu vous aide à naviguer efficacement dans le paysage.


En conclusion

En matière d’analyse, la rentabilité est primordiale. Comprendre les modèles de coûts des plates-formes populaires telles que Snowflake, BigQuery et ClickHouse est essentiel pour prendre des décisions éclairées. En évaluant les forces et les faiblesses de chaque plateforme et en tenant compte de leurs structures de coûts, les organisations peuvent élaborer des solutions analytiques rentables et adaptées à leurs besoins spécifiques. L'exploitation de solutions open source et de ressources pédagogiques peut optimiser davantage les coûts, garantissant ainsi aux organisations d'atteindre leurs objectifs d'analyse tout en respectant leurs budgets.


Cet article est issu d'un webinaire Altinity.com .