In der dynamischen Datenanalyselandschaft kann die Wahl einer Analyseplattform erhebliche Auswirkungen auf das Endergebnis Ihres Unternehmens haben. In diesem lehrreichen Artikel begeben wir uns auf die Suche nach drei Schwergewichten im Bereich Analytics: Snowflake, BigQuery und ClickHouse. Wir werden uns mit ihren Kostenmodellen befassen und wertvolle Strategien enthüllen, die Ihnen dabei helfen, die Kunst kosteneffizienter Analysen zu meistern – es ist eine Reise zur Erforschung von Erkenntnissen, die Ihr Datenspiel verändern können!
Um kosteneffektive Entscheidungen in der Datenanalyse zu treffen, ist es wichtig, die Kostenmodelle hinter analytischen Datenbankmanagementsystemen (DBMS) zu verstehen. Ein üblicher Ausgangspunkt ist die Untersuchung der Kostenstruktur cloudbasierter Unternehmen.
Lassen Sie uns also zunächst über Cloud-basierte Analysedatenbanken sprechen und wie sie mit den Kosten umgehen, wenn sie in der Cloud ausgeführt werden. Stellen Sie sich Folgendes vor: Es ist vor 2013, und die Einrichtung eines Data Warehouse könnte mehrere Monate dauern, da man sich mit mehreren Anbietern, Hardware-Engpässen und Konfigurationen auseinandersetzen muss. Im Jahr 2013 kam dann Amazon Redshift auf den Markt, mit dem Sie Ihr Data Warehouse in weniger als 20 Minuten mit nur einer Kreditkarte starten konnten – ein echter Sprung nach vorne. Dies ebnete den Weg für andere cloudbasierte Data Warehouses wie BigQuery , Snowflake und Cloud-Dienste, die Snowflake betreiben.
Die meisten Entwickler erkennen die Bedeutung der Kosteneffizienz, sobald sie ihre Cloud-Rechnungen erhalten. Sie könnten beispielsweise eine lang laufende Abfrage in BigQuery ausführen, die Sie am Ende Hunderte, oft sogar Tausende von Dollar kostet. Nehmen Sie es aus dem folgenden Tweet/X-Beitrag; Dies ist kein Einzelfall.
Wir haben kürzlich ein Webinar durchgeführt, in dem dieses Thema ausführlicher besprochen wurde. Robert Hodges (CEO von Altinity Inc.) geht dabei auf die detaillierte Kostenanalyse jeder Option ein und zeigt Ihnen am Ende eine alternative DIY-Lösung. Schauen Sie sich die Aufzeichnung dieses Webinars gerne auf Abruf an, sobald Sie mit der Lektüre dieses Artikels fertig sind!
Schauen wir uns also genauer an, wie diese Datenbanken funktionieren und, was noch wichtiger ist, wie sie ihre Dienste bepreisen.
Wir beginnen mit Snowflake, aber bevor wir uns mit seiner Architektur befassen, werden wir über das Geschäftliche sprechen. Da Snowflake ein börsennotiertes Unternehmen ist, haben wir die Möglichkeit, einen Blick auf seine Finanzdaten zu werfen. In einem kürzlich veröffentlichten Bericht erzielten sie einen Gesamtumsatz von satten 2 Milliarden US-Dollar. Interessant sind die Kosten für die Bereitstellung ihres Dienstes, die etwa 717 Millionen US-Dollar betragen. Diese Kosten, auch Kosten der verkauften Waren genannt, sind es, die Snowflake benötigt, um die Show zu leiten.
Die Kosten für den Betrieb der Cloud-Dienste von Snowflake zu verstehen, gleicht einer versteckten Schatzsuche. Wenn man die Zahlen betrachtet, ist es etwa ein Drittel, vielleicht sogar etwas mehr, ihres Gesamtumsatzes. Im Klartext: Wenn alle diese Kosten direkt in die Deckung ihrer Cloud-Kosten fließen würden und in nichts anderes, würden sie bei der Abrechnung etwa das Dreifache verlangen.
Aber so einfach ist das natürlich nicht! Die tatsächlichen Kosten für den Betrieb eines Kraftpakets wie Snowflake gehen über den bloßen Betrieb virtueller Maschinen und das Speichern von Daten in Amazon S3 hinaus. Wenn wir nun noch einmal nachrechnen, welcher Aufschlag auf ihre Kosten? Es ist eher 5x.
Das ist ein praktischer Maßstab, den Sie in Ihrer Gesäßtasche tragen können. Wenn etwas einen Aufschlag von mehr als dem Fünffachen hat, dann hat es in der Preiswelt von Snowflake einen großen Platz eingenommen. Auf der anderen Seite, wenn es weniger als das Fünffache beträgt, suchen Sie nach einer budgetfreundlicheren Option. Es ist, als hätte man einen geheimen Decoderring, um das Kostenrätsel zu entschlüsseln.
Um kosteneffiziente Analysen zu meistern, analysieren wir die Kostenmodelle von Snowflake, BigQuery und ClickHouse.
Lassen Sie uns nun die Kosten von Snowflake aufschlüsseln. Sie verwenden ein „virtuelles Data Warehouse“-Modell, bei dem sich Ihre Daten im S3-Objektspeicher befinden. Wenn Sie SQL-Abfragen ausführen, erstellen Sie virtuelle Data Warehouses, die auf Credits basieren, im Wesentlichen gehostete Verarbeitungseinheiten, die Daten aus dem Speicher abrufen. Die Preise für diese virtuellen Maschinen liegen zwischen etwa 2 und 4 US-Dollar pro Stunde, wie in der Preisliste aufgeführt. Bedenken Sie: Es ist nicht die sparsamste Wahl.
Ohne diese interessante Wendung wäre unsere Snowflake-Kostenanalyse damit abgeschlossen: Ein kürzlich aufgetretener Fehler in Snowflake hat ergeben, dass sich die Credits für virtuelle Data Warehouses oft auf c5d2x große Instanzen übertragen lassen, die etwa 38 Cent pro Stunde kosten. Bemerkenswert ist, dass Snowflake den Objektspeicher nicht wesentlich erhöht und ihn mit 23 bis 40 US-Dollar pro Terabyte und Monat bepreist, ähnlich wie die S3-Kosten von Amazon. Stattdessen entsteht der eigentliche Aufschlag in der Datenverarbeitung, die fünf- bis zehnmal teurer sein kann als die Speicherung.
Werfen wir einen genaueren Blick auf BigQuery, ein weiteres Schwergewicht in der Cloud-Datenbankanalyse. BigQuery bietet ein eigenes Preismodell, das als „serverlos“ oder „On-Demand“ bekannt ist. Bei diesem Setup speichern Sie Ihre Daten auf einem einzigartigen verteilten Speichersystem und nicht auf dem typischen Objektspeicher, der von den meisten Cloud-Diensten verwendet wird. Allerdings sind die Preise recht konkurrenzfähig, ähnlich wie bei Objektspeichertarifen, zumindest für unkomprimierte Daten. Die Preise beginnen bei 0,016 bis 0,023 US-Dollar pro GB und Monat für Speicher – das ist jetzt budgetfreundlicher.
Hier ist der Haken: Wenn Sie eine Abfrage ausführen, weist BigQuery Rechenressourcen dynamisch nach Bedarf zu. Es berechnet Ihnen 6,25 US-Dollar für jedes Terabyte an Daten, die während Ihrer Abfrageverarbeitung gescannt werden. Diese Preisstruktur bedeutet, dass selbst scheinbar harmlose Abfragen die Kosten in die Höhe treiben können, wenn sie das Scannen großer Datenmengen aus einem verteilten Speicher erfordern.
Nun ist es nicht einfach, die Kosten von BigQuery mit Standard-Cloud-Ressourcen zu vergleichen. Ihre tatsächlichen Kosten hängen von verschiedenen Faktoren ab, beispielsweise davon, wie oft Sie Abfragen ausführen und welche Methoden zur Datenspeicherung Sie verwenden. Wenn Sie beispielsweise Abfragen sporadisch ausführen, kann BigQuery kostengünstig sein. Wenn Sie jedoch rund um die Uhr Abfragen ausführen, kann es teuer werden. Daher ist es wichtig, Ihren Arbeitsaufwand zu verstehen und Ihre tatsächlichen Kosten sorgfältig einzuschätzen.
Die vorherigen Modelle, die wir besprochen haben, basieren für die Datenverarbeitung typischerweise auf Objektspeicher oder etwas ganz Ähnlichem. Es gibt jedoch noch einen anderen Ansatz für den Betrieb von Cloud-Datenbanken, der ursprünglich vor einem Jahrzehnt von Redshift eingeführt wurde. Nennen wir es das „Buy-the-Box“-Modell.
Hier ist der Deal: Sie mieten eine virtuelle Maschine (VM ), beispielsweise eine DC28x Large, die mit angeschlossenem SSD-Blockspeicher ausgestattet ist. Bei Amazon us-west-2 würde diese VM beispielsweise etwa 4,80 Cent pro Stunde kosten. Lassen Sie uns nun die tatsächlichen Kosten aufschlüsseln. Diese VM entspricht wahrscheinlich einer großen i38x-Instanz, einem älteren Amazon-Instanztyp, der über lokalen SSD-Speicher verfügt. Diese Art von Instanz kostet etwa 2,50 US-Dollar pro Stunde und bietet nahezu die gleiche Menge an RAM.
In Bezug auf den Aufschlag ist Redshift 92 % teurer und bietet 66 % weniger Speicher, als wenn Sie eine ähnliche VM selbst einrichten würden. Interessanterweise ist der Aufschlag von Redshift im Vergleich zu einigen anderen Diensten, wie etwa Snowflake, das tendenziell höhere Gebühren für Rechenressourcen verlangt, relativ niedriger.
Um die Kosteneffizienz gegenüber den Vorgängermodellen zu verbessern, stellen wir Ihnen zunächst ClickHouse vor. Es handelt sich um eine kostenlose, renommierte Open-Source-Datenbank für Echtzeitanalysen. Die Architektur von ClickHouse basiert auf miteinander verbundenen Servern, die eine nahtlose Datenreplikation ermöglichen, insbesondere bei replizierten Tabellen. Dieses System verwendet einen effizienten Spaltenspeicher, bei dem sich die Daten in komprimierten Arrays befinden, was nicht nur die Speicherkosten senkt, sondern auch die Abfrageleistung steigert.
Ursprünglich war ClickHouse auf Blockspeicher beschränkt, hat sich jedoch weiterentwickelt und unterstützt jetzt S3-kompatiblen Objektspeicher, wodurch es vielseitig einsetzbar und offen für die Integration in jede mit der S3-API ausgestattete Objektspeicherlösung ist. Um den Replikationskonsens effizient zu verwalten, verlässt sich ClickHouse entweder auf ClickHouseKeeper oder ZooKeeper.
Sie können mehr über Clickhouse lesen
Stellen wir uns dies nun als ein Cloud-Service-Paradigma vor, das wir „Modernized Buy-the-Box“ nennen. Auf der linken Seite des Bildes unten sehen Sie die traditionelle Redshift-Architektur, während wir auf der rechten Seite Innovationen begrüßen. Wir ersetzen die alten i3-Instanzen durch schnellere Intel-basierte m6is und sorgen so für einen deutlichen Geschwindigkeitsschub. Der Game-Changer ist die Verwendung von EBS (Elastic Block Storage) GP3-Speicher, der die Kontrolle über Bandbreite und Durchsatz ermöglicht. In Kombination mit effizienten VMs wie Redshift ergeben sich daraus ungefähre Kosten von 2,64 Cent pro Stunde.
Die wahre Magie entsteht durch die Trennung von Speicher und Computer. Mit diesem flexiblen Ansatz können Sie die CPU- und VM-Typen einfach anpassen und dabei den gleichen Speicher beibehalten, sodass die Kosten nach oben oder unten skaliert werden können. Unsere Erfahrung bei Altinity.Cloud bei der Verwaltung von ClickHouse-Anwendungen spiegelt diese Effizienz wider.
In der Grafik unten sehen Sie die Gesamtkosten für On-Demand
Zusammenfassend haben wir drei in der Cloud gehostete Analysedatenbankmodelle und ihre Kostenauswirkungen untersucht. In unserem Vergleich haben wir eine Tabelle im Portemonnaie-Format erstellt, um deutlich zu machen, wie diese Modelle im Vergleich zueinander abschneiden.
Der „Buy-the-Box“-Ansatz bietet kostengünstiges Computing, aber teureren Speicher aufgrund der Blockspeichernutzung. Snowflake und BigQuery hingegen bieten kostengünstigen Speicher, können jedoch auf unterschiedliche Weise kostspielig sein. Snowflake ist im Hinblick auf die Rechenleistung tendenziell relativ teuer, während das On-Demand-Abfragemodell von BigQuery bei umfangreichen Datenscans teuer werden kann. Jedes Modell hat seine Stärken und Schwächen, daher ist es wichtig, es an Ihre spezifischen Analyseanforderungen anzupassen. „Buy-the-Box“ eignet sich für kundenorientierte Analysen mit unvorhersehbaren Arbeitslasten, während das virtuelle Data-Warehouse-Modell und BigQuery in bestimmten Szenarien hervorragende Leistungen erbringen, jedoch ein sorgfältiges Kostenmanagement erfordern, um Überraschungen zu vermeiden. Diese Übersicht hilft Ihnen, sich effektiv in der Landschaft zurechtzufinden.
Bei der Analytik steht die Kosteneffizienz im Vordergrund. Um fundierte Entscheidungen treffen zu können, ist es wichtig, die Kostenmodelle beliebter Plattformen wie Snowflake, BigQuery und ClickHouse zu verstehen. Durch die Bewertung der Stärken und Schwächen jeder Plattform und die Berücksichtigung ihrer Kostenstrukturen können Unternehmen kosteneffiziente Analyselösungen entwickeln, die auf ihre spezifischen Anforderungen zugeschnitten sind. Der Einsatz von Open-Source-Lösungen und Bildungsressourcen kann die Kosten weiter optimieren und sicherstellen, dass Unternehmen ihre Analyseziele erreichen und gleichzeitig ihre Budgets im Auge behalten.
Dieser Artikel wurde aus einem Altinity.com -Webinar abgeleitet.