Veri analitiğinin dinamik ortamında bir analiz platformu seçmek işletmenizin kârlılığını önemli ölçüde etkileyebilir. Bu eğitici makalede, üç ağır sıklet analiz yarışmacısını keşfetme arayışındayız: Snowflake, BigQuery ve ClickHouse. Maliyet modellerini derinlemesine inceleyeceğiz ve uygun maliyetli analiz sanatında ustalaşmanıza yardımcı olacak değerli stratejileri ortaya çıkaracağız; bu, veri oyununuzu dönüştürebilecek içgörüleri keşfeden bir yolculuktur!
Veri analitiğinde uygun maliyetli kararlar almak için analitik veritabanı yönetim sistemlerinin (DBMS) arkasındaki maliyet modellerini anlamak çok önemlidir. Ortak bir başlangıç noktası bulut tabanlı işletmelerin maliyet yapısını incelemektir.
Öncelikle bulut tabanlı analitik veritabanlarından ve bunların bulutta çalışırken maliyetleri nasıl karşıladığından bahsedelim. Şunu hayal edin: 2013'ten önceyiz ve bir veri ambarının kurulması, birden fazla satıcıyla, donanım darboğazlarıyla ve yapılandırmalarla uğraşmak nedeniyle birkaç ay kadar sürebilir. Daha sonra 2013 yılında Amazon Redshift geldi ve veri ambarınızı yalnızca bir kredi kartıyla 20 dakikadan kısa sürede başlatmanıza olanak tanıdı; bu oldukça ileri bir adım. Bu, BigQuery , Snowflake gibi diğer bulut tabanlı veri ambarlarının ve Snowflake'i çalıştıran bulut hizmetlerinin önünü açtı.
Çoğu geliştirici, bulut faturalarını almaya başlar başlamaz maliyet verimliliğinin önemini öğrenir. Örneğin, BigQuery'de uzun süre çalışan bir sorgu çalıştırabilirsiniz ve bu sorgu size yüzlerce, çoğu zaman da binlerce dolara mal olabilir. Aşağıdaki tweet/X gönderisinden alın; bu münferit bir olay değil.
Yakın zamanda bu konuyu daha ayrıntılı olarak tartışan bir web semineri gerçekleştirdik; burada Robert Hodges (Altinity Inc. CEO'su) her seçeneğin derinlemesine maliyet analizine giriyor ve sonunda size alternatif bir Kendin Yap çözümü gösteriyor. Bu makaleyi okumayı bitirdikten sonra isteğe bağlı web seminerinin kaydını izlemekten çekinmeyin!
Şimdi bu veritabanlarının nasıl çalıştığını ve daha da önemlisi hizmetlerini nasıl fiyatlandırdıklarını inceleyelim.
Snowflake ile başlayacağız ama mimarisine girmeden önce iş konuşacağız. Halka açık bir şirket olan Snowflake, bize mali durumlarını araştırma şansı veriyor. Yakın tarihli bir rapora göre toplam 2 milyar dolarlık devasa bir gelir elde ettiler. İlginç olan, hizmetlerini sunmanın maliyetinin kabaca 717 milyon dolar civarında olması. Satılan malların maliyeti olarak da bilinen bu maliyet, Snowflake'in gösteriyi yürütmesi için gereken maliyettir.
Snowflake'in bulut hizmetlerini çalıştırmanın maliyetini anlamak, gizli bir hazine avı gibidir. Rakamları incelerseniz, kabaca toplam gelirlerinin yaklaşık üçte biri, belki biraz daha fazlası olduğunu görürsünüz. Yani, basit bir ifadeyle, eğer tüm bu maliyet doğrudan bulut masraflarını karşılamaya ve başka hiçbir şeye harcanmasaydı, sizden ücret aldıklarında kabaca üç kat fiyat artışı yapmış olacaklardı.
Ama elbette bu kadar basit değil! Snowflake gibi güçlü bir santrali çalıştırmanın gerçek maliyetleri, sanal makineleri çalıştırmanın ve verileri Amazon S3'te saklamanın ötesine geçiyor. Şimdi, matematiği tekrar yaparsak, maliyetlerindeki bu artış ne olur? Daha çok 5x'e benziyor.
Bu, arka cebinizde taşıyabileceğiniz şık bir kriterdir. Bir şeyin fiyatı 5 kattan fazlaysa, Snowflake'in fiyatlandırma dünyasında büyük bir yer tutar. Öte yandan, eğer 5 kattan azsa, daha bütçe dostu bir seçeneğe bakıyorsunuz demektir. Bu, maliyet bulmacasını çözmek için gizli bir kod çözücü halkasına sahip olmak gibidir.
Uygun maliyetli analizlerde uzmanlaşmak için Snowflake, BigQuery ve ClickHouse'un maliyet modellerini inceleyelim.
Şimdi Snowflake'in maliyetlerini ayrıntılı olarak inceleyelim. Verilerinizin S3 nesne deposunda bulunduğu bir "sanal veri ambarı" modeli kullanırlar. SQL sorgularını çalıştırdığınızda, kredilerle desteklenen sanal veri ambarları, esas olarak depodan veri çeken barındırılan işlem birimleri oluşturursunuz. Bu sanal makinelerin fiyatları, fiyatlandırmalarında belirtildiği gibi yaklaşık 2-4$/saat arasında değişmektedir. Unutmayın: Bu en tasarruflu seçim değil.
Bu ilgi çekici değişiklik olmasaydı Snowflake maliyet analizimizi tamamlayacaktı: Snowflake'te yakın zamanda meydana gelen bir hata, sanal veri ambarlarına yönelik kredilerin genellikle c5d2x büyük bulut sunucularına dönüştüğünü ve saat başına yaklaşık 38 sente mal olduğunu ortaya çıkardı. Dikkat çekici bir şekilde Snowflake, Amazon'un S3 maliyetlerine benzer şekilde nesne depolamayı terabayt başına 23-40 ABD Doları olarak fiyatlandırarak nesne depolamayı önemli ölçüde artırmıyor. Bunun yerine gerçek fiyat artışı, depolamadan 5 ila 10 kat daha pahalı olabilen bilgi işlemde gerçekleşir.
Bulut veritabanı analitiğinde bir diğer ağır siklet olan BigQuery'ye daha yakından bakalım. BigQuery, "sunucusuz" veya "isteğe bağlı" olarak bilinen farklı bir fiyatlandırma modeli sunar. Bu kurulumda verilerinizi çoğu bulut hizmetinin kullandığı tipik nesne depolamasında değil, benzersiz bir dağıtılmış depolama sisteminde depolarsınız. Ancak fiyatlandırma, en azından sıkıştırılmamış veriler için nesne depolama oranlarına benzer şekilde oldukça rekabetçidir. Depolama için fiyatlar GB başına aylık 0,016-0,023 ABD dolarından başlıyor; artık bu daha bütçe dostu.
İşin püf noktası şu: Bir sorgu çalıştırdığınızda BigQuery, işlem kaynaklarını gerektiği gibi dinamik olarak ayırır. Sorgu işlemeniz sırasında taranan her terabayt veri için sizden 6,25 ABD doları ücret alınır. Bu fiyatlandırma yapısı, dağıtılmış depolama alanından büyük miktarda verinin taranmasını içeriyorsa, görünüşte masum olan sorguların bile maliyetleri artırabileceği anlamına gelir.
Artık BigQuery maliyetlerini standart bulut kaynaklarıyla karşılaştırmak kolay değil. Gerçek giderleriniz, sorguları ne sıklıkta çalıştırdığınız ve veri depolama yöntemleriniz gibi çeşitli faktörlere bağlıdır. Örneğin, sorguları ara sıra çalıştırıyorsanız BigQuery uygun maliyetli olabilir. Ancak sorguları 7/24 çalıştırıyorsanız pahalı olabilir. Bu nedenle iş yükünüzü anlamanız ve gerçek maliyetlerinizi dikkatli bir şekilde değerlendirmeniz çok önemlidir.
Tartıştığımız önceki modeller, veri işleme için genellikle nesne depolamaya veya oldukça benzer bir şeye dayanır. Ancak, ilk olarak on yıl önce Redshift tarafından tanıtılan başka bir bulut veritabanı işletim yaklaşımı daha var. Buna "Kutuyu Satın Al" modeli diyelim.
Anlaşma şu: SSD blok depolama alanıyla birlikte gelen dc28x büyük gibi bir sanal makine (VM ) kiralıyorsunuz. Örneğin Amazon us-west-2'de bu VM'nin maliyeti saatte yaklaşık 4,80 sent olacaktır. Şimdi gerçek maliyetleri parçalayalım. Bu VM büyük olasılıkla yerel SSD depolamayla birlikte gelen eski bir Amazon bulut sunucusu türü olan i38x büyük bulut sunucusuna karşılık geliyor. Bu tür bir bulut sunucusunun maliyeti saat başına yaklaşık 2,50 ABD dolarıdır ve neredeyse aynı miktarda RAM sunar.
İşaretleme açısından Redshift, benzer bir VM'yi kendiniz kurmanıza kıyasla %92 daha pahalıdır ve %66 daha az depolama alanı sağlar. İlginç bir şekilde Redshift'in kâr marjı, bilgi işlem kaynakları için daha fazla ücret alma eğiliminde olan Snowflake gibi diğer bazı hizmetlerle karşılaştırıldığında nispeten daha düşüktür.
Maliyet verimliliği açısından önceki modelleri geliştirmek için öncelikle sizi ClickHouse'la tanıştıralım. Ücretsiz, tanınmış, açık kaynaklı, gerçek zamanlı bir analiz veritabanıdır. ClickHouse'un mimarisi, özellikle çoğaltılmış tablolarla kesintisiz veri çoğaltma kapasitesine sahip birbirine bağlı sunucular etrafında döner. Bu sistem, verilerin sıkıştırılmış dizilerde bulunduğu verimli sütunlu depolamayı kullanarak yalnızca depolama maliyetlerini azaltmakla kalmaz, aynı zamanda sorgu performansını da artırır.
Başlangıçta ClickHouse, blok depolamayla sınırlıydı, ancak S3 uyumlu nesne depolamayı destekleyecek şekilde gelişti, bu da onu çok yönlü hale getirdi ve S3 API donanımlı herhangi bir nesne depolama çözümüyle entegrasyona açık hale getirdi. Çoğaltma fikir birliğini verimli bir şekilde yönetmek için ClickHouse, ClickHouseKeeper veya ZooKeeper'a güvenir.
Clickhouse hakkında daha fazlasını okuyabilirsiniz
Şimdi bunu "Modernize Kutuyu Satın Al" olarak adlandırdığımız bir bulut hizmeti paradigması olarak tasavvur edelim. Aşağıdaki görselin sol tarafında geleneksel Redshift mimarisi, sağ tarafında ise yeniliği kucaklıyoruz. Eski i3 bulut sunucularını daha hızlı Intel tabanlı m6is'lerle değiştirerek önemli bir hız artışı sağlıyoruz. Oyunun kurallarını değiştiren şey, bant genişliği ve işlem hacmi üzerinde kontrol sağlayan EBS (Elastik Blok Depolama) gp3 depolamasının kullanılmasıdır. Bu, Redshift'e benzer verimli VM'lerle eşleştirildiğinde, saatte yaklaşık 2,64 sentlik bir maliyetle sonuçlanır.
Gerçek sihir, depolama ve bilgi işlemin ayrılmasıyla gerçekleşir. Bu esnek yaklaşım, aynı depolama alanını korurken CPU ve VM türlerini kolayca ayarlamanıza olanak tanıyarak maliyetin artırılmasına veya azaltılmasına olanak tanır. Altinity.Cloud'daki ClickHouse uygulamalarını yönetme deneyimimiz bu verimliliği yansıtıyor.
Aşağıdaki grafikte, her şey dahil isteğe bağlı maliyeti göreceksiniz.
Özetlemek gerekirse, bulutta barındırılan üç analitik veritabanı modelini ve bunların maliyet sonuçlarını inceledik. Karşılaştırmamızda, bu modellerin birbirleriyle nasıl karşılaştırıldığını netleştirmek için cüzdan boyutunda bir tablo oluşturduk.
"Kutuyu Satın Al" yaklaşımı uygun maliyetli bilgi işlem sunar ancak blok depolama kullanımı nedeniyle daha pahalı depolama sunar. Snowflake ve BigQuery ise ekonomik depolama sunar ancak farklı şekillerde maliyetli olabilir. Snowflake bilgi işlem açısından nispeten pahalı olma eğilimindeyken BigQuery'nin isteğe bağlı sorgu modeli, kapsamlı veri taramalarını işlerken pahalı hale gelebilir. Her modelin güçlü ve zayıf yönleri vardır; bu da, bunları özel analiz ihtiyaçlarınızla uyumlu hale getirmenizi zorunlu kılar. "Buy-the-Box", öngörülemeyen iş yükleriyle müşteriye yönelik analitiklere uygundur; sanal veri ambarı modeli ve BigQuery ise belirli senaryolarda üstün performans sergiler ancak sürprizlerden kaçınmak için dikkatli bir maliyet yönetimi gerektirir. Bu genel bakış, manzarayı etkili bir şekilde yönlendirmenize yardımcı olur.
Analitik söz konusu olduğunda maliyet verimliliği çok önemlidir. Snowflake, BigQuery ve ClickHouse gibi popüler platformların maliyet modellerini anlamak, bilinçli kararlar vermek için çok önemlidir. Kuruluşlar, her platformun güçlü ve zayıf yönlerini değerlendirerek ve maliyet yapılarını göz önünde bulundurarak, kendi özel ihtiyaçlarına uygun, uygun maliyetli analitik çözümler üretebilir. Açık kaynak çözümlerinden ve eğitim kaynaklarından yararlanmak, maliyetleri daha da optimize edebilir ve kuruluşların bütçelerine dikkat ederken analitik hedeflerine ulaşmalarını sağlayabilir.
Bu makale bir Altinity.com web seminerinden alınmıştır.