Bu yaz hem Databricks hem de Apache Iceberg açık tablo formatlarında iyileştirmeler yaptı. Databricks açıklandı
Aynı sıralarda Iceberg, sorgu motorları ve platformlar için bir dizi yeni destek duyurdu:
Bu duyuruları bir bağlama oturtalım. Açık tablo formatları, veri göllerinin geçmişte yalnızca geleneksel veri ambarları veya veritabanları tarafından elde edilebilecek performans ve uyumluluk standartlarına ulaşmasını sağlarken, aynı zamanda veri gölü ortamının esnekliğini de korur.
Üç ana açık tablo formatı vardır:
Farklı formatlar arasında seçim yapma konusunda çok şey yazıldı; bazıları,
Bu son duyurulardan önce bile açık tablo formatları modern veri gölü tasarımının ayrılmaz bir parçası haline gelmişti. Ve karşılıklı olarak veri gölleri modern veri yığınının ayrılmaz bir parçası olmuştur. Yakın zamanda
Bulutta yerel veri göllerinin ve bunların bileşenlerinin ve açık tablo formatları gibi teknolojilerin modern veri yığınında merkez sahne haline gelmesi gerçekten şaşırtıcı değil. Bu, yaşlanan sistemlerine 'bulut teknolojisi' deyimini yüklemeyi ümit eden kuruluşlara toptan satılan geleneksel, yekpare eski donanım ve yazılımlarla tam bir tezat oluşturuyor. Bulutta yerel olmak, bir API eklemekten daha fazlasıdır; modern veri yığını, çeşitli veri işleme yönleri için özel olarak tasarlanmış modüler ve özel bir araç topluluğudur. Uyarlanabilirlik için tasarlandı, bulutta doğdu ve yüksek performans standartlarında tutuldu. Modern veri yığınını kuruluşlar için cazip bir seçim haline getiren özellikler. Yığın modülerliği bir dizi seçenek sunarak kuruluşların kendi özel ihtiyaçlarına uygun özel bir veri altyapısı oluşturmasına olanak tanır ve sürekli gelişen veri ortamında çevikliği artırır.
Sürekli gelişen bu seçenek yelpazesine rağmen, yığının bileşenlerini kapsayan tanımlayıcı özellikler vardır:
Bulutta Yerel: Modern veri yığını, çeşitli bulut ortamlarında sorunsuz bir şekilde ölçeklenecek şekilde tasarlanmıştır ve satıcıya bağlı kalmayı önlemek için birden fazla bulutla uyumluluk sağlar.
Optimize Edilmiş Performans: Verimlilik için tasarlanan yığın, önce yazılım yaklaşımını benimseyen ve performans için tasarım yapan bileşenleri içerir.
RESTful API uyumluluğu: Yığın, bileşenleri arasında standartlaştırılmış bir iletişim çerçevesi oluşturur. Bu, birlikte çalışabilirliği teşvik eder ve mikro hizmetlerin oluşturulmasını destekler.
Ayrıştırılmış Depolama ve Bilgi İşlem: Yığın, hesaplama kaynaklarının ve depolama kapasitesinin bağımsız olarak ölçeklendirilmesine olanak tanır. Bu yaklaşım, maliyet verimliliğini optimize eder ve her bir unsurun belirli ihtiyaçlara göre ölçeklendirilmesine izin vererek genel performansı artırır.
Açıklığa Bağlılık: Açık tablo formatlarını desteklemenin ötesinde, modern veri yığını açık kaynak çözümleri biçiminde açıklığı benimser. Bu taahhüt, özel siloları ortadan kaldırır ve satıcıya bağlılığı azaltır, işbirliğini, yenilikçiliği ve iyileştirilmiş veri erişilebilirliğini destekler. Açıklığa olan bağlılık, yığının çeşitli platformlar ve araçlara uyarlanabilirliğini güçlendirerek kapsayıcılığı garanti eder.
Veri taşınabilirliğini ve birlikte çalışabilirliği gerçekten benimsemek, verileri nerede olursa olsun oluşturabilmek ve verilere erişebilmek anlamına gelir. Bu yaklaşım esnekliği kolaylaştırarak kuruluşların satıcıya bağımlı kalma veya veri siloları nedeniyle kısıtlama olmaksızın çeşitli araçların yeteneklerinden yararlanmasına olanak tanır. Amaç, verilere evrensel erişimi mümkün kılmak ve kuruluşlar içinde daha çevik ve uyarlanabilir bir veri ekosistemini teşvik etmektir.
Bulutun bir işletim modeli olarak belirli bir konum yerine bulutta yerleşik teknolojinin ilkeleri üzerine kurulduğunu anlamak, veri taşınabilirliğini sağlamak açısından kritik öneme sahiptir. Bazı kuruluşlar
Birçok yerleşik kuruluş bu felsefeyi aktif olarak benimsiyor, iş yüklerini buluttan geri almayı seçiyor ve önemli maliyet tasarrufları elde ediyor.
Databricks, Apache Iceberg ve Hudi'nin açık tablo formatlarında attığı son adımlar, veri yönetiminde çok önemli bir anı simgeliyor. Delta Lake 3.0'ın evrensel uyumluluğu ve Apache Iceberg'e yönelik genişletilmiş desteği, hem veri altyapısı şirketlerinin hem de sahadaki uygulayıcıların kesintisiz veri taşınabilirliği ve birlikte çalışabilirlik konusundaki kararlılığını gösteriyor.
Bu gelişmeler, açık tablo formatlarının performans ve uyumluluk standartlarına ulaşmada merkezi bir rol oynadığı modern veri yığınının doğasında olan modülerliğiyle uyumludur. Bu değişim izole değil, bulut işletim modeliyle kesişiyor. Genel bulutların cazibesinin ötesinde, bulut işletim modelinin özel altyapıda benimsenmesiyle gerçek etki ve maliyet tasarrufu ortaya çıkıyor.
Açık tablo formatlarının, modern veri yığınının ve bulut işletim modelinin bir araya gelmesi, veri yönetiminde dönüştürücü bir döneme işaret ediyor. Bu yaklaşım, ister genel ister özel olsun, şirket içi ve uçta olmak üzere çeşitli ortamlarda uyarlanabilirliği sağlar. Veri gölü mimarisi karmaşıklıklarında gezinmek isteyenler için MinIO'daki ekibimiz yardıma hazır. [email protected] adresinden veya adresimizden bize katılın