paint-brush
Açık Tablo Formatlarındaki Birlikte Çalışabilirlik Trendi Kurumsal Veri Mimarileri İçin Ne Anlam Taşıyor?ile@minio
989 okumalar
989 okumalar

Açık Tablo Formatlarındaki Birlikte Çalışabilirlik Trendi Kurumsal Veri Mimarileri İçin Ne Anlam Taşıyor?

ile MinIO6m2024/02/16
Read on Terminal Reader

Çok uzun; Okumak

Açık tablo formatlarının, modern veri yığınının ve bulut işletim modelinin bir araya gelmesi, veri yönetiminde dönüştürücü bir döneme işaret ediyor.
featured image - Açık Tablo Formatlarındaki Birlikte Çalışabilirlik Trendi Kurumsal Veri Mimarileri İçin Ne Anlam Taşıyor?
MinIO HackerNoon profile picture


Bu yaz hem Databricks hem de Apache Iceberg açık tablo formatlarında iyileştirmeler yaptı. Databricks açıklandı Delta Gölü 3.0 Delta Table, Iceberg ve Apache Hudi gibi en popüler açık tablo formatlarının tümüne veri okuyabilir ve yazabilir. Delta Universal Format (UniForm), açık tablo formatlarının birlikte çalışabilir hale gelmesini sağlayarak, şu veya bu formatta fazladan veri kopyaları oluşturma ve saklama ihtiyacını ortadan kaldırır. Mevcut sorgu motorlarını kullanan veri ekipleri DuckDB , Dremio ve diğerleri Iceberg veya Hudi dosyaları üzerinden sorgulama yapmak için Delta tablolarını dönüştürmeye gerek kalmadan doğrudan okuyabilir.


Aynı sıralarda Iceberg, sorgu motorları ve platformlar için bir dizi yeni destek duyurdu: kar tanesi , AWS Atina , Apaçi Doris ve StarRocks. Databricks ve Iceberg'in bu duyurularıyla birlikte çalışabilirlik, veri taşınabilirliğiyle bir araya geldi. Açık tablo formatları, tasarım gereği, ister genel bulutlarda, ister özel bulutlarınızda, ister genel bulutlarda, istediğiniz yerde, istediğiniz araçla verilerinize erişebilmeniz, bunları kontrol edebilmeniz, paylaşabilmeniz ve bunlar üzerinde çalışabilmeniz gerektiği konseptini destekler. -kenarda veya çıplak metalde.

Açık Tablo Formatlarını Anlamak

Bu duyuruları bir bağlama oturtalım. Açık tablo formatları, veri göllerinin geçmişte yalnızca geleneksel veri ambarları veya veritabanları tarafından elde edilebilecek performans ve uyumluluk standartlarına ulaşmasını sağlarken, aynı zamanda veri gölü ortamının esnekliğini de korur.


Üç ana açık tablo formatı vardır:


Buzdağı orijinal olarak Netflix tarafından veri göllerindeki önemli veri hacimlerini işlemek için özel olarak tasarlandı. Bu açık tablo formatı, zaman yolculuğu, dinamik şema gelişimi ve bölüm gelişimi gibi ayırt edici özelliklere sahiptir. Bu yetenekler onu devrim niteliğinde kılıyor ve aynı veri kümesi üzerinde sorgu motorları tarafından eş zamanlı ve güvenli işlemlere olanak sağlıyor.


Delta Gölü Lakehouse mimarisindeki, MinIO gibi nesne depolamadaki veri göllerini güçlendiren açık kaynaklı bir depolama çerçevesidir. Apache Spark için ACID işlemlerini, ölçeklenebilir meta veri işlemeyi ve birleşik işlemeyi sağlayarak güvenilirlik ve ölçeklenebilirlik sunar. Delta Lake, özellikle yoğun eşzamanlılık koşullarında, atomik olmayan güncellemeler ve önemli darboğazlara neden olan meta veri işlemleriyle karmaşık Spark iş yüklerinin performans ve doğruluk zorluklarını karşılayabilir.


Hudi Kökleri Hadoop ekosistemine dayanmaktadır ve Hudi'nin birincil amacı, akış verilerinin alınması sırasındaki gecikmeyi azaltmak, tablolar, işlemler, yükseltmeler/silmeler, gelişmiş dizinler gibi özellikler sunmak ve bulutta yerel nesne depolama dahil olmak üzere çeşitli depolama uygulamalarıyla uyumluluk sağlamaktır. MinIO'daki gibi.


Farklı formatlar arasında seçim yapma konusunda çok şey yazıldı; bazıları, %80 fonksiyonel eşdeğerlik üç ana Açık Tablo formatı arasında. Bu açık tablo formatlarının oluşturulduğu ve gelişmeye devam ettiği birlikte çalışabilirlik ortamı göz önüne alındığında, farklılıkların bu şekilde harmanlanması anlamlıdır. Bu formatların yaratıcıları, satıcıya bağlılık ve operasyonel kontrol gibi geleneksel kavramlar yerine yeteneğe öncelik verdi.

Modern Veri Yığınının Bir Parçası Olarak Açık Tablo Formatları

Bu son duyurulardan önce bile açık tablo formatları modern veri gölü tasarımının ayrılmaz bir parçası haline gelmişti. Ve karşılıklı olarak veri gölleri modern veri yığınının ayrılmaz bir parçası olmuştur. Yakın zamanda anket ile Dremio Yanıt verenlerin %70'inin analizlerinin yarısından fazlasının üç yıl içinde bir veri gölünde olduğunu veya olacağını söylediğini buldu. Bu yaygın benimseme, kuruluşların verilerini yapılandırma ve yönetme biçiminde, birlikte çalışabilirlik, esneklik ve performansa güçlü bir vurgu yaparak bir paradigma değişikliğine işaret ediyor.


Bulutta yerel veri göllerinin ve bunların bileşenlerinin ve açık tablo formatları gibi teknolojilerin modern veri yığınında merkez sahne haline gelmesi gerçekten şaşırtıcı değil. Bu, yaşlanan sistemlerine 'bulut teknolojisi' deyimini yüklemeyi ümit eden kuruluşlara toptan satılan geleneksel, yekpare eski donanım ve yazılımlarla tam bir tezat oluşturuyor. Bulutta yerel olmak, bir API eklemekten daha fazlasıdır; modern veri yığını, çeşitli veri işleme yönleri için özel olarak tasarlanmış modüler ve özel bir araç topluluğudur. Uyarlanabilirlik için tasarlandı, bulutta doğdu ve yüksek performans standartlarında tutuldu. Modern veri yığınını kuruluşlar için cazip bir seçim haline getiren özellikler. Yığın modülerliği bir dizi seçenek sunarak kuruluşların kendi özel ihtiyaçlarına uygun özel bir veri altyapısı oluşturmasına olanak tanır ve sürekli gelişen veri ortamında çevikliği artırır.


Sürekli gelişen bu seçenek yelpazesine rağmen, yığının bileşenlerini kapsayan tanımlayıcı özellikler vardır:


  • Bulutta Yerel: Modern veri yığını, çeşitli bulut ortamlarında sorunsuz bir şekilde ölçeklenecek şekilde tasarlanmıştır ve satıcıya bağlı kalmayı önlemek için birden fazla bulutla uyumluluk sağlar.


  • Optimize Edilmiş Performans: Verimlilik için tasarlanan yığın, önce yazılım yaklaşımını benimseyen ve performans için tasarım yapan bileşenleri içerir.


  • RESTful API uyumluluğu: Yığın, bileşenleri arasında standartlaştırılmış bir iletişim çerçevesi oluşturur. Bu, birlikte çalışabilirliği teşvik eder ve mikro hizmetlerin oluşturulmasını destekler.


  • Ayrıştırılmış Depolama ve Bilgi İşlem: Yığın, hesaplama kaynaklarının ve depolama kapasitesinin bağımsız olarak ölçeklendirilmesine olanak tanır. Bu yaklaşım, maliyet verimliliğini optimize eder ve her bir unsurun belirli ihtiyaçlara göre ölçeklendirilmesine izin vererek genel performansı artırır.


  • Açıklığa Bağlılık: Açık tablo formatlarını desteklemenin ötesinde, modern veri yığını açık kaynak çözümleri biçiminde açıklığı benimser. Bu taahhüt, özel siloları ortadan kaldırır ve satıcıya bağlılığı azaltır, işbirliğini, yenilikçiliği ve iyileştirilmiş veri erişilebilirliğini destekler. Açıklığa olan bağlılık, yığının çeşitli platformlar ve araçlara uyarlanabilirliğini güçlendirerek kapsayıcılığı garanti eder.

Bir İş Standardı Olarak Veri Taşınabilirliği ve Birlikte Çalışabilirlik


Veri taşınabilirliğini ve birlikte çalışabilirliği gerçekten benimsemek, verileri nerede olursa olsun oluşturabilmek ve verilere erişebilmek anlamına gelir. Bu yaklaşım esnekliği kolaylaştırarak kuruluşların satıcıya bağımlı kalma veya veri siloları nedeniyle kısıtlama olmaksızın çeşitli araçların yeteneklerinden yararlanmasına olanak tanır. Amaç, verilere evrensel erişimi mümkün kılmak ve kuruluşlar içinde daha çevik ve uyarlanabilir bir veri ekosistemini teşvik etmektir.


Bulutun bir işletim modeli olarak belirli bir konum yerine bulutta yerleşik teknolojinin ilkeleri üzerine kurulduğunu anlamak, veri taşınabilirliğini sağlamak açısından kritik öneme sahiptir. Bazı kuruluşlar çabalamak Bu çabada ve muazzam bir maliyetle buluta girme yolunu satın almaya çalışıyorlar. Gerçek şu ki, bulutun benimsenmesi ortalama bir şirket için bir fırsat sunarken Kârlılığı yüzde 20 ila 30 oranında artırmak Gerçek etki ve gerçek maliyet tasarrufu, bulut işletim modelinin özel altyapıda benimsenmesinden gelir.


Birçok yerleşik kuruluş bu felsefeyi aktif olarak benimsiyor, iş yüklerini buluttan geri almayı seçiyor ve önemli maliyet tasarrufları elde ediyor. X.com , 37Signals ve büyük bir kurumsal güvenlik firması ortalama %60 tasarruf bulut çıkışlarından. Bulut işletim modeli, görünüşte çelişkili fikirlerin bir arada bulunmasına olanak tanır: şirketler buluta geçişten ve iş yüklerini ülkelerine geri göndermenin avantajlarından yararlanabilir. Temel belirleyici, kuruluşların altyapı, geliştirme ve teknik verimliliğe yaklaşımını temelden değiştiren bulut işletim modelinin benimsenmesidir. Bu model, genel bulutta veya ötesinde esneklik, verimlilik ve uzun vadeli başarıyı optimize eder ve modern veri yığını konseptiyle tam olarak birleşerek veri taşınabilirliğini ve açık tablo formatlarıyla birlikte çalışabilirliği mümkün kılar.

Çözüm

Databricks, Apache Iceberg ve Hudi'nin açık tablo formatlarında attığı son adımlar, veri yönetiminde çok önemli bir anı simgeliyor. Delta Lake 3.0'ın evrensel uyumluluğu ve Apache Iceberg'e yönelik genişletilmiş desteği, hem veri altyapısı şirketlerinin hem de sahadaki uygulayıcıların kesintisiz veri taşınabilirliği ve birlikte çalışabilirlik konusundaki kararlılığını gösteriyor.


Bu gelişmeler, açık tablo formatlarının performans ve uyumluluk standartlarına ulaşmada merkezi bir rol oynadığı modern veri yığınının doğasında olan modülerliğiyle uyumludur. Bu değişim izole değil, bulut işletim modeliyle kesişiyor. Genel bulutların cazibesinin ötesinde, bulut işletim modelinin özel altyapıda benimsenmesiyle gerçek etki ve maliyet tasarrufu ortaya çıkıyor.


Açık tablo formatlarının, modern veri yığınının ve bulut işletim modelinin bir araya gelmesi, veri yönetiminde dönüştürücü bir döneme işaret ediyor. Bu yaklaşım, ister genel ister özel olsun, şirket içi ve uçta olmak üzere çeşitli ortamlarda uyarlanabilirliği sağlar. Veri gölü mimarisi karmaşıklıklarında gezinmek isteyenler için MinIO'daki ekibimiz yardıma hazır. [email protected] adresinden veya adresimizden bize katılın Gevşek Veri yolculuğunuza çıkarken işbirlikçi tartışmalar için kanal.