paint-brush
Was der Interoperabilitätstrend bei offenen Tabellenformaten für Unternehmensdatenarchitekturen bedeutetby@minio
962
962

Was der Interoperabilitätstrend bei offenen Tabellenformaten für Unternehmensdatenarchitekturen bedeutet

MinIO6m2024/02/16
Read on Terminal Reader

Das Zusammentreffen offener Tabellenformate, des modernen Datenstapels und des Cloud-Betriebsmodells markiert eine transformative Ära im Datenmanagement.
featured image - Was der Interoperabilitätstrend bei offenen Tabellenformaten für Unternehmensdatenarchitekturen bedeutet
MinIO HackerNoon profile picture


In diesem Sommer haben sowohl Databricks als auch Apache Iceberg Verbesserungen an ihren offenen Tabellenformaten eingeführt. Databricks angekündigt Delta Lake 3.0 kann Daten in allen gängigen offenen Tabellenformaten lesen und schreiben: Delta Table, Iceberg und Apache Hudi. Delta Universal Format (UniForm) sorgt dafür, dass offene Tabellenformate interoperabel werden, sodass keine zusätzlichen Kopien von Daten in diesem oder jenem Format erstellt und gespeichert werden müssen. Datenteams, die vorhandene Abfrage-Engines verwenden, z DuckDB , Dremio und andere, die über Iceberg- oder Hudi-Dateien abfragen, können Delta-Tabellen direkt ohne Konvertierung lesen.


Etwa zur gleichen Zeit kündigte Iceberg eine Reihe neuer Unterstützung für Abfrage-Engines und Plattformen an, darunter Schneeflocke , AWS Athena , Apache Doris und StarRocks. Mit diesen Ankündigungen von Databricks und Iceberg ging Interoperabilität Hand in Hand mit Datenportabilität. Offene Tabellenformate fördern von Natur aus das Konzept, dass Sie mit jedem beliebigen Tool auf Ihre Daten zugreifen, diese steuern, teilen und bearbeiten können sollten, wo auch immer Sie möchten, sei es in den öffentlichen Clouds, in Ihren privaten Clouds usw -Edge oder auf blankem Metall.

Offene Tabellenformate verstehen

Stellen wir diese Ankündigungen in einen Kontext. Offene Tabellenformate ermöglichen es Data Lakes, Leistungs- und Compliance-Standards zu erreichen, die in der Vergangenheit nur von herkömmlichen Data Warehouses oder Datenbanken erreicht werden konnten, während gleichzeitig die Flexibilität einer Data Lake-Umgebung erhalten bleibt.


Es gibt drei Hauptformate für offene Tabellen:


Eisberg wurde ursprünglich von Netflix speziell für die Verarbeitung großer Datenmengen in Data Lakes entwickelt. Dieses offene Tabellenformat zeichnet sich durch besondere Merkmale wie Zeitreisen, dynamische Schemaentwicklung und Partitionsentwicklung aus. Diese Funktionen machen es revolutionär und ermöglichen gleichzeitige und sichere Vorgänge durch Abfrage-Engines am selben Datensatz.


Deltasee ist ein Open-Source-Speicherframework in der Lakehouse-Architektur, das Data Lakes auf Objektspeichern wie MinIO ermöglicht. Es gewährleistet ACID-Transaktionen, skalierbare Metadatenverarbeitung und einheitliche Verarbeitung für Apache Spark und bietet Zuverlässigkeit und Skalierbarkeit. Delta Lake kann die Leistungs- und Korrektheitsprobleme komplexer Spark-Workloads bewältigen, insbesondere bei starker Parallelität, wobei nicht-atomare Aktualisierungen und Metadatenvorgänge zu erheblichen Engpässen führen.


Hudi ist im Hadoop-Ökosystem verwurzelt und der Hauptzweck von Hudi besteht darin, die Latenz während der Aufnahme von Streaming-Daten zu verringern, indem es Funktionen wie Tabellen, Transaktionen, Upserts/Löschvorgänge, erweiterte Indizes und Kompatibilität mit verschiedenen Speicherimplementierungen, einschließlich Cloud-nativem Objektspeicher, bietet wie MinIO.


Es wurde viel über die Wahl zwischen verschiedenen Formaten geschrieben, einige behaupten, dies sei der Fall 80 % funktionale Äquivalenz eines der drei primären Open-Table-Formate. Diese Vermischung von Unterscheidungen ist angesichts der Interoperabilitätsumgebung, in der diese offenen Tabellenformate erstellt wurden und weiterhin florieren, sinnvoll. Die Entwickler dieser Formate gaben der Leistungsfähigkeit Vorrang vor traditionellen Vorstellungen von Anbieterbindung und Betriebskontrolle.

Offene Tabellenformate als Teil des modernen Datenstapels

Bereits vor diesen jüngsten Ankündigungen waren offene Tabellenformate zu einem integralen Bestandteil des modernen Data-Lake-Designs geworden. Und umgekehrt sind Data Lakes ein wesentlicher Bestandteil des modernen Datenstapels. Ein kürzlich Umfrage von Dremio fanden heraus, dass 70 % der Befragten angaben, dass sich mehr als die Hälfte ihrer Analysen innerhalb von drei Jahren in einem Data Lake befinden oder befinden würden. Diese allgegenwärtige Einführung bedeutet einen Paradigmenwechsel in der Art und Weise, wie Unternehmen ihre Daten strukturieren und verwalten, wobei ein starker Schwerpunkt auf Interoperabilität, Flexibilität und Leistung gelegt wird.


Es ist eigentlich keine Überraschung, dass Cloud-native Data Lakes und ihre Komponenten und Technologien wie offene Tabellenformate im Mittelpunkt des modernen Datenstapels stehen. Dies steht in krassem Gegensatz zu traditioneller, monolithischer Legacy-Hardware und -Software, die in großen Mengen an Unternehmen verkauft wird, die hoffen, ihren veralteten Systemen den Begriff „Cloud-Technologie“ aufzuzwingen. Cloud-nativ zu werden bedeutet mehr als nur das Hinzufügen einer API – der moderne Datenstack ist ein modulares und spezialisiertes Ensemble von Tools, die auf verschiedene Aspekte der Datenverarbeitung zugeschnitten sind. Es ist auf Anpassungsfähigkeit ausgelegt, in der Cloud geboren und unterliegt hohen Leistungsstandards. Funktionen, die den modernen Datenstapel zu einer überzeugenden Wahl für Unternehmen machen. Die Modularität des Stacks bietet eine Reihe von Optionen, die es Unternehmen ermöglichen, eine maßgeschneiderte Dateninfrastruktur zu erstellen, die auf ihre spezifischen Bedürfnisse abgestimmt ist und so die Agilität in der sich ständig weiterentwickelnden Datenlandschaft fördert.


Trotz dieser sich ständig weiterentwickelnden Auswahl an Optionen gibt es bestimmte Merkmale, die sich durch die Komponenten des Stapels ziehen:


  • Cloud-nativ: Der moderne Datenstapel ist so konzipiert, dass er sich nahtlos über verschiedene Cloud-Umgebungen hinweg skalieren lässt und die Kompatibilität mit mehreren Clouds gewährleistet, um eine Anbieterbindung zu verhindern.


  • Optimierte Leistung: Der auf Effizienz ausgelegte Stack umfasst Komponenten, die einen Software-First-Ansatz verfolgen und auf Leistung ausgelegt sind.


  • RESTful API-Kompatibilität: Der Stack stellt ein standardisiertes Kommunikationsframework zwischen seinen Komponenten her. Dies fördert die Interoperabilität und unterstützt die Erstellung von Microservices.


  • Disaggregierte Speicherung und Rechenleistung: Der Stack ermöglicht die unabhängige Skalierung von Rechenressourcen und Speicherkapazität. Dieser Ansatz optimiert die Kosteneffizienz und verbessert die Gesamtleistung, indem er die Skalierung jedes Aspekts entsprechend den spezifischen Anforderungen ermöglicht.


  • Bekenntnis zur Offenheit: Über die Unterstützung offener Tabellenformate hinaus umfasst der moderne Datenstapel Offenheit in Form von Open-Source-Lösungen. Dieses Engagement eliminiert proprietäre Silos und verringert die Abhängigkeit von Anbietern, wodurch Zusammenarbeit, Innovation und eine verbesserte Datenzugänglichkeit gefördert werden. Das Engagement für Offenheit verstärkt die Anpassungsfähigkeit des Stacks an verschiedene Plattformen und Tools und sorgt so für Inklusivität.

Datenportabilität und Interoperabilität als Geschäftsstandard


Um Datenportabilität und Interoperabilität wirklich zu nutzen, müssen Sie in der Lage sein, Daten zu erstellen und darauf zuzugreifen, wo auch immer sie sich befinden. Dieser Ansatz ermöglicht Flexibilität und ermöglicht es Unternehmen, die Funktionen verschiedener Tools zu nutzen, ohne durch Anbieterbindung oder Datensilos eingeschränkt zu sein. Ziel ist es, einen universellen Zugriff auf Daten zu ermöglichen und so ein agileres und anpassungsfähigeres Datenökosystem innerhalb von Organisationen zu fördern.


Für die Erreichung der Datenportabilität ist es entscheidend zu verstehen, dass die Cloud als Betriebsmodell auf den Prinzipien der Cloud-nativen Technologie und nicht auf einem bestimmten Standort aufbaut. Einige Organisationen Kampf Beteiligen Sie sich an diesem Unterfangen und versuchen Sie, sich mit enormen Kosten den Weg in die Cloud zu erkaufen. Die Realität ist, dass die Cloud-Einführung für das durchschnittliche Unternehmen eine Chance darstellt die Profitabilität um 20 bis 30 Prozent steigern Die tatsächlichen Auswirkungen und tatsächlichen Kosteneinsparungen ergeben sich aus der Einführung des Cloud-Betriebsmodells in privater Infrastruktur.


Viele etablierte Unternehmen übernehmen diese Philosophie aktiv, indem sie sich für die Rückführung von Arbeitslasten aus der Cloud entscheiden und erhebliche Kosteneinsparungen erzielen X.com , 37Signals und ein großes Unternehmen für Unternehmenssicherheit Einsparung von durchschnittlich 60 % aus Cloud-Exits. Das Cloud-Betriebsmodell ermöglicht die Koexistenz scheinbar widersprüchlicher Ideen: Unternehmen können von der Migration in die Cloud und der Rückführung von Arbeitslasten profitieren. Der entscheidende Faktor ist die Einführung des Cloud-Betriebsmodells, das die Herangehensweise von Unternehmen an Infrastruktur, Entwicklung und technische Effizienz grundlegend verändert. Dieses Modell optimiert Flexibilität, Effizienz und langfristigen Erfolg – ob in der Public Cloud oder darüber hinaus – und passt genau zum Konzept des modernen Datenstacks und ermöglicht Datenportabilität und Interoperabilität mit offenen Tabellenformaten.

Abschluss

Die jüngsten Fortschritte von Databricks, Apache Iceberg und Hudi bei offenen Tabellenformaten bedeuten einen entscheidenden Moment in der Datenverwaltung. Die universelle Kompatibilität von Delta Lake 3.0 und die erweiterte Unterstützung für Apache Iceberg zeigen das Engagement sowohl von Dateninfrastrukturunternehmen als auch von Implementierern vor Ort für nahtlose Datenportabilität und Interoperabilität.


Diese Entwicklungen stehen im Einklang mit der inhärenten Modularität des modernen Datenstapels, bei dem offene Tabellenformate eine zentrale Rolle bei der Erreichung von Leistungs- und Compliance-Standards spielen. Dieser Wandel ist kein Einzelfall, sondern überschneidet sich mit dem Cloud-Betriebsmodell. Über den Reiz öffentlicher Clouds hinaus ergeben sich echte Auswirkungen und Kosteneinsparungen, wenn das Cloud-Betriebsmodell in private Infrastruktur integriert wird.


Das Zusammentreffen offener Tabellenformate, des modernen Datenstapels und des Cloud-Betriebsmodells markiert eine transformative Ära im Datenmanagement. Dieser Ansatz gewährleistet die Anpassungsfähigkeit an verschiedene Umgebungen, egal ob öffentlich oder privat, On-Prem-On-Edge. Für diejenigen, die sich in der Komplexität der Data-Lake-Architektur zurechtfinden, steht unser Team bei MinIO gerne zur Verfügung. Besuchen Sie uns unter [email protected] oder auf unserer Locker Kanal für gemeinsame Diskussionen, während Sie sich auf Ihre Datenreise begeben.