Cet été, Databricks et Apache Iceberg ont apporté des améliorations à leurs formats de tables ouvertes. Annonce des Databricks
À peu près au même moment, Iceberg a annoncé une série de nouveaux supports pour les moteurs de requête et les plates-formes, notamment
Replaçons ces annonces dans leur contexte. Les formats de tables ouvertes permettent aux lacs de données d'atteindre des normes de performance et de conformité qui, dans le passé, ne pouvaient être atteintes que par des entrepôts de données ou des bases de données traditionnelles, tout en préservant la flexibilité d'un environnement de lac de données.
Il existe trois principaux formats de tables ouvertes :
On a beaucoup écrit sur le choix entre les différents formats, certains affirmant jusqu'à
Même avant ces récentes annonces, les formats de tables ouvertes faisaient déjà partie intégrante de la conception moderne des lacs de données. Et réciproquement, les lacs de données font partie intégrante de la pile de données moderne. Une récente
Il n'est pas vraiment surprenant que les lacs de données cloud natifs et leurs composants et technologies tels que les formats de tables ouvertes soient devenus au centre de la pile de données moderne. Cela contraste fortement avec le matériel et les logiciels traditionnels et monolithiques vendus en gros aux organisations qui espèrent appliquer l'expression « technologie cloud » sur leurs systèmes vieillissants. Devenir cloud natif ne se résume pas à l'ajout d'une API : la pile de données moderne est un ensemble modulaire et spécialisé d'outils adaptés à diverses facettes du traitement des données. Il est conçu pour l’adaptabilité, né dans le cloud et soumis à des normes de haute performance. Des fonctionnalités qui font de la pile de données moderne un choix incontournable pour les organisations. La modularité de la pile offre une gamme d'options, permettant aux organisations de créer une infrastructure de données sur mesure qui s'aligne sur leurs besoins spécifiques, favorisant ainsi l'agilité dans un paysage de données en constante évolution.
Malgré cette gamme d’options en constante évolution, certaines caractéristiques déterminantes se retrouvent dans les composants de la pile :
Cloud-Native : la pile de données moderne est conçue pour évoluer de manière transparente dans divers environnements cloud, garantissant la compatibilité avec plusieurs cloud pour éviter toute dépendance vis-à-vis d'un fournisseur.
Performances optimisées : conçue pour l'efficacité, la pile intègre des composants qui adoptent une approche axée sur le logiciel et une conception axée sur les performances.
Compatibilité API RESTful : La pile établit un cadre de communication standardisé entre ses composants. Cela favorise l’interopérabilité et prend en charge la création de microservices.
Stockage et calcul désagrégés : la pile permet une mise à l'échelle indépendante des ressources de calcul et de la capacité de stockage. Cette approche optimise la rentabilité et améliore les performances globales en permettant à chaque aspect d'évoluer en fonction de besoins spécifiques.
Engagement envers l'ouverture : au-delà de la prise en charge des formats de table ouverts, la pile de données moderne adopte l'ouverture sous la forme de solutions open source. Cet engagement élimine les silos propriétaires et atténue la dépendance vis-à-vis des fournisseurs, favorisant ainsi la collaboration, l'innovation et une meilleure accessibilité aux données. L'engagement en faveur de l'ouverture renforce l'adaptabilité de la pile sur diverses plates-formes et outils, garantissant ainsi l'inclusivité.
Adopter véritablement la portabilité et l’interopérabilité des données signifie être capable de créer des données et d’y accéder où qu’elles se trouvent. Cette approche facilite la flexibilité, permettant aux organisations d'exploiter les capacités de divers outils sans être contraintes par la dépendance vis-à-vis d'un fournisseur ou par les silos de données. L’objectif est de permettre un accès universel aux données, en promouvant un écosystème de données plus agile et adaptable au sein des organisations.
Comprendre que le cloud en tant que modèle opérationnel repose sur les principes de la technologie cloud native plutôt que sur un emplacement spécifique est essentiel pour parvenir à la portabilité des données. Certaines organisations
De nombreuses organisations établies adoptent activement cette philosophie, choisissant de rapatrier les charges de travail du cloud et réalisant des économies substantielles, avec des entreprises comme
Les progrès récents dans les formats de tables ouvertes par Databricks, Apache Iceberg et Hudi marquent un moment charnière dans la gestion des données. La compatibilité universelle de Delta Lake 3.0 et la prise en charge étendue d'Apache Iceberg témoignent de l'engagement des sociétés d'infrastructure de données et des responsables de la mise en œuvre sur le terrain en faveur d'une portabilité et d'une interopérabilité transparentes des données.
Ces développements s'alignent sur la modularité inhérente à la pile de données moderne, où les formats de tables ouvertes jouent un rôle central dans l'atteinte des normes de performance et de conformité. Ce changement n’est pas isolé mais recoupe le modèle opérationnel du cloud. Au-delà de l’attrait des cloud publics, l’adoption du modèle d’exploitation cloud sur une infrastructure privée permet d’obtenir un réel impact et des économies de coûts.
La confluence des formats de tables ouvertes, de la pile de données moderne et du modèle opérationnel cloud signifie une ère de transformation dans la gestion des données. Cette approche garantit l'adaptabilité dans divers environnements, qu'ils soient publics ou privés, sur site et en périphérie. Pour ceux qui naviguent dans les complexités de l’architecture des lacs de données, notre équipe de MinIO est prête à vous aider. Rejoignez-nous à [email protected] ou sur notre