paint-brush
Ce que signifie la tendance à l'interopérabilité dans les formats de tables ouvertes pour les architectures de données d'entreprisepar@minio
989 lectures
989 lectures

Ce que signifie la tendance à l'interopérabilité dans les formats de tables ouvertes pour les architectures de données d'entreprise

par MinIO6m2024/02/16
Read on Terminal Reader

Trop long; Pour lire

La confluence des formats de tables ouvertes, de la pile de données moderne et du modèle opérationnel cloud marque une ère de transformation dans la gestion des données.
featured image - Ce que signifie la tendance à l'interopérabilité dans les formats de tables ouvertes pour les architectures de données d'entreprise
MinIO HackerNoon profile picture


Cet été, Databricks et Apache Iceberg ont apporté des améliorations à leurs formats de tables ouvertes. Annonce des Databricks Lac Delta 3.0 peut lire et écrire des données dans tous les formats de tables ouvertes les plus populaires : Delta Table, Iceberg et Apache Hudi. Delta Universal Format (UniForm) fait en sorte que les formats de tableaux ouverts deviennent interopérables, évitant ainsi la nécessité de créer et de stocker des copies supplémentaires de données dans tel ou tel format. Équipes de données utilisant des moteurs de requêtes existants comme CanardDB , Drémio , et d'autres personnes qui interrogent des fichiers Iceberg ou Hudi peuvent lire les tables Delta directement sans conversion.


À peu près au même moment, Iceberg a annoncé une série de nouveaux supports pour les moteurs de requête et les plates-formes, notamment Flocon de neige , AWS Athéna , Apache Doris et StarRocks. Avec ces annonces de Databricks et Iceberg, l’interopérabilité va de pair avec la portabilité des données. Les formats de table ouverts, de par leur conception, promeuvent le concept selon lequel vous devez pouvoir accéder, contrôler, partager et exploiter vos données avec l'outil de votre choix, où que vous soyez, que ce soit dans les cloud publics, dans vos cloud privés, sur -edge, ou sur du métal nu.

Comprendre les formats de tables ouvertes

Replaçons ces annonces dans leur contexte. Les formats de tables ouvertes permettent aux lacs de données d'atteindre des normes de performance et de conformité qui, dans le passé, ne pouvaient être atteintes que par des entrepôts de données ou des bases de données traditionnelles, tout en préservant la flexibilité d'un environnement de lac de données.


Il existe trois principaux formats de tables ouvertes :


Iceberg a été initialement conçu par Netflix spécifiquement pour gérer des volumes de données importants au sein des lacs de données. Ce format de table ouverte présente des fonctionnalités distinctives telles que le voyage dans le temps, l'évolution dynamique des schémas et l'évolution des partitions. Ces capacités le rendent révolutionnaire, permettant des opérations simultanées et sécurisées par des moteurs de requête sur le même ensemble de données.


Lac Delta est un framework de stockage open source dans l'architecture Lakehouse qui active les lacs de données sur le stockage objet comme MinIO. Il garantit les transactions ACID, la gestion évolutive des métadonnées et le traitement unifié pour Apache Spark, offrant ainsi fiabilité et évolutivité. Delta Lake peut gérer les problèmes de performances et d'exactitude des charges de travail Spark complexes, en particulier dans des conditions de forte concurrence, les mises à jour non atomiques et les opérations de métadonnées provoquant des goulots d'étranglement importants.


Hudi est ancré dans l'écosystème Hadoop et l'objectif principal de Hudi est de réduire la latence lors de l'ingestion de données en streaming, en offrant des fonctionnalités telles que des tables, des transactions, des insertions/suppressions, des index avancés et une compatibilité avec diverses implémentations de stockage, y compris le stockage d'objets natif dans le cloud. comme MinIO.


On a beaucoup écrit sur le choix entre les différents formats, certains affirmant jusqu'à 80% d'équivalence fonctionnelle parmi les trois principaux formats Open Table. Ce mélange de distinctions est logique compte tenu de l’environnement d’interopérabilité dans lequel ces formats de tables ouvertes ont été créés et continuent de prospérer. Les créateurs de ces formats ont donné la priorité à la fonctionnalité par rapport aux notions traditionnelles de dépendance vis-à-vis du fournisseur et de contrôle opérationnel.

Formats de table ouverts dans le cadre de la pile de données moderne

Même avant ces récentes annonces, les formats de tables ouvertes faisaient déjà partie intégrante de la conception moderne des lacs de données. Et réciproquement, les lacs de données font partie intégrante de la pile de données moderne. Une récente enquête par Drémio a révélé que 70 % des personnes interrogées ont déclaré que plus de la moitié de leurs analyses se trouvent ou se trouveraient dans un lac de données d'ici trois ans. Cette adoption généralisée signifie un changement de paradigme dans la manière dont les organisations structurent et gèrent leurs données, en mettant fortement l'accent sur l'interopérabilité, la flexibilité et la performance.


Il n'est pas vraiment surprenant que les lacs de données cloud natifs et leurs composants et technologies tels que les formats de tables ouvertes soient devenus au centre de la pile de données moderne. Cela contraste fortement avec le matériel et les logiciels traditionnels et monolithiques vendus en gros aux organisations qui espèrent appliquer l'expression « technologie cloud » sur leurs systèmes vieillissants. Devenir cloud natif ne se résume pas à l'ajout d'une API : la pile de données moderne est un ensemble modulaire et spécialisé d'outils adaptés à diverses facettes du traitement des données. Il est conçu pour l’adaptabilité, né dans le cloud et soumis à des normes de haute performance. Des fonctionnalités qui font de la pile de données moderne un choix incontournable pour les organisations. La modularité de la pile offre une gamme d'options, permettant aux organisations de créer une infrastructure de données sur mesure qui s'aligne sur leurs besoins spécifiques, favorisant ainsi l'agilité dans un paysage de données en constante évolution.


Malgré cette gamme d’options en constante évolution, certaines caractéristiques déterminantes se retrouvent dans les composants de la pile :


  • Cloud-Native : la pile de données moderne est conçue pour évoluer de manière transparente dans divers environnements cloud, garantissant la compatibilité avec plusieurs cloud pour éviter toute dépendance vis-à-vis d'un fournisseur.


  • Performances optimisées : conçue pour l'efficacité, la pile intègre des composants qui adoptent une approche axée sur le logiciel et une conception axée sur les performances.


  • Compatibilité API RESTful : La pile établit un cadre de communication standardisé entre ses composants. Cela favorise l’interopérabilité et prend en charge la création de microservices.


  • Stockage et calcul désagrégés : la pile permet une mise à l'échelle indépendante des ressources de calcul et de la capacité de stockage. Cette approche optimise la rentabilité et améliore les performances globales en permettant à chaque aspect d'évoluer en fonction de besoins spécifiques.


  • Engagement envers l'ouverture : au-delà de la prise en charge des formats de table ouverts, la pile de données moderne adopte l'ouverture sous la forme de solutions open source. Cet engagement élimine les silos propriétaires et atténue la dépendance vis-à-vis des fournisseurs, favorisant ainsi la collaboration, l'innovation et une meilleure accessibilité aux données. L'engagement en faveur de l'ouverture renforce l'adaptabilité de la pile sur diverses plates-formes et outils, garantissant ainsi l'inclusivité.

Portabilité et interopérabilité des données en tant que norme commerciale


Adopter véritablement la portabilité et l’interopérabilité des données signifie être capable de créer des données et d’y accéder où qu’elles se trouvent. Cette approche facilite la flexibilité, permettant aux organisations d'exploiter les capacités de divers outils sans être contraintes par la dépendance vis-à-vis d'un fournisseur ou par les silos de données. L’objectif est de permettre un accès universel aux données, en promouvant un écosystème de données plus agile et adaptable au sein des organisations.


Comprendre que le cloud en tant que modèle opérationnel repose sur les principes de la technologie cloud native plutôt que sur un emplacement spécifique est essentiel pour parvenir à la portabilité des données. Certaines organisations lutte dans cette entreprise et tentent d'acquérir leur place dans le cloud à un coût énorme. La réalité est que même si l'adoption du cloud représente une opportunité pour l'entreprise moyenne de augmenter la rentabilité de 20 à 30 pour cent , le véritable impact et les véritables économies de coûts proviennent de l'adoption du modèle d'exploitation cloud sur une infrastructure privée.


De nombreuses organisations établies adoptent activement cette philosophie, choisissant de rapatrier les charges de travail du cloud et réalisant des économies substantielles, avec des entreprises comme X.com , 37Signals et une importante société de sécurité d'entreprise économisant en moyenne 60 % des sorties de nuages. Le modèle opérationnel du cloud permet la coexistence d’idées apparemment contradictoires : les entreprises peuvent bénéficier de la migration vers le cloud et du rapatriement des charges de travail. Le facteur déterminant est l’adoption du modèle opérationnel cloud, qui transforme fondamentalement la manière dont les organisations abordent l’infrastructure, le développement et l’efficacité technique. Ce modèle optimise la flexibilité, l'efficacité et le succès à long terme – que ce soit dans le cloud public ou au-delà – et s'intègre précisément au concept de pile de données moderne, permettant la portabilité des données et l'interopérabilité avec les formats de table ouverts.

Conclusion

Les progrès récents dans les formats de tables ouvertes par Databricks, Apache Iceberg et Hudi marquent un moment charnière dans la gestion des données. La compatibilité universelle de Delta Lake 3.0 et la prise en charge étendue d'Apache Iceberg témoignent de l'engagement des sociétés d'infrastructure de données et des responsables de la mise en œuvre sur le terrain en faveur d'une portabilité et d'une interopérabilité transparentes des données.


Ces développements s'alignent sur la modularité inhérente à la pile de données moderne, où les formats de tables ouvertes jouent un rôle central dans l'atteinte des normes de performance et de conformité. Ce changement n’est pas isolé mais recoupe le modèle opérationnel du cloud. Au-delà de l’attrait des cloud publics, l’adoption du modèle d’exploitation cloud sur une infrastructure privée permet d’obtenir un réel impact et des économies de coûts.


La confluence des formats de tables ouvertes, de la pile de données moderne et du modèle opérationnel cloud signifie une ère de transformation dans la gestion des données. Cette approche garantit l'adaptabilité dans divers environnements, qu'ils soient publics ou privés, sur site et en périphérie. Pour ceux qui naviguent dans les complexités de l’architecture des lacs de données, notre équipe de MinIO est prête à vous aider. Rejoignez-nous à [email protected] ou sur notre Mou canal de discussions collaboratives alors que vous vous lancez dans votre voyage vers les données.