paint-brush
开放表格式的互操作性趋势对企业数据架构意味着什么经过@minio
910 讀數
910 讀數

开放表格式的互操作性趋势对企业数据架构意味着什么

经过 MinIO6m2024/02/16
Read on Terminal Reader

太長; 讀書

开放表格式、现代数据堆栈和云操作模型的融合标志着数据管理的变革时代。
featured image - 开放表格式的互操作性趋势对企业数据架构意味着什么
MinIO HackerNoon profile picture


今年夏天,Databricks 和 Apache Iceberg 都推出了对其开放表格式的增强功能。 Databricks 宣布三角洲湖3.0可以读取和写入所有最流行的开放表格式的数据:Delta Table、Iceberg 和 Apache Hudi。 Delta 通用格式 (UniForm) 使开放表格式变得可互操作,从而无需以这种或那种格式创建和存储额外的数据副本。使用现有查询引擎的数据团队,例如鸭数据库,德雷米奥,以及其他通过Iceberg或Hudi文件查询的人可以直接读取Delta表,无需转换。


大约在同一时间,Iceberg 宣布了一系列对查询引擎和平台的新支持,包括雪花, AWS 雅典娜,阿帕奇·多丽丝和星石。随着 Databricks 和 Iceberg 的这些公告,互操作性与数据可移植性紧密结合在一起。开放表格式的设计提倡这样一个概念:您应该能够使用任何您想要的工具,无论您在哪里,无论是在公共云、私有云还是在其他地方,访问、控制、共享和操作您的数据。 -边缘,或在裸机上。

了解开放表格式

让我们将这些公告放在上下文中。开放表格式使数据湖能够达到过去只能通过传统数据仓库或数据库才能实现的性能和合规性标准,同时保留数据湖环境的灵活性。


开放表格式主要有以下三种:


冰山最初由 Netflix 设计,专门用于处理数据湖中的大量数据。这种开放表格式具有时间旅行、动态模式演化和分区演化等独特功能。这些功能使其具有革命性,可以通过查询引擎对同一数据集进行并发且安全的操作。


三角洲湖是 Lakehouse 架构中的一个开源存储框架,支持 MinIO 等对象存储上的数据湖。它确保 Apache Spark 的 ACID 事务、可扩展元数据处理和统一处理,从而提供可靠性和可扩展性。 Delta Lake 可以应对复杂 Spark 工作负载的性能和正确性挑战,特别是在高并发情况下,非原子更新和元数据操作会造成严重瓶颈。


胡迪植根于 Hadoop 生态系统,Hudi 的主要目的是减少流数据摄取期间的延迟,提供表、事务、更新插入/删除、高级索引等功能以及与各种存储实现(包括云原生对象存储)的兼容性像MinIO一样。


关于不同格式之间的选择已经有很多文章,其中一些声称最多80% 功能等效三种主要的开放表格式之一。考虑到创建这些开放表格式并继续蓬勃发展的互操作性环境,这种区别的混合是有意义的。这些格式的创建者将能力置于供应商锁定和运营控制的传统概念之上。

作为现代数据堆栈一部分的开放表格式

甚至在这些最近的公告之前,开放表格式就已经成为现代数据湖设计不可或缺的一部分。相反,数据湖已经成为现代数据堆栈不可或缺的一部分。最近民意调查经过德雷米奥研究发现,70% 的受访者表示,他们一半以上的分析数据正在或将在三年内位于数据湖中。这种普遍采用标志着组织如何构建和管理数据的范式转变,重点强调互操作性、灵活性和性能。


云原生数据湖及其组件和技术(例如开放表格式)已成为现代数据堆栈的中心舞台,这并不奇怪。这与批发给希望将“云技术”一词应用到其老化系统上的组织的传统的、单一的遗留硬件和软件形成鲜明对比。成为云原生不仅仅是添加一个 API——现代数据堆栈是一个模块化的、专门的工具集合,专为各种数据处理方面量身定制。它专为适应性而构建,诞生于云中并遵循高性能标准。使现代数据堆栈成为组织引人注目的选择的功能。该堆栈的模块化提供了一系列选项,允许组织构建符合其特定需求的定制数据基础设施,从而在不断发展的数据环境中培养敏捷性。


尽管选项范围不断变化,但堆栈组件中仍存在一些定义特征:


  • 云原生:现代数据堆栈旨在跨不同的云环境无缝扩展,确保与多个云的兼容性,以防止供应商锁定。


  • 优化的性能:该堆栈专为提高效率而设计,包含采用软件优先方法和性能设计的组件。


  • RESTful API 兼容性:该堆栈在其组件之间建立了标准化的通信框架。这促进了互操作性并支持微服务的创建。


  • 分解存储和计算:该堆栈可以独立扩展计算资源和存储容量。这种方法允许每个方面根据特定需求进行扩展,从而优化成本效率并增强整体性能。


  • 对开放性的承诺:除了支持开放表格式之外,现代数据堆栈还以开源解决方案的形式拥抱开放性。这一承诺消除了专有孤岛并减轻了供应商锁定,促进了协作、创新并提高了数据可访问性。对开放性的奉献增强了堆栈跨各种平台和工具的适应性,确保了包容性。

数据可移植性和互操作性作为业务标准


真正拥抱数据可移植性和互操作性意味着能够随时随地创建和访问数据。这种方法提高了灵活性,使组织能够利用各种工具的功能,而不受供应商锁定或数据孤岛的限制。目标是实现数据的普遍访问,促进组织内更加敏捷和适应性更强的数据生态系统。


了解云作为一种操作模型是基于云原生技术的原则构建的,而不是基于特定位置,这对于实现数据可移植性至关重要。一些组织斗争在这一努力中,并试图以巨大的成本购买进入云的方式。现实情况是,虽然云的采用为普通公司提供了一个机会将盈利能力提高 20% 至 30% ,真正的影响和真正的成本节省来自于在私有基础设施上采用云运营模式。


许多成熟的组织正在积极采用这一理念,选择从云中转移工作负载并实现大幅成本节省,例如X.com 、37Signals 和一家大型企业安全公司平均节省 60%从云出口。云运营模式允许看似矛盾的想法共存:公司可以从迁移到云遣返工作负载中受益。关键的决定因素是云运营模式的采用,从根本上改变组织处理基础设施、开发和技术效率的方式。该模型针对灵活性、效率和长期成功进行了优化(无论是在公共云还是在其他云中),并且与现代数据堆栈的概念精确吻合,从而实现了数据可移植性以及与开放表格式的互操作性。

结论

Databricks、Apache Iceberg 和 Hudi 最近在开放表格式方面取得的进展标志着数据管理的关键时刻。 Delta Lake 3.0 的通用兼容性和对 Apache Iceberg 的扩展支持展示了数据基础设施公司和现场实施者对无缝数据可移植性和互操作性的承诺。


这些发展与现代数据堆栈固有的模块化相一致,其中开放表格式在实现性能和合规性标准方面发挥着核心作用。这种转变不是孤立的,而是与云运营模式相交叉的。除了公共云的吸引力之外,通过在私有基础设施上采用云运营模式还可以产生真正的影响和成本节省。


开放表格式、现代数据堆栈和云操作模型的融合标志着数据管理的变革时代。这种方法确保了跨各种环境的适应性,无论是公共环境还是私有环境、本地部署环境。对于那些应对数据湖架构复杂性的人,我们的 MinIO 团队随时准备提供帮助。请通过 [email protected] 或我们的松弛当您踏上数据之旅时进行协作讨论的渠道。