使用 Iceberg 和 MinIO 的 Lakehouse 架构权威指南
太長; 讀書
Apache Iceberg 似乎席卷了数据世界。最初由 Ryan Blue 在 Netflix 孵化,最终被转移到目前所在的 Apache 软件基金会。它的核心是一种用于大规模分析数据集(想想数百 TB 到数百 PB)的开放表格式。
它是一种多引擎兼容格式。这意味着 Spark、Trino、Flink、Presto、Hive 和 Impala 都可以在数据集上独立且同时运行。它支持数据分析、SQL 等通用语言,以及完整模式演化、隐藏分区、时间旅行、回滚和数据压缩等关键功能。
这篇文章重点介绍 Iceberg 和 MinIO 如何相互补充,以及各种分析框架(Spark、Flink、Trino、Dremio 和 Snowflake)如何利用这两者。