7,524 讀數

MinIO DataPod：百亿亿次计算的参考架构

经过 MinIO7m2024/08/20

太長; 讀書

MinIO 已为数据基础设施制定了全面的蓝图，以支持百亿亿次级 AI 和其他大规模数据湖工作负载。MinIO DataPod 提供端到端架构，使基础设施管理员能够为各种 AI 和 ML 工作负载部署经济高效的解决方案。

featured image - MinIO DataPod：百亿亿次计算的参考架构

现代企业通过数据来定义自身。这需要为 AI/ML 提供数据基础设施，以及作为现代数据湖基础的数据基础设施，以支持商业智能、数据分析和数据科学。如果他们落后、刚起步或使用 AI 获得高级洞察，情况就是如此。在可预见的未来，这将是人们对企业的认知方式。AI 如何进入企业市场这一大问题有多个维度或阶段。这些包括数据提取、转换、训练、推理、生产和归档，每个阶段都有数据共享。随着这些工作负载的扩大，底层 AI 数据基础设施的复杂性也随之增加。这就需要高性能基础设施，同时最大限度地降低总拥有成本 (TCO)。

MinIO 为数据基础设施制定了全面的蓝图，以支持百亿亿次级 AI 和其他大规模数据湖工作负载。它被称为 MinIO DataPod。它使用的测量单位是 100 PiB。为什么？因为现实情况是，这在当今的企业中很常见。以下是一些简单示例：

一家拥有近 EB 汽车视频的北美汽车制造商
一家拥有超过 50 PB 车辆遥测数据的德国汽车制造商
一家拥有超过 50 PB 生物、化学和以患者为中心的数据的生物科技公司
一家拥有超过 500 PB 日志文件的网络安全公司
一家拥有超过 200 PB 视频的流媒体公司
一家国防承包商拥有超过 80 PB 的飞机地理空间、日志和遥测数据

即使它们现在的规模还没有达到 100 PB，但几个季度内就会达到。平均每年公司的增长速度为 42%，以数据为中心的公司的增长速度是这个数字的两倍，甚至更高。

MinIO Datapod 参考架构可以以不同的方式堆叠，以实现几乎任何规模 - 事实上，我们的客户已经基于此蓝图构建了解决方案 - 规模超过 EB 并且与多家硬件供应商合作。MinIO DataPod 提供端到端架构，使基础设施管理员能够为各种 AI 和 ML 工作负载部署经济高效的解决方案。以下是我们架构的基本原理。

人工智能需要分解存储和计算

AI 工作负载（尤其是生成式 AI）本质上需要 GPU 进行计算。它们是具有惊人吞吐量、内存带宽和并行处理能力的出色设备。要跟上越来越快的 GPU，需要高速存储。当训练数据无法装入内存并且训练循环必须对存储进行更多调用时，尤其如此。此外，企业不仅需要性能，还需要安全性、复制和弹性。

企业存储需求要求架构将存储与计算完全分离。这样存储就可以独立于计算进行扩展，并且考虑到存储增长通常比计算增长高出一个或多个数量级，这种方法通过卓越的容量利用率确保了最佳的经济效益。

人工智能工作负载需要不同类型的网络

网络基础设施已将 100 千兆位每秒 (Gbps) 带宽链路标准化，用于 AI 工作负载部署。现代 NVMe 驱动器平均提供 7GBps 的吞吐量，这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。

使用 Infiniband (IB) 等复杂网络解决方案解决此问题确实存在局限性。我们建议企业利用现有的、行业标准的基于以太网的解决方案（例如 HTTP over TCP），这些解决方案开箱即用，能够以高吞吐量为 GPU 提供数据，原因如下：

更大、更开放的生态系统
降低网络基础设施成本
高互连速度（800 GbE 及以上），并支持以太网 RDMA（即：RoCEv2）
重复使用现有的专业知识和工具来部署、管理和观察以太网
基于以太网的解决方案正在实现 GPU 与存储服务器通信方面的创新

人工智能需要对象存储

公有云中的 AI 数据基础设施全部建立在对象存储之上，这并非巧合。每个主要的基础模型都是在对象存储上进行训练的，这也不是巧合。这是因为 POSIX 过于繁琐，无法在 AI 所需的数据规模下工作 - 尽管传统文件归档者会这样说。

在公共云中提供 AI 的相同架构应该应用于私有云和混合云。对象存储擅长处理各种数据格式和大量非结构化数据，并且可以轻松扩展以容纳不断增长的数据而不会影响性能。它们的平面命名空间和元数据功能可实现高效的数据管理和处理，这对于需要快速访问大型数据集的 AI 任务至关重要。

随着高速 GPU 的发展和网络带宽标准化为 200/400/800 Gbps 及以上，现代对象存储将成为唯一满足性能 SLA 和 AI 工作负载规模的解决方案。

软件定义一切

我们知道 GPU 是这场秀的主角，而且它们属于硬件。但就连 Nvidia 也会告诉你，秘诀在于 CUDA。然而，除了芯片之外，基础设施世界也越来越由软件定义。存储就是最好的例证。软件定义的存储解决方案对于可扩展性、灵活性和云集成至关重要，它超越了传统的基于设备的模型，原因如下：

云兼容性：软件定义存储与云操作保持一致，不像那些不能跨多个云运行的设备。
容器化：设备无法容器化，从而失去云原生优势并阻碍 Kubernetes 编排。
硬件灵活性：软件定义存储支持从边缘到核心的广泛硬件，适应不同的 IT 环境。
自适应性能：软件定义存储提供无与伦比的灵活性，可有效管理不同芯片组的不同容量和性能需求。

在 EB 级规模下，简单性和基于云的运营模式至关重要。对象存储作为软件定义的解决方案，应能够在商用现货 (COTS) 硬件和任何计算平台上无缝运行，无论是裸机、虚拟机还是容器。

用于对象存储的定制硬件设备通常会用昂贵的硬件和复杂的解决方案来弥补设计不良的软件，从而导致高昂的总拥有成本 (TCO)。

MinIO DataPOD AI 硬件规格：

使用 MinIO 进行 AI 计划的企业客户将 EB 级数据基础设施构建为 100PiB 的可重复单元。随着 AI 数据在一段时间内呈指数级增长，这有助于基础设施管理员简化部署、维护和扩展过程。以下是构建 100PiB 级数据基础设施的物料清单 (BOM)。

集群规范

成分	数量
机架总数	三十
存储服务器总数	330
每个机架的存储服务器总数	11
TOR 交换机总数	60
主干交换机总数	10
纠删码条带大小	10
纠删码奇偶校验	4

单机架规格

成分	描述	数量
机架外壳	42U/45U插槽机架	1
存储服务器	2U 外形尺寸	11
机架顶部交换机	第 2 层交换机	2
管理交换机	结合第 2 层和第 3 层	1
网络电缆	AOC 电缆	30-40
力量	带 RPDU 的双电源	17千瓦至20千瓦

存储服务器规格

成分	规格
服务器	2U，单插座
中央处理器	64 核、128 * PCIe 4.0 通道
记忆	256 GB
网络	双端口，200gbe NIC
驱动器托架	24 个热插拔 2.5 英寸 U.2 NVMe
驱动器	30 TB * 24 NVMe
力量	1600W 冗余电源
总原始容量	720 TB

存储服务器参考

戴尔： PowerEdge R7615 机架式服务器

HPE ： HPE ProLiant DL345 Gen11

Supermicro ： A+ 服务器 2114S-WN24RT

网络交换机规格

成分	规格
架顶式 (TOR) 交换机	32 * 100GbE QSFP 28 端口
脊柱开关	64 * 100GbE QSFP 28 端口
电缆	100G QSFP 28 AOC
力量	每个开关 500 瓦

价格

MinIO 已与多位客户验证了此架构，并预计其他客户将看到以下每月每 TB 平均价格。这是平均市场价格，实际价格可能因配置和硬件供应商关系而异。

规模	存储硬件价格（每 TB/月）	MinIO 软件价格（每 TB/月）
100PiB	1.50 美元	3.54美元

针对 AI 的特定供应商交钥匙硬件设备将导致高昂的 TCO，并且从单位经济学的角度来看，对于 EB 级的大数据 AI 计划而言是不可扩展的。

结论

在满足所有 AI/ML 工作负载的 TCO 目标的同时，EB 级数据基础设施的设置可能非常复杂，而且很难做到正确。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员能够简单直接地设置所需的现成硬件，并使用高度可扩展、性能高、经济高效的 S3 兼容 MinIO 企业对象存储，从而缩短企业范围内各组织的 AI 计划的整体上市时间并加快价值实现时间。