paint-brush
如何为您的 AI 选择最佳的服务器、CPU 和 GPU?经过@hostkey
1,364 讀數
1,364 讀數

如何为您的 AI 选择最佳的服务器、CPU 和 GPU?

经过 Hostkey.com5m2024/04/18
Read on Terminal Reader

太長; 讀書

人工智能已成为各行各业的关键。选择合适的处理器和显卡将使您能够建立高性能平台。图形加速器的选择或服务器中安装的 RAM 量将比 CPU 类型的选择产生更大的影响。
featured image - 如何为您的 AI 选择最佳的服务器、CPU 和 GPU?
Hostkey.com HackerNoon profile picture
0-item


随着生成人工智能及其实际应用的发展,创建人工智能服务器对于各个行业(从汽车制造到医药,以及教育和政府机构)都变得至关重要。


让我们考虑影响人工智能服务器选择的最重要的组件:中央处理器 (CPU) 和图形处理单元 (GPU)。选择合适的处理器和显卡将使您能够建立高性能平台,并显著加快专用或虚拟 (VPS) 服务器上与人工智能相关的计算。


租用 GPU 服务器,即时部署或具有自定义配置配备专业级 NVIDIA Tesla H100 / H100 80Gb 或 RTX A5000 / A4000 卡。带有游戏 RTX4090 卡的 GPU 服务器也可用。



如何为您的 AI 服务器选择合适的处理器?

处理器是主要的“计算器”,它接收用户的命令并执行“命令循环”,从而产生所需的结果。因此,人工智能服务器如此强大的很大一部分原因在于它的 CPU。


您可能希望将 AMD 和 Intel 处理器进行比较。是的,这两个行业领导者处于处理器制造的最前沿,其第五代 Intel® Xeon®(以及已发布的第六代)和 AMD EPYC™ 8004/9004 代表了基于 x86 的 CISC 处理器的巅峰。


如果您正在寻找出色的性能以及成熟且经过验证的生态系统,那么选择这些芯片制造商的顶级产品将是正确的选择。如果预算是一个问题,请考虑旧版本的 Intel® Xeon® 和 AMD EPYC™ 处理器。


如果您的工作负载不需要大量内核和多线程功能,那么即使是 AMD 或 Nvidia 的高端台式机 CPU 也是使用 AI 的良好起点。实际上,当涉及到语言模型时,图形加速器的选择或服务器中安装的 RAM 数量将比 CPU 类型的选择产生更大的影响。


虽然某些模型(例如 Mixtral 的 8x7B)在 CPU 上运行时可以产生与视频卡中张量核心的计算能力相当的结果,但它们所需的 RAM 也比 CPU + GPU 捆绑包多 2-3 倍。例如,在 16 GB RAM 和 24 GB GPU 视频内存上运行的模型在仅在 CPU 上运行时可能需要高达 64 GB 的 RAM。


除了 AMD 和英特尔,还有其他选择。这些可以是基于 ARM 架构的解决方案,例如将 ARM 内核与 NVIDIA 专利功能相结合的 NVIDIA Grace™,或 Ampere Altra™。


如何为您的 AI 服务器选择合适的图形处理单元 (GPU)?

GPU 在当今的 AI 服务器运行中扮演着越来越重要的角色。它充当加速器,帮助 CPU 更快、更高效地处理对神经网络的请求。GPU 可以将任务分解为更小的部分,并使用并行计算或专用核心同时执行它们。例如,NVIDIA 的张量核心在 Transformer Engine、Tensor Float 32 (TF32) 和 FP16 的 8 位浮点 (FP8) 计算中提供了高出几个数量级的性能,在高性能计算 (HPC) 中表现出色。


这在推理(神经网络的运行)过程中尤其明显,但在训练过程中则不然,例如,对于具有 FP32 的模型,这个过程可能需要数周甚至数月。


为了缩小搜索条件,请考虑以下问题:

  • 您的 AI 服务器的工作负载性质会随着时间的推移而改变吗?大多数现代 GPU 都是为非常具体的任务而设计的。其芯片的架构可能适合某些 AI 开发或应用领域,而新的硬件和软件解决方案可以在短短几年内 (1-2-3) 淘汰前几代 GPU。
  • 你会主要关注训练 AI 还是推理(使用)?这两个过程是所有现代 AI 在内存预算有限的情况下迭代的基础。


在训练过程中,AI模型需要处理数十亿甚至数万亿个参数的大量数据,不断调整算法的“权重”,直到能够持续生成正确的结果。


在推理模式下,人工智能依靠其训练的“记忆”来响应现实世界中的新输入数据。这两个过程都需要大量的计算资源,因此安装了 GPU 和扩展模块来加速。


图形处理单元 (GPU) 专为训练深度学习模型而设计,具有专门的核心和机制,可以优化此过程。例如,NVIDIA 的 H100 具有 8 个 GPU 核心,在 FP8 深度学习中提供超过 32 petaflops 的性能。每个 H100 都包含第四代张量核心,使用一种名为 FP8 的新数据类型和一个用于优化的“Transformer Engine”。最近,NVIDIA 推出了下一代 GPU B200,它将更加强大。


AMD Instinct™ MI300X 是 AMD 解决方案的有力替代品。其特点是内存容量大、数据带宽高,这对于基于推理的生成式 AI 应用(如大型语言模型 (LLM))非常重要。AMD 声称他们的 GPU 比 NVIDIA 的解决方案效率高 30%,但软件不太成熟。


如果您需要牺牲一点性能以适应预算限制,或者用于训练 AI 的数据集不是太大,则可以考虑 AMD 和 NVIDIA 的其他选择。对于推理任务或不需要全天候连续运行进行训练的情况,基于 Nvidia RTX 4090 或 RTX 3090 的“消费者”解决方案可能比较合适。


如果您正在寻找模型训练的长期计算稳定性,可以考虑 NVIDIA 的 RTX A4000 或 A5000 卡。虽然带有 PCIe 总线的 H100 可能提供更强大的解决方案,性能提升 60-80%,具体取决于任务,但 RTX A5000 是一个更易于使用的选项,并且可能是某些任务的最佳选择(例如使用 8x7B 等模型)。


对于更奇特的推理解决方案,您可以考虑 AMD Alveo™ V70、NVIDIA A2/L4 Tensor Core 和 Qualcomm® Cloud AI 100 等卡。在不久的将来,AMD 和 NVIDIA 计划在 AI 训练市场上超越英特尔的 GPU Gaudi 3。


考虑到所有这些因素,并考虑到 HPC 和 AI 的软件优化,我们建议使用配备 Intel Xeon 或 AMD Epyc 处理器和 NVIDIA GPU 的服务器。对于 AI 推理任务,您可以使用从 RTX A4000/A5000 到 RTX 3090 的 GPU,而对于训练和处理多模态神经网络,建议为从 RTX 4090 到 A100/H100 的解决方案分配预算。





租用 GPU 服务器,即时部署或具有自定义配置配备专业级 NVIDIA Tesla H100 / H100 80Gb 或 RTX A5000 / A4000 卡。带有游戏 RTX4090 卡的 GPU 服务器也可用。

本文发布于 HackerNoon 的商业博客计划下。了解有关该计划的更多信息这里