1,470 讀數

2024 年的 AI 芯片：Nvidia 准备好引领这场竞赛了吗？

经过 George Anadiotis8m2023/11/11

太長; 讀書

通过跟踪 NVIDIA 的最新公告，我们了解了有关 AI 芯片未来的所有信息。

featured image - 2024 年的 AI 芯片：Nvidia 准备好引领这场竞赛了吗？

我们通过跟踪 NVIDIA 的最新公告、与行业专家交谈以及浏览新闻和分析来了解 AI 芯片的未来。

探索人工智能芯片一直是一种消遣，也是编排所有事物文章中的一个流行主题。 2023 年，我们感觉自己在这方面有些落后了……但话又说回来，这重要吗？ 1万亿估值、80%以上的市场份额、H100热销并打破所有记录等，NVIDIA不仍然占据着霸主地位吗？嗯，是的，但是……没那么快。

在我们与 O'Reilly 合作的“AI 最新动态”系列的 AI 芯片节目中，有机会挑选 HPE Evan Sparks 的 AI 首席产品官后，参加了几场 NVIDIA 新闻发布会，浏览了大量新闻和内容我们对 2024 年人工智能芯片有更细致的看法，以便您分享。以下是正在发生的事情以及它可能如何影响人工智能的未来发展。

NVIDIA 打破 MLPerf 基准测试记录

我们先从新闻说起。昨天， NVIDIA 公布了最新的 MLPerf 提交结果。 MLPerf 是 AI 工作负载基准事实上的标准，随着更多 AI 工作负载的出现，MLPerf 不断添加到它的套件中。随着生成式 AI 在去年的腾飞，MLPerf 已将生成式 AI 工作负载添加到其武器库中。

之前添加了使用完整 GPT-3 数据集的一部分来训练大型语言模型 (LLM) 的基准， MLPerf 的最新添加是基于稳定扩散文本到图像模型的训练基准。 NVIDIA 在这两个方面以及其他几个方面均表现出色。英特尔和谷歌在人工智能培训方面也取得了巨大进展。

NVIDIA Eos是一款人工智能超级计算机，由多达 10,752 个NVIDIA H100 Tensor Core GPU和NVIDIA Quantum-2 InfiniBand网络提供支持，仅用 3.9 分钟就完成了基于 GPT-3 模型的训练基准，其中包含 1750 亿个参数，并在 10 亿个代币上进行了训练。

与 6 个月前推出该测试时 NVIDIA 创下的记录 10.9 分钟相比，时间增加了近 3 倍。通过推断，Eos 现在只需 8 天即可训练 LLM，比之前使用 512 个 A100 GPU 的最先进系统快 73 倍。至于稳定扩散基准测试，需要 1,024 个NVIDIA Hopper 架构 GPU花费 2.5 分钟才能完成。

但这还不是全部。正如 NVIDIA 所指出的，该公司是唯一一家运行所有 MLPerf 测试的公司，在九个基准测试中的每一个中都展示了最快的性能和最大的扩展性。在 MLPerf HPC（超级计算机上人工智能辅助模拟的单独基准）中，H100 GPU 在上一轮 HPC中的性能是 NVIDIA A100 Tensor Core GPU 的两倍。

训练 AI 模型的选项

现在，让我们开始解析这些结果。首先要注意的是尺度的各个维度。当Eos 首次发布时，共有 4,608 台 H100。如今，它拥有 10,752 个。但 NVIDIA 并不是唯一一家利用 Eos 规模和性能的公司。

正如该公司指出的那样，Eos 和 Microsoft Azure 在最新一轮中都使用了加速器、系统和软件创新的全栈平台。 Azure 并未提交所有类别，但在两者都提交的 GPT-3 基准测试中，结果几乎相同。 Azure 的实例也已商用。

更重要的是，Eos 的扩展效率超过 80%。理想情况下，GPU 数量加倍即可获得两倍的性能。就这个规模而言，达到 80% 是一项了不起的壮举。 NVIDIA 将其归因于其堆栈——硬件、软件和网络的组合。

这里的一个要点是，“詹森定律”（用于描述 NVIDIA GPU 实现的性能和扩展的绰号）似乎仍然有效。但也许真正的问题是谁应该关心，以及为什么。

这种规模通常不是任何人都可以处理的，除了超大规模企业，即使他们愿意。尽管每块 NVIDIA H100 GPU 的成本约为 3 万美元，但它仍然供不应求。正如《2023 年人工智能现状》报告指出的那样，各组织正在展开一场储备竞赛。但也有好消息。

首先，NVIDIA 芯片具有非常长的生命周期价值：从推出到普及高峰期为 5 年。 2017年发布的NVIDIA V100仍然是AI研究中最常用的芯片。这表明 2020 年发布的 A100 可能会在 2026 年达到顶峰，届时 V100 可能会触底。

另外，大多数组织是否需要从头开始训练新一代人工智能模型，这一点值得怀疑。大多数组织可能只会使用封装在底层的预先训练的 Gen AI 模型来为应用程序提供支持，或者选择通过 API 使用 ChatGPT 之类的东西。这两个选项都需要零个 GPU。

当然，另一方面是这两种选择也提供零自主性和安全性。但即使对于选择开发内部 Gen AI 的组织来说，从头开始训练对大多数人来说也可能不是最有意义的。采用现成的开源 Gen AI 模型并通过微调或 RAG（检索增强生成）对其进行自定义会更快、更容易，并且只需要一小部分计算。

NVIDIA 竞争对手如何迎头赶上

不管怎样，我们的长远观点是，像 NVIDIA 那样扩大规模，可以在更短的时间内实现更强大的人工智能模型。我们可以预期结果会逐渐下降，无论这意味着更强大的类似 GPT 的模型、开源模型还是衍生应用程序。

但这里还有另一组问题需要考虑。 NVIDIA的主导地位对行业来说是一件好事吗？它可以而且应该持续吗？竞争的目的是什么？为什么世界其他地方应该关心呢？

正如我和其他人所指出的，NVIDIA 的主导地位不仅基于其硬件，还基于其整个堆栈。此外，正如分析师迪伦·帕特尔 (Dylan Patel) 指出的那样，NVIDIA 还利用了一系列有关供应链管理、销售策略和捆绑销售的商业策略，而其他公司很少能够复制这些策略。但这也不意味着竞争就停止了。

就超级计算机和扩展而言，NVIDIA 的 Eos 绝对不是唯一的游戏。正如 Sparks 提到的，配备 60,000 个自家 Ponte Vecchio GPU 的英特尔 Aurora即将上线。此外，世界上还有许多其他超级计算机具有来自不同制造商的一系列芯片和架构，并且它们都能够执行高性能浮点运算。

英伟达拥有优势，因为它是第一个专注于人工智能工作负载的公司，但每个有抱负的竞争对手都有一个追赶的路线图。直到最近，我们还一直认为 NVIDIA 的软件层 CUDA 是该公司最大的护城河。

正如Patel 指出的那样，许多机器学习框架来了又去，但大多数都严重依赖 NVIDIA 的 CUDA，并且在 NVIDIA GPU 上表现最佳。然而，随着PyTorch 2.0和OpenAI的Triton的到来，NVIDIA在该领域主要凭借其软件护城河的主导地位正在被颠覆。这些框架使 NVIDIA 的竞争对手更容易构建自己的堆栈。

当然，正如 Patel 在另一份说明中概述NVIDIA 自己保持领先地位的计划所补充的那样，NVIDIA 不会坐视他们。虽然 NVIDIA 非常成功，但他们也是业界最偏执的公司之一，首席执行官黄仁勋 (Jensen Huang) 体现了安迪·格罗夫 (Andy Grove) 的精神。 NVIDIA 强调其团队目前雇用的软件工程师数量是硬件工程师的两倍，这绝非偶然。

成功会滋生自满情绪。自满会导致失败。只有偏执狂才能生存。
安迪·格罗夫

竞争、规模、性能和 TCO

Patel 甚至质疑 NVIDIA 的一些策略，但我们对此没有意见。我们可以说的是，尽管NVIDIA的不懈努力并没有让他们沾沾自喜，但任何一家供应商长期占据80%以上的市场份额并不是很健康。看到竞争对手迎头赶上，对每个人来说可能都是一件好事。

目前，超大规模企业、AMD 和英特尔等现有竞争对手以及一群新贵都在为 2024 年及以后开发自己的定制 AI 芯片。据估计， NVIDIA 在 H100 上的利润率为 1000% ，而且同样供不应求。难怪每个人都想参与其中和/或增强自主权。对于消费者来说，更多的竞争意味着更多的选择和自主权，以及更好的性能和价格。

然而，就目前而言，NVIDIA 仍然是无可争议的领导者——尽管有一两个脚注。例如，当被要求直接比较 NVIDIA 的 MLPerf 结果与英特尔的 Gaudi 时，NVIDIA 加速计算小组的产品营销总监 Dave Salvator 指出了两件事。首先，高迪提交的作品远未达到 10K 的规模。其次，NVIDIA 的结果比标准化结果高出约 2 倍。然而，分析师卡尔·弗罗因德 (Karl Freund) 等其他人则认为 Gaudi2 是一个可靠的替代方案。

脚注 #1：MLPerf 是业界广受好评的基准。然而，与所有基准测试一样，它并不完美。正如 Sparks 指出的，MLPerf 缺少的一个关键要素是定价。虽然出于多种原因将定价纳入任何基准都是很棘手的，但这也意味着结果需要放在上下文中。例如，根据帕特里克·肯尼迪的分析，英特尔的 Gaudi2 的性价比比 NVIDIA 的 H100 高 4 倍。

脚注 #2：性能本身很少不是对潜在买家重要的唯一指标。通常，最重要的是性能成本比：在特定时间范围内执行特定操作需要花费多少成本。为了达到这一指标，应考虑人工智能芯片的总拥有成本 (TCO)。这是一项复杂的工作，需要深厚的专业知识。

AI 芯片 TCO 的很大一部分是推理，即在生产中使用经过训练的 AI 模型。训练人工智能模型通常是一项成本高昂且复杂的工作。相比之下，推理可能更简单，但它通常构成模型生命周期和运营成本的大部分。

训练和推理工作负载具有不同的特征。这意味着在训练方面表现出色的系统不一定在推理方面表现同样出色。一个恰当的例子——当 Salvator 被要求对 Eos 的推理性能发表评论时，他向与会者推荐了未来的简报。与此同时，人们正在构建专注于推理的新系统，而其他人则试图充分利用现有系统。

结论

英伟达刚刚表明，其领导地位在不久的将来不会出现减弱的迹象。然而，对于世界其他地区来说，这不一定是一件好事。竞争就在那里，追赶的机会也在那里，尽管目前看来还很遥远。 2024 年的 AI 芯片将值得关注。无论如何，对于有志于开发和使用人工智能的组织来说，基准测试亮点如何转化为实际影响、可用性和总体拥有成本并不是线性的。