paint-brush
2024 年の AI チップ: Nvidia は競争をリードする準備ができていますか?@linked_do
1,537 測定値
1,537 測定値

2024 年の AI チップ: Nvidia は競争をリードする準備ができていますか?

George Anadiotis8m2023/11/11
Read on Terminal Reader

長すぎる; 読むには

NVIDIA の最新の発表を追跡することで、AI チップの将来について学んだすべてのこと。
featured image - 2024 年の AI チップ: Nvidia は競争をリードする準備ができていますか?
George Anadiotis HackerNoon profile picture
0-item
1-item

NVIDIA の最新の発表を追跡し、業界の専門家と話し、ニュースや分析を精査することで、AI チップの将来について私たちが学んだこと。


AI チップを探索することは娯楽でもあり、 「Orchestrate all the Things」の記事の人気テーマでもあります。 2023 年、私たちはそれにやや遅れをとっているように感じました...でも、それは問題でしょうか? NVIDIA は依然として最高の地位に君臨しているのではありませんか。 評価額は 1 兆、市場シェアは 80% 以上、H100 は熱々のパンのように売れ、あらゆる記録を更新しています。そうですね、でも...それほど速くはありません。


O'Reilly との「AI の最新情報」シリーズの AI チップのエピソードで、HPE Evan Sparks 氏の頭脳である AI の CPO を選ぶ機会を得た後、NVIDIA のいくつかの記者会見に出席し、大量のニュースやニュースに目を通し、私たちは 2024 年の AI チップに関して、より微妙な見解を共有する予定です。何が起こっているのか、そしてそれが今後 AI にどのような影響を与える可能性があるのかを以下に示します。

NVIDIA が MLPerf ベンチマーク記録を破る

ニュースから始めましょう。昨日、 NVIDIA は最新の MLPerf 提出の結果を発表しました。 MLPerf は AI ワークロード ベンチマークの事実上の標準であり、より多くの AI ワークロードが出現するにつれて、MLPerf はそのスイートに追加され続けています。ここ 1 年で Generative AI が普及する中、MLPerf は Gen AI ワークロードを自社の武器庫に追加しました。


以前に大規模言語モデル (LLM) をトレーニングするために完全な GPT-3 データ セットの一部を使用するベンチマークを追加しましたが、 MLPerf への最新の追加は、 Stable Diffusion のテキストから画像へのモデルに基づくトレーニング ベンチマークです。 NVIDIA は、これらの両方に加えて、さらにいくつかの点でも優勝しました。 Intel と Google も AI トレーニングで大きな成果を上げています


NVIDIA Eos (なんと 10,752 個のNVIDIA H100 Tensor コア GPUNVIDIA Quantum-2 InfiniBandネットワーキングを搭載した AI スーパーコンピューター) は、10 億のトークンでトレーニングされた 1,750 億のパラメーターを含む GPT-3 モデルに基づくトレーニング ベンチマークをわずか 3.9 分で完了しました。


NVIDIA は MLPerf 3.1 ベンチマークでいくつかの記録を破りました


これは、このテストが導入されてから 6 か月も経たないときに NVIDIA が樹立した記録である 10.9 分からほぼ 3 倍の短縮です。推定によると、Eos はその LLM をわずか 8 日間でトレーニングできるようになりました。これは、512 個の A100 GPU を使用した従来の最先端システムよりも 73 倍高速です。 Stable Diffusion ベンチマークに関しては、1,024 個のNVIDIA Hopper アーキテクチャ GPU を使用して完了するまでに 2.5 分かかりました。


しかし、それだけではありません。 NVIDIA が指摘しているように、同社はすべての MLPerf テストを実行した唯一の企業であり、9 つのベンチマークのそれぞれで最速のパフォーマンスと最大のスケーリングを実証しました。スーパーコンピューター上の AI 支援シミュレーションの別のベンチマークである MLPerf HPC では、H100 GPU は、前回の HPC ラウンドで NVIDIA A100 Tensor コア GPU の最大 2 倍のパフォーマンスを実現しました。

AI モデルをトレーニングするためのオプション

それでは、これらの結果を開梱してみましょう。まず注目すべきは、さまざまなスケールの次元です。 Eos が最初に発表されたとき、4,608 台の H100 が搭載されていました。現在、その数は 10,752 です。しかし、Eos のスケールとパフォーマンスを活用しているのは NVIDIA だけではありません。


同社が指摘しているように、アクセラレータ、システム、ソフトウェアにおけるイノベーションのフルスタック プラットフォームが、最新のラウンドでは Eos と Microsoft Azure の両方で使用されました。 Azure はすべてのカテゴリで提出されたわけではありませんが、両方が提出された GPT-3 ベンチマークでは、結果は実質的に同じでした。また、Azure のインスタンスも商用利用可能です。


さらに、Eos のスケーリング効率は 80% を超えていました。理想的には、GPU の数が 2 倍になれば、パフォーマンスも 2 倍になります。この規模でその 80% を達成するのはかなりの偉業です。 NVIDIA は、これは自社のスタック、つまりハードウェア、ソフトウェア、ネットワーキングの組み合わせによるものであると考えています。


ここでわかることの 1 つは、NVIDIA GPU が達成するパフォーマンスとスケールアップを説明するために使用される「ジェンセンの法則」がまだ有効であるようだということです。しかし、おそらく本当の問題は、誰がなぜ気にするべきなのかということです。


この種の規模は、たとえ望んでも、ハイパースケーラー以外の誰もが通常は扱えるものではありません。 NVIDIA H100 GPU は、1 つあたり約 30,000 ドルの価格であるにもかかわらず、供給が不足しています。 「2023 年の AI の現状」レポートが指摘しているように、組織は備蓄競争にさらされています。しかし、良いニュースもあります。


組織は NVIDIA GPU の備蓄競争を行っています


まず、NVIDIA チップのライフタイムバリューは非常に長く、発売から人気がピークになるまで 5 年です。 2017 年にリリースされた NVIDIA V100 は、依然として AI 研究で最も一般的に使用されているチップです。これは、2020年に発売されたA100が、V100が谷に達する可能性が高い2026年にピークに達する可能性があることを示唆している。


さらに、新しい世代 AI モデルをゼロからトレーニングすることが、ほとんどの組織で行う必要があるかどうかは疑問です。おそらく、大多数の組織は、アプリケーションを強化するために内部的にパッケージ化された事前トレーニング済みの Gen AI モデルのみを使用するか、API 経由で ChatGPT などを使用することを選択することになるでしょう。これらのオプションは両方とも、GPU をまったく必要としません。


もちろん、裏を返せば、これらのオプションはいずれも自律性と安全性がまったくありません。しかし、社内で Gen AI を開発することを選択した組織であっても、何かをゼロからトレーニングすることは、おそらくほとんどの企業にとって最も意味のあることではありません。既製のオープンソース Gen AI モデルを取得し、微調整や RAG (検索拡張生成) によってカスタマイズする方が、はるかに高速かつ簡単であり、必要なコンピューティングはほんの一部だけです。

NVIDIA の競合他社がどのように追いつくか

いずれにせよ、ここでの長期的な見方は、NVIDIA のやり方でスケールアップすることで、より強力な AI モデルをより短期間で可能にするということです。それがより強力な GPT のようなモデル、オープンソース モデル、または派生アプリケーションを意味するかどうかにかかわらず、結果が少しずつ降りてくることが期待できます。


しかし、ここで考慮すべき別の質問があります。 NVIDIA の優位性は業界にとって良いことなのでしょうか?それは続くことができるでしょうか、またそうすべきでしょうか?競争は何を目的としているのでしょうか?そして、なぜ世界の他の国々が気にする必要があるのでしょうか?


私自身や他の人が指摘しているように、NVIDIA の優位性はハードウェアだけでなく、スタック全体にも基づいています。さらに、アナリストの Dylan Patel 氏が指摘したように、NVIDIA は、サプライ チェーン管理、販売戦略、バンドルに関して、他社が真似できる一連のビジネス戦略も活用しています。しかし、それは競争が手を抜いているという意味でもありません。


スーパーコンピューターとスケールアップに関する限り、NVIDIA の Eos が唯一のゲームではありません。 Sparks 氏が述べたように、60,000 個の独自の Ponte Vecchio GPU を搭載したIntel の Aurora がオンライン化されようとしています。さらに、世界には他にもさまざまなメーカーのさまざまなチップやアーキテクチャを搭載したスーパーコンピューターが数多くあり、それらはすべて高性能の浮動小数点演算を実行できます。


インテルの Gaudi 2 AI チップは、FP8 ソフトウェアを使用した MLPerf 3.1 GPT-3 でパフォーマンスが 2 倍向上


NVIDIA は、AI ワークロードに最初に焦点を当てたという事実により優位性を持っていますが、意欲的な競合他社はそれぞれ、追いつくためのロードマップを持っています。私たちは最近まで、NVIDIA のソフトウェア層である CUDA が会社の最大の堀であると考えていました。


Patel 氏が指摘するように、多くの機械学習フレームワークは生まれては消えていきましたが、そのほとんどは NVIDIA の CUDA の活用に大きく依存しており、NVIDIA GPU で最高のパフォーマンスを発揮してきました。しかし、PyTorch 2.0 と OpenAI の Triton の登場により、主にソフトウェアの堀による、この分野における NVIDIA の支配的な地位が崩れつつあります。これらのフレームワークにより、NVIDIA の競合企業は独自のスタックを構築しやすくなります。


もちろん、Patel 氏が、他社に先んじるための NVIDIA 独自の計画を概説する別のメモを追加しているように、NVIDIA は手をこまねいているわけではありません。 NVIDIA は非常に成功していますが、業界で最も偏執的な企業の 1 つでもあり、CEO のジェンスン ファンはアンディ グローブの精神を体現しています。 NVIDIA が、現在自社のチームにハードウェア エンジニアの 2 倍のソフトウェア エンジニアを雇用していることを強調したのは偶然ではありません。

成功は自己満足を生みます。自己満足は失敗を生みます。パラノイアだけが生き残る。

アンディ・グローブ

競争、規模、パフォーマンス、TCO

パテル氏は NVIDIA の戦術の一部に疑問を呈していますが、それについては私たちには意見がありません。私たちに言えることは、NVIDIA の容赦ない態度が彼らを満足させるわけではないとしても、単一のベンダーが80% 以上の市場シェアを長期間にわたって所有することはあまり健全ではないということです。おそらく誰にとっても、競争が追いつくのを見るのは良いことだろう。


現時点では、ハイパースケーラー、AMD や Intel などの既存の競合企業、そして新興企業の群れはすべて、2024 年以降に向けた独自のカスタム AI チップの開発に取り組んでいます。 NVIDIA は H100 に対して 1000% のマージンを持っていると推定されていますが、これも供給不足です。誰もが活動に参加したり、自主性を高めたいと思うのも不思議ではありません。消費者にとって、 競争が激化するということは、選択肢と自主性が増し、性能と価格が向上することを意味します


ただし、現時点では、脚注が 1 つか 2 つあるとはいえ、NVIDIA が依然として議論の余地のないリーダーです。たとえば、NVIDIA の MLPerf の結果を Intel の Gaudi と直接比較するように求められたとき、NVIDIA のアクセラレーテッド コンピューティング グループの製品マーケティング ディレクターの Dave Salvator 氏は 2 つのことを指摘しました。まず、Gaudi の提出作品は 10,000 件の規模には程遠いものでした。第 2 に、NVIDIA の結果は正規化ベースで比較すると約 2 倍優れていました。しかし、アナリストの Karl Freund などは、 Gaudi2 が信頼できる代替手段であると考えています


GPU ベンダー市場シェアの推移 (JPR 経由)


脚注 #1: MLPerf は、業界で広く評価されているベンチマークです。ただし、他のベンチマークと同様に、これも完璧ではありません。 Sparks 氏が指摘したように、MLPerf に欠けている重要な要素の 1 つは価格設定です。さまざまな理由から、ベンチマークに価格設定を組み込むのが難しいことは理解できますが、それは結果を背景に置く必要があることも意味します。たとえば、Patrick Kennedy の分析によると、 Intel の Gaudi2 は、NVIDIA の H100 よりも 1 ドル当たりのパフォーマンスが 4 倍優れています


脚注 #2: 将来の購入者にとって重要な指標がパフォーマンスだけであることはほとんどありません。多くの場合、最も重要なのはパフォーマンスとコストの比率、つまり特定の期間内に特定の操作を実行するのにどれくらいのコストがかかるかです。この指標に到達するには、AI チップの総所有コスト (TCO) を考慮に入れる必要があります。これは、深い専門知識を必要とする複雑な作業です。


AI チップの TCO の大部分は推論、つまり実稼働環境でのトレーニング済み AI モデルの使用です。 AI モデルのトレーニングは通常、コストがかかり、複雑な作業です。それに比べれば推論は単純かもしれませんが、通常はモデルの寿命と運用コストの大部分を占めます。


トレーニングと推論のワークロードには異なる特性があります。これは、トレーニングでうまく機能するシステムが、推論でも同様にうまく機能するとは限らないことを意味します。好例 – Salvator 氏は、推論に関する Eos のパフォーマンスについてコメントを求められたとき、出席者に今後の説明会を参照するよう勧めました。その一方で、推論に重点を置いた新しいシステムを構築している人もいれば、既存のシステムを最大限に活用しようとしている人もいます。

結論

NVIDIA は、そのリーダーシップが当面は衰える気配がないことを示しました。しかし、それは世界の他の国々にとって必ずしも良いことではありません。現時点では遠いように思えるかもしれないが、競争はそこにあり、追いつくチャンスもそこにある。 2024年のAIチップには注目が集まるだろう。いずれにせよ、AI の開発と使用を目指す組織にとって、ベンチマークのハイライトが実際の影響、使いやすさ、TCO にどのように反映されるかは直線的ではありません。

Orchestrate all the Things ニュースレターに参加してください


テクノロジー、データ、AI、メディアがどのように相互に影響し合い、私たちの生活を形作るのかについてのストーリー。分析、エッセイ、インタビュー、ニュース。中~長期形式、月に1~3回。


ここでも公開されています。