1,364 測定値

AI に最適なサーバー、CPU、GPU をどのように選択すればよいでしょうか?

に Hostkey.com5 分 read2024/04/18

長すぎる; 読むには

人工知能はさまざまな業界で重要になっています。適切なプロセッサとグラフィックカードを選択すると、高性能なプラットフォームを構築できます。グラフィックアクセラレータの選択やサーバーに搭載されている RAM の量は、CPU の種類の選択よりも大きな影響を与えます。

featured image - AI に最適なサーバー、CPU、GPU をどのように選択すればよいでしょうか?

生成型人工知能とその実用化の発展に伴い、自動車製造から医療までさまざまな業界、さらには教育機関や政府機関にとって、人工知能用サーバーの作成が重要になっています。

人工知能用サーバーの選択に影響を与える最も重要なコンポーネントである、中央処理装置 (CPU) とグラフィック処理装置 (GPU) について考えてみましょう。適切なプロセッサとグラフィックカードを選択すると、高性能プラットフォームをセットアップし、専用サーバーまたは仮想 (VPS) サーバー上で人工知能に関連する計算を大幅に高速化できます。

即時導入可能なGPUサーバーをレンタルまたは、カスタム構成プロフェッショナルグレードの NVIDIA Tesla H100 / H100 80Gb または RTX A5000 / A4000 カードを搭載。ゲーム用RTX4090カードを搭載したGPUサーバーもご利用いただけます。

AI サーバーに適したプロセッサをどのように選択すればよいでしょうか?

プロセッサは、ユーザーからのコマンドを受信して「コマンドサイクル」を実行し、目的の結果を生み出す主要な「計算機」です。したがって、AI サーバーを強力にするのは CPU の性能に大きく依存します。

AMD プロセッサと Intel プロセッサの比較を期待するかもしれません。そうです、この 2 つの業界リーダーはプロセッサ製造の最前線に立っており、Intel 第 5 世代 Intel® Xeon® (およびすでに発表されている第 6 世代) と AMD EPYC™ 8004/9004 のラインナップは、x86 ベースの CISC プロセッサの頂点を成しています。

優れたパフォーマンスと、成熟した実績のあるエコシステムの組み合わせを求めている場合は、これらのチップメーカーの最高級製品を選択するのが正しい選択です。予算が気になる場合は、Intel® Xeon® および AMD EPYC™ プロセッサの旧バージョンを検討してください。

ワークロードに多数のコアやマルチスレッド機能が必要ない場合は、AMD や Nvidia のハイエンドモデルのデスクトップ CPU でも AI の作業を始めるのに適しています。実際には、言語モデルに関しては、CPU タイプの選択よりも、グラフィックアクセラレータの選択やサーバーにインストールされている RAM の量の方が大きな影響を与えます。

Mixtral の 8x7B などの一部のモデルは、CPU で実行するとビデオカードに搭載されているテンソルコアの計算能力に匹敵する結果を生成できますが、CPU + GPU バンドルよりも 2 ～ 3 倍多くの RAM も必要になります。たとえば、16 GB の RAM と 24 GB の GPU ビデオメモリで実行されるモデルは、CPU のみで実行すると最大 64 GB の RAM が必要になる場合があります。

AMD と Intel に加えて、他のオプションも利用できます。ARM コアと特許取得済みの NVIDIA 機能を組み合わせた NVIDIA Grace™ や Ampere Altra™ など、ARM アーキテクチャに基づくソリューションがこれに該当します。

AI サーバーに適したグラフィックプロセッシングユニット (GPU) をどのように選択すればよいでしょうか?

GPU は、今日の AI サーバー運用においてますます重要な役割を果たしています。CPU がニューラルネットワークへのリクエストをより高速かつ効率的に処理できるようにするアクセラレータとして機能します。GPU は、タスクをより小さなセグメントに分割し、並列コンピューティングまたは専用コアを使用して同時に実行できます。たとえば、NVIDIA のテンソルコアは、Transformer Engine、Tensor Float 32 (TF32)、FP16 を使用した 8 ビット浮動小数点 (FP8) 計算で桁違いの高いパフォーマンスを提供し、高性能コンピューティング (HPC) で優れた結果を示しています。

これは推論（ニューラルネットワークの動作）中ではなくトレーニング中に特に顕著になります。たとえば、FP32 を使用したモデルの場合、このプロセスには数週間、場合によっては数か月かかることがあります。

検索条件を絞り込むには、次の質問を考慮してください。

AI サーバーのワークロードの性質は時間の経過とともに変化しますか? 最新の GPU のほとんどは、非常に特殊なタスク向けに設計されています。チップのアーキテクチャは AI 開発やアプリケーションの特定の領域に適している可能性があり、新しいハードウェアおよびソフトウェアソリューションにより、わずか数年 (1-2-3 年) で以前の世代の GPU が時代遅れになる可能性があります。
AI のトレーニングと推論 (使用) のどちらに重点を置きますか? これら 2 つのプロセスは、メモリバジェットが限られた最新の AI 反復処理の基盤となります。

トレーニング中、AI モデルは数十億、あるいは数兆ものパラメータを持つ大量のデータを処理します。そして、一貫して正しい結果を生成できるようになるまで、アルゴリズムの「重み」を調整します。

推論モードでは、AI はトレーニングの「メモリ」に依存して、現実世界の新しい入力データに応答します。どちらのプロセスもかなりの計算リソースを必要とするため、高速化のために GPU と拡張モジュールがインストールされます。

グラフィックプロセッシングユニット (GPU) は、ディープラーニングモデルのトレーニング用に特別に設計されており、このプロセスを最適化できる特殊なコアとメカニズムを備えています。たとえば、8 つの GPU コアを備えた NVIDIA の H100 は、FP8 ディープラーニングで 32 ペタフロップス以上のパフォーマンスを発揮します。各 H100 には、FP8 と呼ばれる新しいタイプのデータを使用する第 4 世代のテンソルコアと、最適化のための「Transformer Engine」が含まれています。最近、NVIDIA は次世代の GPU である B200 を発表しました。これはさらに強力になります。

AMD ソリューションの強力な代替品は、AMD Instinct™ MI300X です。その特徴は、大容量メモリと高データ帯域幅であり、大規模言語モデル (LLM) などの推論ベースの生成 AI アプリケーションにとって重要です。AMD は、自社の GPU は NVIDIA ソリューションよりも 30% 効率的であると主張していますが、ソフトウェアの成熟度は低いです。

予算の制約内に収めるためにパフォーマンスを少し犠牲にする必要がある場合、または AI をトレーニングするためのデータセットがそれほど大きくない場合は、AMD および NVIDIA の他のオプションを検討できます。推論タスクの場合、またはトレーニングのために 24 時間 365 日モードでの継続的な操作が必要ない場合は、Nvidia RTX 4090 または RTX 3090 に基づく「コンシューマー」ソリューションが適している可能性があります。

モデルトレーニングの長期計算の安定性を求めている場合は、NVIDIA の RTX A4000 または A5000 カードを検討できます。PCIe バスを備えた H100 は、タスクに応じて 60 ～ 80% のパフォーマンスでより強力なソリューションを提供する可能性がありますが、RTX A5000 はよりアクセスしやすいオプションであり、特定のタスク (8x7B などのモデルでの作業など) に最適な選択肢になる可能性があります。

より特殊な推論ソリューションについては、AMD Alveo™ V70、NVIDIA A2/L4 Tensor Core、Qualcomm® Cloud AI 100 などのカードを検討できます。近い将来、AMD と NVIDIA は AI トレーニング市場で Intel の GPU Gaudi 3 を上回るパフォーマンスを発揮する予定です。

これらすべての要素を考慮し、HPC と AI 向けのソフトウェア最適化を考慮すると、Intel Xeon または AMD Epyc プロセッサと NVIDIA の GPU を搭載したサーバーをお勧めします。AI 推論タスクには RTX A4000/A5000 から RTX 3090 までの GPU を使用できますが、マルチモーダルニューラルネットワークのトレーニングと作業には、RTX 4090 から A100/H100 までのソリューションに予算を割り当てることをお勧めします。