生成型人工知能とその実用化の発展に伴い、自動車製造から医療までさまざまな業界、さらには教育機関や政府機関にとって、人工知能用サーバーの作成が重要になっています。
人工知能用サーバーの選択に影響を与える最も重要なコンポーネントである、中央処理装置 (CPU) とグラフィック処理装置 (GPU) について考えてみましょう。適切なプロセッサとグラフィック カードを選択すると、高性能プラットフォームをセットアップし、専用サーバーまたは仮想 (VPS) サーバー上で人工知能に関連する計算を大幅に高速化できます。
即時導入可能なGPUサーバーをレンタル または、カスタム構成 プロフェッショナルグレードの NVIDIA Tesla H100 / H100 80Gb または RTX A5000 / A4000 カードを搭載。ゲーム用RTX4090カードを搭載したGPUサーバー もご利用いただけます。
プロセッサは、ユーザーからのコマンドを受信して「コマンド サイクル」を実行し、目的の結果を生み出す主要な「計算機」です。したがって、AI サーバーを強力にするのは CPU の性能に大きく依存します。
AMD プロセッサと Intel プロセッサの比較を期待するかもしれません。そうです、この 2 つの業界リーダーはプロセッサ製造の最前線に立っており、Intel 第 5 世代 Intel® Xeon® (およびすでに発表されている第 6 世代) と AMD EPYC™ 8004/9004 のラインナップは、x86 ベースの CISC プロセッサの頂点を成しています。
優れたパフォーマンスと、成熟した実績のあるエコシステムの組み合わせを求めている場合は、これらのチップ メーカーの最高級製品を選択するのが正しい選択です。予算が気になる場合は、Intel® Xeon® および AMD EPYC™ プロセッサの旧バージョンを検討してください。
ワークロードに多数のコアやマルチスレッド機能が必要ない場合は、AMD や Nvidia のハイエンド モデルのデスクトップ CPU でも AI の作業を始めるのに適しています。実際には、言語モデルに関しては、CPU タイプの選択よりも、グラフィック アクセラレータの選択やサーバーにインストールされている RAM の量の方が大きな影響を与えます。
Mixtral の 8x7B などの一部のモデルは、CPU で実行するとビデオ カードに搭載されているテンソル コアの計算能力に匹敵する結果を生成できますが、CPU + GPU バンドルよりも 2 ~ 3 倍多くの RAM も必要になります。たとえば、16 GB の RAM と 24 GB の GPU ビデオ メモリで実行されるモデルは、CPU のみで実行すると最大 64 GB の RAM が必要になる場合があります。
AMD と Intel に加えて、他のオプションも利用できます。ARM コアと特許取得済みの NVIDIA 機能を組み合わせた NVIDIA Grace™ や Ampere Altra™ など、ARM アーキテクチャに基づくソリューションがこれに該当します。
GPU は、今日の AI サーバー運用においてますます重要な役割を果たしています。CPU がニューラル ネットワークへのリクエストをより高速かつ効率的に処理できるようにするアクセラレータとして機能します。GPU は、タスクをより小さなセグメントに分割し、並列コンピューティングまたは専用コアを使用して同時に実行できます。たとえば、NVIDIA のテンソル コアは、Transformer Engine、Tensor Float 32 (TF32)、FP16 を使用した 8 ビット浮動小数点 (FP8) 計算で桁違いの高いパフォーマンスを提供し、高性能コンピューティング (HPC) で優れた結果を示しています。
これは推論(ニューラル ネットワークの動作)中ではなくトレーニング中に特に顕著になります。たとえば、FP32 を使用したモデルの場合、このプロセスには数週間、場合によっては数か月かかることがあります。
検索条件を絞り込むには、次の質問を考慮してください。
トレーニング中、AI モデルは数十億、あるいは数兆ものパラメータを持つ大量のデータを処理します。そして、一貫して正しい結果を生成できるようになるまで、アルゴリズムの「重み」を調整します。
推論モードでは、AI はトレーニングの「メモリ」に依存して、現実世界の新しい入力データに応答します。どちらのプロセスもかなりの計算リソースを必要とするため、高速化のために GPU と拡張モジュールがインストールされます。
グラフィック プロセッシング ユニット (GPU) は、ディープラーニング モデルのトレーニング用に特別に設計されており、このプロセスを最適化できる特殊なコアとメカニズムを備えています。たとえば、8 つの GPU コアを備えた NVIDIA の H100 は、FP8 ディープラーニングで 32 ペタフロップス以上のパフォーマンスを発揮します。各 H100 には、FP8 と呼ばれる新しいタイプのデータを使用する第 4 世代のテンソル コアと、最適化のための「Transformer Engine」が含まれています。最近、NVIDIA は次世代の GPU である B200 を発表しました。これはさらに強力になります。
AMD ソリューションの強力な代替品は、AMD Instinct™ MI300X です。その特徴は、大容量メモリと高データ帯域幅であり、大規模言語モデル (LLM) などの推論ベースの生成 AI アプリケーションにとって重要です。AMD は、自社の GPU は NVIDIA ソリューションよりも 30% 効率的であると主張していますが、ソフトウェアの成熟度は低いです。
予算の制約内に収めるためにパフォーマンスを少し犠牲にする必要がある場合、または AI をトレーニングするためのデータセットがそれほど大きくない場合は、AMD および NVIDIA の他のオプションを検討できます。推論タスクの場合、またはトレーニングのために 24 時間 365 日モードでの継続的な操作が必要ない場合は、Nvidia RTX 4090 または RTX 3090 に基づく「コンシューマー」ソリューションが適している可能性があります。
モデルトレーニングの長期計算の安定性を求めている場合は、NVIDIA の RTX A4000 または A5000 カードを検討できます。PCIe バスを備えた H100 は、タスクに応じて 60 ~ 80% のパフォーマンスでより強力なソリューションを提供する可能性がありますが、RTX A5000 はよりアクセスしやすいオプションであり、特定のタスク (8x7B などのモデルでの作業など) に最適な選択肢になる可能性があります。
より特殊な推論ソリューションについては、AMD Alveo™ V70、NVIDIA A2/L4 Tensor Core、Qualcomm® Cloud AI 100 などのカードを検討できます。近い将来、AMD と NVIDIA は AI トレーニング市場で Intel の GPU Gaudi 3 を上回るパフォーマンスを発揮する予定です。
これらすべての要素を考慮し、HPC と AI 向けのソフトウェア最適化を考慮すると、Intel Xeon または AMD Epyc プロセッサと NVIDIA の GPU を搭載したサーバーをお勧めします。AI 推論タスクには RTX A4000/A5000 から RTX 3090 までの GPU を使用できますが、マルチモーダル ニューラル ネットワークのトレーニングと作業には、RTX 4090 から A100/H100 までのソリューションに予算を割り当てることをお勧めします。
即時導入可能なGPUサーバーをレンタル または、カスタム構成 プロフェッショナルグレードの NVIDIA Tesla H100 / H100 80Gb または RTX A5000 / A4000 カードを搭載。ゲーム用RTX4090カードを搭載したGPUサーバー もご利用いただけます。
このストーリーはHackerNoonのビジネスブログプログラムで配信されました。プログラムの詳細についてはこちらをご覧ください。