ハイエンドのコンシューマーグレードの GPU は、大規模な安定拡散推論に適していますか?もしそうなら、数百万枚の画像を生成するのに 1 日あたりどのくらいのコストがかかるでしょうか?本当に A10、A100、H100 が必要ですか?
このベンチマークでは、SaladCloud 上で微調整された安定した拡散ベースのアプリケーションを起動することで、これらの質問に答えます。
結果: 750 のレプリカ (GPU) までスケールアップし、3.62 TB のストレージを使用して24 時間で920 万を超えるイメージを生成し、総コストは1,872 ドルでした。
このベンチマークは、 1 ドルあたり 4,954 枚の画像を生成することにより、消費者向け GPU での大規模な生成 AI 推論が実用的で手頃な価格であり、クラウド コストを削減する道であることを示しています。この投稿では、アプリケーションのアーキテクチャとモデルの詳細、プロンプトの詳細を含む SaladCloud へのデプロイメント、およびベンチマークからの推論結果を確認します。次回の投稿では、このベンチマークを再現するために使用できる技術的なチュートリアルとリファレンス コードを提供します。
このベンチマークは、カスタム アートワーク用の SaaS スタイルの生成 AI 画像生成ツールに対して実行されました。エンドユーザーは、微調整されたモデルのカテゴリを参照し、モデルを選択し、プロンプトとパラメーターをカスタマイズして、ジョブを送信して 1 つ以上のイメージを生成します。生成された画像はエンドユーザーに表示されます。私たちは、このユースケースにおける SaladCloud ノードの可能性を実証する推論コンテナの開発を支援しました。次の図は、システム アーキテクチャの概要を示しています。
主なコンポーネントには、Web ベースのアプリケーション (フロントエンドとバックエンド)、専用のジョブ キュー、推論コンテナ、およびブロック ストレージ サービスが含まれます。 Azure Queue Storage がジョブ キューに使用され、FIFO スケジューリングが提供されました。ブロック ストレージを提供するために Azure Blob Storage が使用されました。次の図は、推論コンテナ アーキテクチャの概要を示しています。
コンテナーは、 Automatic1111 の Stable Diffusion Web UIに基づいていました。ジョブ処理パイプラインを実装する Go で記述されたコンテナーにカスタム ワーカーを作成し、追加しました。ワーカーは Azure SDK for Go を利用して、Azure Queue Storage および Azure Blob Storage サービスと通信しました。ワーカーはジョブのキューを順次ポーリングし、Stable Diffusion Web UI サーバーによって提供される text2img API エンドポイントを使用してイメージを生成し、そのイメージを BLOB コンテナーにアップロードします。
推論コンテナー イメージを構築した後、Web ベースのポータルを使用して、SaladCloud マネージド コンテナー デプロイメントを作成しました。
このデプロイメントは、少なくとも 4 つの vCPU、少なくとも 8 GB の RAM、および少なくとも 8 GB の VRAM を備えた NVIDIA RTX 2000、3000、または 4000 シリーズの GPU を備えた 750 の固有のノードをターゲットとしていました。 SaladCloud ではよりターゲットを絞ったノード選択が可能ですが、未使用のネットワーク容量に基づいて、スケジューラーが互換性のある GPU を備えた最初の利用可能なノードを選択できるようにすることにしました。また、展開の地理的分布を制限していないことも注目に値します。
ジョブ キューは10,000,000 個の可変イメージ生成プロンプトでいっぱいになりました。以下はジョブの 1 つの例です。
{"prompt": "photo of a jump rope, lora:magic-fantasy-forest-v2:0.35, magic-fantasy-forest, digital art, most amazing artwork in the world, ((no humans)), volumetric light, soft balanced colours, forest scenery, vines, uhd, 8k octane render, magical, amazing, ethereal, intricate, intricate design, ultra sharp, shadows, cooler colors, trending on cgsociety, ((best quality)), ((masterpiece)), (detailed)","negative_prompt": "oversaturation, oversaturated colours, (deformed, distorted, disfigured:1.3), distorted iris, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, human, man, woman", "sampler_name": "k_euler_a", "steps": 15, "cfg_scale": 7}
各ジョブにはテキスト プロンプトに埋め込まれた LoRA 定義が含まれており、各ジョブではわずかに異なる具体的な名詞と環境の説明が使用されていました。生成された画像は 512x512 ピクセルのサイズに固定され、サンプラーは Euler Ancestral に固定され、ステップ数は 15 に固定され、CFG スケールは 7 に固定されました。
24 時間で合計9,274,913 件の画像生成リクエストを処理し、3.62 TB のコンテンツを生成しました。処理エラー (一時的なネットワークの問題など) は最小限で、2 回目に再処理されたジョブは 523 件だけでした。平均して、 7 秒のイメージ生成サイクル時間を達成しました。次のモザイクは、生成された画像のほんの一部の例です。
安定拡散推論ベンチマークから生成された画像のサンプル。プロンプトには、ファンタジー スタイルの森を舞台にしたさまざまな名詞が含まれていました。
パラメーターの調整と最適化に費やす時間がなかったことを考えると、生成された画像を参照して相対的な品質を観察するのは楽しかったです。
このデモンストレーションでは、大規模な安定拡散推論では、消費者グレードの GPU が能力があるだけでなく、コスト効率も高いことを示す刺激的な結果が得られました。とはいえ、最適化には程遠いものでした。パフォーマンスを向上させるために実行できる技術的なタスクは数多くあります。特に、ワーカーを迅速に実装し、ジョブを順番に取得し、イメージを生成し、イメージをアップロードするループに落ち着きました。この実装では、ネットワーク I/O を待機している間、GPU はアイドル状態になります。
ジョブをパイプライン化し、キューから追加のジョブを積極的に取得し、ネットワーク I/O を別のイメージ生成リクエストと並列化するアプローチを採用した場合、全体的なジョブ スループットは少なくとも 10% 向上すると推定されます。総コストを調整しないと、1 日に生成される画像の数が 1,000 万枚を超えることになります。
生成 AI は、絵画、音楽、文章などの新しいコンテンツを作成できる人工知能の一種です。既存の情報から学習してパターンと関係のモデルを開発することで機能し、ユニークでパーソナライズされたコンテンツの生成に実際に応用できます。多くのオープンソース基盤モデルがリリースされたおかげで、ますます人気のあるテクノロジーになりましたが、その多くは非常に大規模なデータセットに基づいて開発されています。微調整の開発と適用が比較的容易であること、大規模な推論を低コストで実行できることと相まって、生成 AI の民主化により、信じられないほどのペースで新しいアプリケーションが開発されています。
特に推論に関連して、多くのモデルはコンテンツを効率的に生成するために依然として大量の計算リソースを必要とします。しかし、消費者向け GPU の処理能力とリソース容量の飛躍的な向上により、生成 AI モデルの多くのアプリケーションが追いつきました。
大手クラウド コンピューティング プロバイダーに頼って、A10、A100、H100 などのエンタープライズ グレードの GPU への希少なアクセスを争う代わりに、世界で最も強力なゲーム PC で構成される分散クラウド コンピューティング環境である SaladCloud に目を向ける顧客が増えています。 。
急速に拡大している生成 AI の用途には、テキストの説明から画像を作成することが含まれます。 「テキストから画像へ」ワークフローを使用して、ゲーム、広告およびマーケティング キャンペーン、ストーリーボードなどのアセットを生成できます。 Stable Diffusion は、「テキストから画像へ」の分野で人気のあるオープンソース基盤モデルの 1 つです。
現在、「画像から画像」および「音声からテキスト」のワークフローのデモンストレーションとベンチマークを計画しており、近い将来、ブログを通じてさらに多くの結果を共有したいと考えています。
このベンチマークは、Generative AI 推論やその他の計算集約型アプリケーション向けの世界で最も手頃な価格の GPU クラウドである SaladCloud で実行されました。 SaladCloud は 10,000 以上の GPU を 1 時間あたり 0.10 ドルから提供しており、市場で最も低い GPU 価格を実現しています。
高額なクラウド料金と GPU の可用性が成長と収益性を妨げている場合、SaladCloud が低価格とオンデマンドの可用性を提供します。
最近、当社の製品責任者であるDaniel SarfatiがLLM Utils (強く推奨される LLM リソース) の Clay Pascal と対談し、安定した拡散に適した GPU を選択する方法について話し合いました。安定した拡散のための GPU の選択について詳しくは、音声インタビューの全文を聞くことができます。
パーソナライズされたデモについてはお問い合わせください。独自のモデル、または人気のあるモデル (安定拡散、ウィスパー、BERT など) の事前構成されたレシピを実行するには、 SaladCloud ポータルの無料トライアルをチェックしてください。
ここでも公開されています。