AIを自己ホスティングするにはいくらかかりますか?私は知るためのシステムを構築しました

クラウドプロバイダーを通じてAIへの民主化されたアクセスの約束として始まったことは、パフォーマンスの低下、攻撃的な検閲、および予測不能なコストの不快な経験に変わりました。 クラウドAIパフォーマンスの隠されたコスト クラウドAIプロバイダーは、サブスクリプトを引き付けるために例外的なパフォーマンスを搭載し、サービスの品質を徐々に低下させるという不安定なパターンを開発しました。OpenAIユーザーは、GPT-4oが「非常に迅速に反応するが、文脈と指示を無視して迅速な応答を提供している場合、ツールは使用できない」と報告しました。 プロバイダーが複数のユーザーリクエストをグループ化してGPU効率化するテクニックで、バッチサイズが増加するにつれて個々のリクエストが最大4倍長く待機する。 Token batching パフォーマンスの低下は、単純な遅延を超えています。 静的バッチングは、バッチ内のすべてのシーケンスを一斉に完了させ、あなたの迅速なクエリが他人の長い生産を待っていることを意味します。 「継続的なバッチング」さえ、個々のリクエストを遅らせるオーバーヘッドを導入します。 Censorship: When Safety Becomes Unusable セキュリティが使えないとき テストによると、Google Gemini は 20 件中 10 件の論争的だが正当な質問に答えることを拒否している - 競合相手よりも多い。 性的暴行の生存者向けのアプリケーションは「不安全なコンテンツ」としてブロックされます。 歴史的な役割会話は更新後突然動作を停止します。 精神保健サポートアプリケーションはセキュリティフィルターを起動します。 Anthropic の Claude は、正当な使用ケースをブロックする厳しい検閲に挫折したユーザーによると「境界無用」となっています。 地元の利点 Self-hosted AI はこれらの挫折を完全に排除します。 適切なハードウェアを使用すると、ローカル推測は 1900+ トークン/秒−10-100 倍、クラウドサービスよりも速いタイム-to-first トークンに達します。 モデルバージョンの完全なコントロールを維持し、ワークフローを破るような不要なアップデートを防ぐことができます。 検閲フィルターは正当なコンテンツをブロックしません。 料金制限はあなたの仕事を中断しません。 使用ピークからのサプライズはありません。 5 年以上にわたり、クラウドサブスクリプションは基本的なアクセスのための 1200+ ドル、高度なサブスクリプションのための 10 倍以上です。 そして、AI ハードウェア要件:あなたのAIパワーハウスを構築 モデルサイズと量子化の理解 自己ホスティングの成功の鍵は、あなたのハードウェア能力にモデルを合わせることです。現代の量子化技術は、品質の大幅な損失なしにモデルを圧縮します。 量子化は、モデル重量の正確さを、元の浮動点の表示から低ビット形式まで削減します。高解像度の画像を圧縮するように考える──あなたは劇的に小さなファイルサイズのためのいくつかの詳細を取引しています。 What is Quantization? 量子化がなければ、ほとんどのユーザは謙虚な言語モデルでさえアクセスできないだろう。完全精度の70Bパラメータモデルは、ほとんどの消費者向けGPUを超えて140GBのメモリを必要とする。 Why Quantization Matters FP16(Full Precision):オリジナルモデルの品質、メモリの最大要件 8-bit Quantization: ~50%メモリ削減、最小限の品質影響 4 ビット量子化: ~75% メモリ減少、軽い品質バックアップ 2-bit Quantization: ~87.5% メモリ減少、質の顕著な劣化 7Bパラメータモデルでは、14GB(FP16)、7GB(8ビット)、3.5GB(4ビット)、または1.75GB(2ビット)のメモリが必要になります。 人気のオープンソースモデルとその要件 Small Models (1.5B-8B parameters): Qwen3 4B/8B:ハイブリッド思考モードを搭載した最新世代 Qwen3-4Bは、プログラミングタスクで多くの72Bモデルを上回ります。 DeepSeek-R1 7B: 優れた推論能力、4GBのRAM Mistral Small 3.1 24B:マルチモダル機能、128Kコンテキストウィンドウ、150トークン/秒パフォーマンスを備えた最新のApache 2.0モデル。 Medium Models (14B-32B parameters): GPT-OSS 20B: OpenAIの2019年以降の最初のオープンモデル、Apache 2.0 ライセンス取得。3.6Bのアクティブパラメータを持つMoEアーキテクチャはo3ミニパフォーマンスを提供します。16GBのVRAMでRTX 4080で実行 Qwen3 14B/32B:思考モード機能を持つ密集したモデル Qwen3-14Bは、Qwen2.5-32Bのパフォーマンスと一致し、より効率的です。 DeepSeek-R1 14B: RTX 3070 Ti/4070で最適 Mistral Small 3.2:最新のアップデート、改善された指示の追跡と減少した繰り返し Large Models (70B+ parameters): Llama 3.3 70B: 4ビット量子化で ~35GB、デュアルRTX 4090またはA100が必要 DeepSeek-R1 70B: 48GB VRAM 推奨、2x RTX 4090 で達成可能 GPT-OSS 120B:OpenAIのフラッグシップオープンモデル、128エキスパートのMoEを介して5.1Bのアクティブパラメータを搭載。 Qwen3-235B-A22B: 22Bのアクティブパラメータを持つフラッグシップMoEモデル、o3-miniとの競争力 DeepSeek-R1 671B: 480GB+ VRAMまたは専門的なセットアップを必要とする巨人 特別コードモデル: Small Coding Models (1B-7B active parameters): Qwen3-Coder 30B-A3B: MoE モデルのみ 3.3B アクティブなパラメータ。ネイティブ 256K コンテキスト (1M with YaRN) for repository-scale tasks. Runns on RTX 3060 12GB in 4-bit quantization Qwen3-Coder 30B-A3B-FP8:公式8ビット量子化で95%以上のパフォーマンスを維持します 15GB VRAM、RTX 4070/3080に最適 Unsloth Qwen3-Coder 30B-A3B: Dynamic quantizations with fixed tool-calling. Q4_K_M runs on 12GB, Q4_K_XL on 18GB with better quality. Q4_K_M runs on 12GB, Q4_K_XL on 18GB with better quality. Large Coding Models (35B+ active parameters): Qwen3-Coder 480B-A35B:フラッグシップエージェントモデルで35Bが160エキスパートMoEを通じてアクティブで、SWEベンチで61.8%を達成し、クロード・ソネット4と比較できます。 Qwen3-Coder 480B-A35B-FP8:公式8ビットメモリを250GBに減らす。 Unsloth Qwen3-Coder 480B-A35B: Q2_K_XL at 276GB runs on 4x RTX 4090 + 180GB RAM. IQ1_M at 150GB feasible on 2x RTX 4090 + 100GB RAM 予算によるハードウェア構成 Budget Build (~$2,000): AMD Ryzen 7 7700Xプロセッサ 64GB DDR5-5600 RAM PowerColor RX 7900 XT 20GB または RTX 3090 14Bまでのモデルを快適に操作 Performance Build (~$4,000): AMD Ryzen 9 7900X 128GB DDR5-5600 RAM RTX 4090 24GB 32B モデルを効率的に実行し、卸荷を伴う 70B モデルを小型化 Professional Setup (~$8,000): デュアルXeon/EPYCプロセッサ 256GB+ RAM 2 x RTX 4090 または RTX A6000 70Bモデルを生産速度で操作 Mac Options: MacBook M1 Pro 36GB: 7B-14Bモデルに最適、メモリの統一優位性 Mac Mini M4 64GB: 32Bモデルで快適 Mac Studio M3 Ultra 512GB: 究極のオプション - DeepSeek-R1 671B を 17-18 トークン/秒で ~ 10,000 ドルで実行 超大型モデルでは、AMD EPYC システムは例外的な価値を提供します。 512GB-1TB DDR4 を搭載した EPYC 7702 システムは、DeepSeek-R1 671B で 3.5-8 トークン/秒を提供します。 The AMD EPYC Alternative: この構成では、DeepSeek-R1 671B を 3.5-4.25 トークン/秒で実行できます。 The $2,000 EPYC Build (Digital Spaceport Setup): CPU:AMD EPYC 7702(64コア) - 650ドル、またはEPYC 7C13/7V13にアップグレード - 599-735ドル マザーボード: MZ32-AR0 (16 DIMM スロット、3200MHz サポート) - $500 メモリ: 16x 32GB DDR4-2400 ECC (512GB 合計) - $400, or 16x 64GB for 1TB - $800 ストレージ:1TB Samsung 980 Pro NVMe - $75 Corsair H170i Elite Capellix XT(コルサア H170i エリートカペリックス XT) PSU: 850W (CPU のみ) または 1500W (将来の GPU 拡張) - $80-150 ケース: ラックフレーム - $55 : ~2000ドル 512GB、 ~2500ドル 1TBの構成 Total Cost Performance Results: DeepSeek-R1 671B Q4: 3.5-4.25 トークン/秒 コンテキストウィンドウ:16K+サポート Power Draw: 60W idle, 260W loaded メモリ帯域幅: 重要 - DDR4-3200 の高速化によりパフォーマンスが大幅に向上 このセットアップは、大規模なモデルがCPU のみのシステムで手頃な価格で実行できることを証明し、GPU 要件なしに限界 AI がアクセスできるようにします。 ソース:Digital Spaceport - Deepseek R1 671b を 2000 ドルの EPYC サーバーで完全にローカルに実行する方法 デジタルスペースポート - Deepseek R1 671b を 2000 ドルの EPYC サーバー上で完全にローカルに実行する方法 ソフトウェアインストール:インストールから生産まで タグ:The Foundation Ollamaは、現地モデル展開の事実上の基準となり、パワーを犠牲にすることなくシンプルさを提供しています。 Installation: # Linux/macOS curl -fsSL https://ollama.com/install.sh | sh # Windows: Download installer from ollama.com/download Essential Configuration: # Optimize for performance export OLLAMA_HOST="0.0.0.0:11434" # Enable network access export OLLAMA_MAX_LOADED_MODELS=3 # Concurrent models export OLLAMA_NUM_PARALLEL=4 # Parallel requests export OLLAMA_FLASH_ATTENTION=1 # Enable optimizations export OLLAMA_KV_CACHE_TYPE="q8_0" # Quantized cache # Download models ollama pull qwen3:4b ollama pull qwen3:8b ollama pull mistral-small3.1 ollama pull deepseek-r1:7b 複数の GPU 設定では、別々の Ollama インスタンスを実行します。 Running Multiple Instances: # GPU 1 CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST="0.0.0.0:11434" ollama serve # GPU 2 CUDA_VISIBLE_DEVICES=1 OLLAMA_HOST="0.0.0.0:11435" ollama serve Exo.labs: Distributed Inference Magic(エクソ・ラブス:分散インファレンス・マジック) Exo.labs は、複数のデバイスで巨大なモデルを実行することを可能にし、MacBooks、PC、Raspberry Pis を混合することもできます。 Installation: git clone https://github.com/exo-explore/exo.git cd exo pip install -e . 単純走り ネットワーク内の各デバイスで互いを自動的に発見し、モデル計算を配布します。 3x M4 Pro Mac のセットアップは、Llama 3.2 3B で 1 秒あたり 108.8 トークンを達成します。 Usage: exo GUI オプション 最高の ChatGPT のような体験を提供します: Open WebUI docker run -d -p 3000:8080 --gpus=all \ -v ollama:/root/.ollama \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:ollama アクセス at RAG サポート、マルチユーザ管理、プラグインシステムを備えた完全なインターフェイス。 http://localhost:3000 最もシンプルなデスクトップ体験を提供します: GPT4All ダウンロード from gpt4all.io for Windows, macOS, or Linux One-click installation with automatic Ollama detection オールラマ検出 内蔵モデルブラウザとダウンロードマネージャ ネイティブデスクトップアプリケーションを望む初心者に最適 ローカルドキュメントチャットとプラグインをサポート 強力な開発に焦点を当てたインターフェースを提供します。 AI Studio 複数のモデル比較およびテスト能力 早速エンジニアリングワークスペース API エンドポイント管理とテスト モデルパフォーマンス分析とベンチマーク Ollama、LocalAI、およびカスタムバックエンドをサポート 開発者やAI研究者に最適 機能には、会話分割、プロンプトテンプレート、およびエクスポートオプションが含まれます。 クリエイティブなアプリケーションとキャラクターベースのインタラクションに優れ、ロールプレーとクリエイティブな書き込みシナリオの幅広いカスタマイズを提供します。 SillyTavern Tailscale によるリモート アクセス:あなたの AI はどこにでもあります 自己ホスティング AI の最も強力な側面の 1 つは、完全なプライバシーを維持しながらどこからでもモデルにアクセスする能力です Tailscale VPN は、すべてのデバイス間で安全なネットワークを作成することによって、これを非常に容易にします。 Tailscale for Remote AI Accessの設定 Install Tailscale on your AI server: # Linux/macOS curl -fsSL https://tailscale.com/install.sh | sh sudo tailscale up # Windows: Download from tailscale.com/download Configure Ollama for network access: # Set environment variable to listen on all interfaces export OLLAMA_HOST="0.0.0.0:11434" ollama serve (ラップトップ、携帯電話、タブレット) 同じアカウントを使用します. すべてのデバイスは、ユニークなIPアドレス(通常は 100.x.x.x 範囲)を有するプライベート メッシュ ネットワークに自動的に表示されます。 Install Tailscale on client devices Check your server's Tailscale IP: tailscale ip -4 # Example output: 100.123.45.67 Access from any device on your Tailnet: ウェブインターフェイス: http://100.123.45.67:3000 (オープン WebUI) API エンドポイント: http://100.123.45.67:11434/v1/chat/completions モバイルアプリ:Ollama エンドポイントを Tailscale IP に設定する Advanced Tailscale Configuration について ホームネットワーク全体にアクセスするには: Enable subnet routing # On AI server sudo tailscale up --advertise-routes=192.168.1.0/24 # Replace with your actual subnet 自動証明書を持つ HTTPS の場合: Use Tailscale Serve # Expose Open WebUI with HTTPS tailscale serve https / http://localhost:3000 このように公開URLを作成します。 あなたの Tailscale ネットワークにのみアクセスできます。 https://your-machine.your-tailnet.ts.net モバイルアクセスの設定 iOS / Android デバイス: App Store/Play Store から Tailscale アプリをインストールする 同じアカウントでログイン Install compatible apps: : Enchanted, Mela, or any OpenAI-compatible client iOS : Ollama Android app, or web browser Android アプリを Tailscale IP を使用するように設定する: http://100.123.45.67:11434 セキュリティベストプラクティス Tailscale は暗号化されたメッシュ ネットワークを通じてデフォルトでセキュリティを提供します - 追加のファイアウォール構成は必要ありません! Tailscale の美しさは、それは: WireGuardを使用してすべてのトラフィックを自動的に暗号化 ネットワーク内で認証されたデバイスのみを許可 ルーターを完全に回避する孤立した接続を作成する 公共のインターネットからの不正アクセスを防ぐ Tailscale トラフィックは暗号化され、認証されたデバイスにのみアクセスできるため、Ollama サーバーは遠隔でアクセスしても完全にプライベートです。ポートリダイレクトなし、VPS 設定なし、複雑なファイアウォールルールルールなし──単にセキュアで直接的なデバイス間接続のみです。 Tailscale を使用すると、あなたの自己ホスト AI は真にポータブルになります - あなたがコーヒーショップにいるか、旅行しているか、または別の場所から働いているかに関係なく、完全なプライバシーでモデルにアクセスしてください。 エージェントワークフロー:実際に機能するAI GOOSE FROM BLOCK Goose は、地元のモデルを完全なプロジェクトを構築できる自動開発アシスタントに変換します。 Installation: curl -fsSL https://github.com/block/goose/releases/download/stable/download_cli.sh | bash Configuration for Ollama: goose configure # Select: Configure Providers → Custom → Local # Base URL: http://localhost:11434/v1 # Model: qwen3:8b Goose は、コードの移行、パフォーマンスの最適化、テスト生成、複雑な開発ワークフローを優先します。 CRUSH FROM CHARM ターミナル愛好家にとって、Crush は深い IDE 統合を備えた魅力的な AI コーディング エージェントを提供します。 Installation: brew install charmbracelet/tap/crush # macOS/Linux # or npm install -g @charmland/crush (※) ) : Ollama Configuration .crush.json { "providers": { "ollama": { "type": "openai", "base_url": "http://localhost:11434/v1", "api_key": "ollama", "models": [{ "id": "qwen3:8b", "name": "Qwen3 8B", "context_window": 32768 }] } } } n8n AI スタートキット 視覚的なワークフローの自動化のために、n8n 自己ホストキットは、必要なすべてを組み合わせています。 git clone https://github.com/n8n-io/self-hosted-ai-starter-kit.git cd self-hosted-ai-starter-kit docker compose --profile gpu-nvidia up Visual Workflow Editor にアクセスする 400以上の統合と事前に構築されたAIテンプレート。 http://localhost:5678/ Corporate-Scale Inference: The 50 Million Tokens/Hour Setup トップページ 極端なパフォーマンスを必要とする組織の場合、自社ホスティングの限界は、従来のホームサーバーをはるかに超え、例えば、X での @nisten 設定などです。 モデル: Qwen3-Coder-480B (480Bパラメータ、35BアクティブMoEアーキテクチャ) ハードウェア:NVidia H200 出力: 1 時間あたり 50 万トークン(ソネットを使用する場合、約 250 ドル/時間) コスト分析 Initial Investment: 予算設定: ~$2,000 パフォーマンス設定: ~$4,000 プロフェッショナルセットアップ: ~$9000 Operational Costs: 電気料金:50～200ドル/月 ゼロ火災料金 使用制限なし 完全なコスト予測 重いユーザーは3〜6カ月で投資を回収します。中途半端なユーザーは1年以内に破綻します。利率制限、検閲、およびパフォーマンス低下からの自由は? 無償です。 Break-even Timeline: 結論 自己ホスティング AI は進化したStart small with a single GPU and Ollama. Experiment with different models. Add agentic capabilities. Scale as needed. Most importantly, enjoy the freedom of AI that works exactly as you need it to—no compromises, no censorship, no surprises. Go from experimental curiosity to practical necessity. 強力なオープンソースモデル、成熟したソフトウェアエコシステム、およびアクセス可能なハードウェアの組み合わせは、AI 独立のための前例のない機会を作成します。 あなたがクラウドの制限、プライバシーの心配、または単に一貫したパフォーマンスを望んでいるかどうか、自己ホスティング AI への道はこれまで以上に明確です。 自己ホスティングに関する関連記事へのリンク: Ingo Eichhorst and his beautiful setup, photo of which I used for this article: https://ingoeichhorst.medium.com/building-a-wall-mounted-and-wallet-friendly-ml-rig-0683a7094704 デジタルスペースポート EPYC リグ: https://digitalspaceport.com/how-to-run-deepseek-r1-671b-fully-locally-on-2000-epyc-rig/ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > Exo Labs Cluster with 5 Mac Studio: https://www.youtube.com/watch?v=Ju0ndy2kwlw