클라우드 공급자를 통해 인공지능에 대한 민주화된 액세스의 약속으로 시작된 것은 성능 저하, 공격적인 검열 및 예측할 수없는 비용의 좌절감있는 경험으로 변했습니다.For experienced AI users, the solution increasingly lies in self-hosting. Cloud AI 성능의 숨겨진 비용 클라우드 AI 공급 업체들은 구독자를 유치하기 위해 뛰어난 성능을 발사한 다음 점차적으로 서비스 품질을 악화시켰습니다.OpenAI 사용자는 GPT-4o가 "매우 빠르게 반응하지만, 컨텍스트와 지침이 빠른 응답을 제공하기 위해 무시되고 있다면 도구는 사용할 수 없습니다." 제공자가 GPU 효율성을 위해 여러 사용자 요청을 그룹화하는 기술로, 배치 크기가 증가함에 따라 개별 요청이 최대 4배 더 오래 기다리게됩니다. Token batching 성능 악화는 단순한 지연을 초과합니다. 정적 배치가 배치의 모든 시퀀스를 함께 완료하도록 강요하므로 빠른 쿼리가 다른 사람의 긴 생성을 기다리고 있습니다. 심지어 "연속적인 배치"조차도 개별 요청을 느리게하는 오버 헤드를 도입합니다.Cloud 공급자는 사용자 경험을 파괴하지만 비즈니스 모델에 의미있는 타협으로 경험의 비용으로 전반적인 통과량을 최적화합니다. 검열 : 보안이 사용할 수 없을 때 테스트에 따르면 구글 쌍둥이는 20가지의 논란이 있지만 합법적인 질문 중 10가지에 대해 답하기를 거부한다.성폭력 생존자를위한 응용 프로그램은 "안전하지 않은 콘텐츠"로 차단됩니다. 역사적인 역할 대화는 업데이트 후 갑자기 작동을 중단합니다.정신 건강 지원 응용 프로그램은 보안 필터를 촉발합니다.인류의 Claude는 합법적인 사용 사례를 차단하는 중대한 검열에 좌절된 사용자들에 따르면 "경계가 쓸모없는"가되었습니다. 지역적 이점 자체 호스팅 AI는 이러한 좌절을 완전히 제거합니다. 올바른 하드웨어를 사용하면 로컬 추론이 1900+ 토큰/초를 달성합니다—클라우드 서비스보다 시간-to-first 토큰보다 10-100배 더 빠릅니다. 모델 버전에 대한 완전한 제어를 유지하고 작업 흐름을 깨는 원치 않는 업데이트를 방지합니다. 검열 필터가 합법적 인 콘텐츠를 차단하지 않습니다. 금액 제한이 귀하의 작업을 중단하지 않습니다. 사용 상승에서 놀라운 청구는 없습니다. 5 년 동안 클라우드 구독은 기본 액세스에 1,200+ 달러, 고급 구독에 10배 더 비용을 지불합니다. 그리고 AI 공급 업체의 가격은 증가하고 있으며 제한이 더 엄격해지고 있으며, 한 번의 하드웨어 하드웨어 요구 사항 : AI 파워하우스 구축 모델 크기 및 양을 이해하기 자기 호스팅 성공의 열쇠는 하드웨어 능력에 맞는 모델에 달려 있습니다.Modern quantization techniques compress models without significant quality loss: Quantization은 모델 무게의 정밀도를 원래의 플로이트 포인트 표현에서 낮은 비트 형식으로 줄여줍니다. 그것은 고해상도 이미지를 압축하는 것과 같습니다. - 당신은 극적으로 작은 파일 크기에 대한 몇 가지 세부 사항을 거래하고 있습니다. What is Quantization? 정량화가 없으면 대부분의 사용자에게 겸손한 언어 모델조차도 접근할 수 없을 것입니다.70B 매개 변수 모델은 대부분의 소비자 GPU보다 140GB의 메모리를 필요로합니다. 정량화는 매일의 하드웨어에서 실행되는 강력한 모델을 만들고 로컬 배포를 가능하게하고 클라우드 비용을 절감하고 더 효율적인 메모리 액세스 패턴을 통해 추론 속도를 향상시킵니다. Why Quantization Matters FP16 (Full Precision): 원본 모델 품질, 최대 메모리 요구 사항 8-bit Quantization: ~50% 메모리 감소, 최소한의 품질 영향 4-bit Quantization: ~75% 메모리 감소, 약간의 품질 거래 2-bit Quantization: ~87.5% 메모리 감소, 눈에 띄는 품질 악화 7B 매개 변수 모델의 경우 14GB(FP16), 7GB (8비트), 3.5GB (4비트) 또는 1.75GB (2비트)의 메모리가 필요합니다. 인기있는 오픈소스 모델과 그 요구 사항 Small Models (1.5B-8B parameters): Qwen3 4B/8B: 하이브리드 사고 모드를 갖춘 최신 세대. Qwen3-4B는 프로그래밍 작업에서 많은 72B 모델을 뛰어넘는다. ~3-6GB는 4비트 정량화에 필요합니다. DeepSeek-R1 7B: 우수한 추론 능력, 4GB RAM 최소 Mistral Small 3.1 24B: 멀티모델 기능, 128K 컨텍스트 윈도우 및 150 토큰/초 성능을 갖춘 최신 Apache 2.0 모델. Medium Models (14B-32B parameters): GPT-OSS 20B: 2019년 이후 OpenAI 최초의 오픈 모델, Apache 2.0 라이센스. 3.6B 활성 매개 변수를 가진 MoE 아키텍처는 o3-mini 성능을 제공합니다. RTX 4080에서 16GB VRAM로 실행 Qwen3 14B/32B: 생각 모드 기능을 갖춘 밀도가 높은 모델. Qwen3-14B는 Qwen2.5-32B 성능과 일치하며 더욱 효율적입니다. DeepSeek-R1 14B: RTX 3070 Ti/4070에 최적화 Mistral Small 3.2: 최신 업데이트, 개선된 지침 추적 및 최소한의 반복 Large Models (70B+ parameters): Llama 3.3 70B: ~35GB 4비트 양자화, Dual RTX 4090 또는 A100 필요 DeepSeek-R1 70B: 48GB VRAM 권장, 2x RTX 4090로 달성 GPT-OSS 120B: 128 전문가 MoE를 통해 5.1B 활성 매개 변수를 가진 OpenAI의 선도적 인 오픈 모델 O4 미니 성능, 단일 H100 (80GB) 또는 2-4x RTX 3090s에서 실행 Qwen3-235B-A22B: 22B 활성 매개 변수를 가진 깃발 MoE 모델, o3-mini와 경쟁 DeepSeek-R1 671B: 480GB+ VRAM 또는 전문 설정이 필요한 거인 전문 코딩 모델 : Small Coding Models (1B-7B active parameters): Qwen3-Coder 30B-A3B: 단지 3.3B 활성 매개 변수를 가진 MoE 모델. 네이티브 256K 컨텍스트 (1M with YaRN) 리포토리 스케일 작업을 위해. RTX 3060 12GB에서 4비트 정량화 Qwen3-Coder 30B-A3B-FP8: 95 % 이상의 성능을 유지하는 공식 8 비트 정량화 15GB VRAM, RTX 4070/3080에 최적화 Unsloth Qwen3-Coder 30B-A3B: 고정 도구 호출을 가진 역동적 인 정량화 Q4_K_M은 12GB에서 실행되며 Q4_K_XL은 18GB에서 더 나은 품질로 실행됩니다. Large Coding Models (35B+ active parameters): Qwen3-Coder 480B-A35B: 160 전문가 MoE를 통해 35B를 활성화하는 플래그시브 에이전트 모델 SWE 벤치에서 61.8%를 달성하며 Claude Sonnet 4와 비교할 수 있습니다. Qwen3-Coder 480B-A35B-FP8: 공식 8 비트 메모리 250GB로 줄이기. 4x H100 80GB 또는 4x A100 80GB에서 실행 Unsloth Qwen3-Coder 480B-A35B: 276GB의 Q2_K_XL은 4x RTX 4090 + 180GB RAM에서 실행됩니다. 예산에 따라 하드웨어 구성 Budget Build (~$2,000): AMD Ryzen 7 7700X 프로세서 64GB DDR5-5600 RAM PowerColor RX 7900 XT 20GB 또는 사용된 RTX 3090 14B까지의 모델을 편안하게 사용할 수 있습니다. Performance Build (~$4,000): AMD 리젠 9 7900X 128GB DDR5-5600 RAM RTX 4090 24GB 32B 모델을 효율적으로 실행하고, 미끄러지는 70B 모델을 작게 실행합니다. Professional Setup (~$8,000): Dual Xeon/EPYC 프로세서 256GB + RAM 2x RTX 4090 또는 RTX A6000 생산 속도로 70B 모델을 처리 Mac Options: MacBook M1 Pro 36GB: 7B-14B 모델, 통합 메모리 장점 Mac Mini M4 64GB: 32B 모델과 함께 편안함 Mac Studio M3 Ultra 512GB: 최종 옵션 - DeepSeek-R1 671B를 17-18 토큰/초에서 ~$10,000에 실행 초대형 모델의 경우 AMD EPYC 시스템은 뛰어난 가치를 제공합니다. 512GB-1TB DDR4를 갖춘 EPYC 7702 시스템은 DeepSeek-R1 671B에서 3.5-8 토큰/초를 제공합니다. The AMD EPYC Alternative: 이 구성은 DeepSeek-R1 671B를 3.5-4.25 토큰/초로 실행할 수 있습니다. The $2,000 EPYC Build (Digital Spaceport Setup): CPU: AMD EPYC 7702 (64 코어) - 650 달러 또는 EPYC 7C13/7V13로 업그레이드 - 599-735 달러 모더 보드: MZ32-AR0 (16 DIMM 슬롯, 3200MHz 지원) - $500 메모리: 16x 32GB DDR4-2400 ECC (512GB 총) - $400, 또는 16x 64GB 1TB - $800 스토리지: 1TB Samsung 980 Pro NVMe - $75 코사어 H170i 엘리트 Capellix XT - $170 PSU: 850W (CPU-only) 또는 1500W (미래 GPU 확장) - $80-150 케이스: Rack frame - $55 : ~$2,000 512GB, ~$2,500 1TB 구성 Total Cost Performance Results: DeepSeek-R1 671B Q4 : 3.5-4.25 토큰 / 초 컨텍스트 윈도우: 16K+ 지원 Power Draw: 60W idle, 260W 충전 메모리 대역폭: 비판적 - 더 빠른 DDR4-3200은 성능을 크게 향상시킵니다. 이 설정은 대규모 모델이 CPU-only 시스템에서 저렴하게 실행할 수 있다는 것을 증명하며, GPU 요구 사항없이 경계 AI를 이용할 수 있습니다.The dual-socket capability and massive memory support make EPYC ideal for models that exceed GPU VRAM limits. Source: Digital Spaceport - Deepseek R1 671b를 2000 달러의 EPYC 서버에서 완전히 로컬로 실행하는 방법 디지털 스페이스포트 - 2000 달러 EPYC 서버에서 Deepseek R1 671b를 완전히 로컬로 실행하는 방법 소프트웨어 설치: 설치부터 생산까지 오일라마: The Foundation Ollama는 전력을 희생하지 않고도 단순함을 제공하는 로컬 모델 배포의 de facto 표준이되었습니다. Installation: # Linux/macOS curl -fsSL https://ollama.com/install.sh | sh # Windows: Download installer from ollama.com/download Essential Configuration: # Optimize for performance export OLLAMA_HOST="0.0.0.0:11434" # Enable network access export OLLAMA_MAX_LOADED_MODELS=3 # Concurrent models export OLLAMA_NUM_PARALLEL=4 # Parallel requests export OLLAMA_FLASH_ATTENTION=1 # Enable optimizations export OLLAMA_KV_CACHE_TYPE="q8_0" # Quantized cache # Download models ollama pull qwen3:4b ollama pull qwen3:8b ollama pull mistral-small3.1 ollama pull deepseek-r1:7b 다중 GPU 설정의 경우 별도의 Ollama 인스턴스를 실행합니다: Running Multiple Instances: # GPU 1 CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST="0.0.0.0:11434" ollama serve # GPU 2 CUDA_VISIBLE_DEVICES=1 OLLAMA_HOST="0.0.0.0:11435" ollama serve Exo.labs: Distributed Inference Magic에 대한 리뷰 보기 Exo.labs는 여러 장치에서 대규모 모델을 실행할 수 있습니다 - 심지어 MacBooks, PC 및 Raspberry Pis를 혼합 할 수 있습니다. Installation: git clone https://github.com/exo-explore/exo.git cd exo pip install -e . 단순히 달리기 네트워크의 모든 장치에서 서로를 자동으로 발견하고 모델 계산을 배포합니다. 3x M4 Pro Mac을 사용하면 Llama 3.2 3B에서 초당 108.8 토큰을 얻을 수 있습니다. Usage: exo GUI 옵션 최고의 ChatGPT 같은 경험을 제공합니다: Open WebUI docker run -d -p 3000:8080 --gpus=all \ -v ollama:/root/.ollama \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:ollama 액세스 at RAG 지원, 다중 사용자 관리 및 플러그인 시스템을 갖춘 완벽한 인터페이스를 위해 http://localhost:3000 가장 간단한 데스크톱 경험을 제공합니다: GPT4All 다운로드 from gpt4all.io for Windows, macOS, or Linux 자동 Ollama 감지와 함께 한 번의 클릭 설치 내장 모델 브라우저 및 다운로드 매니저 네이티브 데스크톱 앱을 원하는 초보자를위한 완벽한 로컬 문서 채팅 및 플러그인 지원 강력한 개발 중심 인터페이스를 제공합니다: AI Studio 다중 모델 비교 및 테스트 기능 빠른 엔지니어링 작업 공간 API 엔드포인트 관리 및 테스트 모델 성능 분석 및 벤치마킹 Ollama, LocalAI 및 사용자 지정 백엔드 지원 개발자와 AI 연구자를위한 이상적인 기능에는 대화 분할, 인스턴트 템플릿 및 내보내기 옵션이 포함됩니다.Features include conversation branching, prompt templates, and export options. 창조적 인 응용 프로그램 및 캐릭터 기반 상호 작용을 위해 우수하며 역할 플레이 및 창조적 인 쓰기 시나리오를위한 광범위한 사용자 정의를 제공합니다. SillyTavern Tailscale를 사용하여 원격 액세스 : 귀하의 AI는 어디서나 AI 자체 호스팅의 가장 강력한 측면 중 하나는 완전한 개인 정보 보호를 유지하면서 어디서나 모델에 액세스 할 수있는 능력입니다.Tailscale VPN은 모든 장치 사이에 안전한 메쉬 네트워크를 만드는 것에 의해이를 매우 쉽게 만듭니다. Remote AI Access를 위한 Tailscale 설정 Install Tailscale on your AI server: # Linux/macOS curl -fsSL https://tailscale.com/install.sh | sh sudo tailscale up # Windows: Download from tailscale.com/download Configure Ollama for network access: # Set environment variable to listen on all interfaces export OLLAMA_HOST="0.0.0.0:11434" ollama serve (노트북, 전화, 태블릿) 동일한 계정을 사용하여 모든 장치가 자동으로 고유 IP 주소 (일반적으로 100.x.x.x 범위)를 가진 개인 메시 네트워크에 나타납니다. Install Tailscale on client devices Check your server's Tailscale IP: tailscale ip -4 # Example output: 100.123.45.67 Access from any device on your Tailnet: 웹 인터페이스: http://100.123.45.67:3000 (Open WebUI) API 엔드포인트: http://100.123.45.67:11434/v1/chat/completions 모바일 앱: Ollama 엔드포인트를 Tailscale IP로 구성하기 Advanced Tailscale Configuration에 대한 리뷰 보기 전체 홈 네트워크에 액세스하려면: Enable subnet routing # On AI server sudo tailscale up --advertise-routes=192.168.1.0/24 # Replace with your actual subnet 자동 인증서를 가진 HTTPS의 경우: Use Tailscale Serve # Expose Open WebUI with HTTPS tailscale serve https / http://localhost:3000 이것은 공개 URL을 만듭니다.This creates a public URL like Tailscale 네트워크에만 액세스할 수 있습니다. https://your-machine.your-tailnet.ts.net 모바일 액세스 설정 iOS/Android 장치의 경우: App Store/Play Store에서 Tailscale 앱을 설치합니다. 동일한 계좌로 로그인 Install compatible apps: : Enchanted, Mela, or any OpenAI-compatible client iOS : Ollama Android app, or web browser Android Tailscale IP를 사용하도록 앱을 구성하세요: http://100.123.45.67:11434 보안 최선의 관행 Tailscale는 암호화된 메시 네트워크를 통해 기본적으로 보안을 제공합니다 - 추가적인 방화벽 구성이 필요하지 않습니다! WireGuard를 사용하여 모든 트래픽을 자동으로 암호화 네트워크에서 인증된 장치만 허용 라우터를 완전히 우회하는 고립된 연결을 만듭니다.Creates isolated connections that bypass your router entirely. 공공 인터넷에서 허가되지 않은 액세스를 방지합니다. Tailscale 트래픽은 암호화되며 귀하의 인증된 장치에만 액세스할 수 있기 때문에 Ollama 서버는 원격으로 액세스할 때에도 완전히 개인적으로 유지됩니다.포트 전송, VPS 설정, 복잡한 방화벽 규칙은 없습니다. Tailscale을 사용하면 자주 호스팅되는 AI가 진정으로 휴대용이되며, 카페에 가거나 여행 중이거나 다른 위치에서 일하든지 완전한 개인 정보 보호로 모델에 액세스할 수 있습니다.The encrypted mesh network ensures your AI conversations never leave your control. 에이전트 워크플로우 : 실제로 작동하는 AI Goose from Block 근처 오락거리 Goose는 지역 모델을 전체 프로젝트를 구축할 수 있는 자율 개발 조수로 변환합니다. Installation: curl -fsSL https://github.com/block/goose/releases/download/stable/download_cli.sh | bash Configuration for Ollama: goose configure # Select: Configure Providers → Custom → Local # Base URL: http://localhost:11434/v1 # Model: qwen3:8b Goose는 코드 마이그레이션, 성능 최적화, 테스트 생성 및 복잡한 개발 워크플로우에서 우수합니다.Goose는 간단한 코드 완료와 달리 전체 개발 작업을 계획하고 자율적으로 수행합니다. Crush from Charm 근처 오락거리 터미널 애호가를 위해, Crush는 깊은 IDE 통합을 갖춘 매력적인 AI 코딩 에이전트를 제공합니다. Installation: brew install charmbracelet/tap/crush # macOS/Linux # or npm install -g @charmland/crush (에 대한 ) : Ollama Configuration .crush.json { "providers": { "ollama": { "type": "openai", "base_url": "http://localhost:11434/v1", "api_key": "ollama", "models": [{ "id": "qwen3:8b", "name": "Qwen3 8B", "context_window": 32768 }] } } } n8n AI 스타터 키트 시각적 작업 흐름 자동화를 위해 n8n 자체 호스팅 키트는 필요한 모든 것을 결합합니다. git clone https://github.com/n8n-io/self-hosted-ai-starter-kit.git cd self-hosted-ai-starter-kit docker compose --profile gpu-nvidia up Visual Workflow Editor에 액세스하기 400개 이상의 통합과 미리 구축된 AI 템플릿 http://localhost:5678/ 기업 규모의 추론 : 50 백만 토큰 / 시간 설정 극단적 인 성능을 요구하는 조직의 경우, 자체 호스팅의 경계는 전통적인 홈 서버를 훨씬 넘어, 예를 들어 @nisten setup on X. 모델: Qwen3-Coder-480B (480B 매개 변수, 35B 활성 MoE 아키텍처) 하드웨어: 4x Nvidia H200 출력 : 50 백만 토큰 / 시간 (Sonnet을 사용하는 경우 약 $ 250 / 시간) 비용 분석 Initial Investment: 예산 설정 : ~$2,000 성능 설정: ~$4,000 전문 설정 : ~$9,000 Operational Costs: 전기 : $ 50-200 / 월 제로 API 요금 사용 제한 없음 전체 비용 예측 가능성 무거운 사용자는 3-6 개월 이내에 투자를 회수합니다.적당한 사용자는 1 년 이내에 심지어 끊습니다.금리 제한, 검열 및 성능 악화로부터의 자유? Break-even Timeline: 결론 스스로 호스팅하는 AI는 진화했습니다. 단일 GPU와 Ollama로 소규모로 시작하십시오. 다른 모델을 실험하십시오. 에이전트 기능을 추가하십시오. 필요에 따라 규모를 확장하십시오. 가장 중요한 것은 AI의 자유를 당신이 필요로하는 방식으로 작동하는 것을 즐기십시오.협상 없음, 검열 없음, 놀라움 없음. 실험적인 호기심에서 실용적인 필요성으로 이동하십시오. 강력한 오픈 소스 모델, 성숙한 소프트웨어 생태계 및 접근 가능한 하드웨어의 조합은 AI 독립을위한 전례가없는 기회를 창출합니다. 클라우드 제한에 좌절하고, 개인 정보 보호에 대해 걱정하거나 단순히 일관된 성능을 원하든, 스스로 호스팅하는 AI 자기 호스팅에 관한 관련 기사에 대한 링크: Ingo Eichhorst와 그의 아름다운 설정, 내가이 기사를 위해 사용 한 사진: https://ingoeichhorst.medium.com/building-a-wall-mounted-and-wallet-friendly-ml-rig-0683a7094704 디지털 스페이스 포트 EPYC 기계: https://digitalspaceport.com/how-to-run-deepseek-r1-671b-fully-locally-on-2000-epyc-rig/ 로컬에서 당신의 리그 트레일을 보여주십시오LLaMa subreddit: https://www.reddit.com/r/LocalLLaMA/comments/1fqwler/show_me_your_ai_rig/ 벤 아렌트 AI homelab: https://benarent.co.uk/blog/ai-homelab/ Exo Labs 클러스터 5 맥 스튜디오 : https://www.youtube.com/watch?v=Ju0ndy2kwlw