1,364 판독값

AI에 가장 적합한 서버, CPU 및 GPU를 어떻게 선택합니까?

~에 의해 Hostkey.com5m2024/04/18

너무 오래; 읽다

인공지능은 다양한 산업에서 매우 중요해졌습니다. 적절한 프로세서와 그래픽 카드를 선택하면 고성능 플랫폼을 설정할 수 있습니다. 그래픽 가속기 선택이나 서버에 설치된 RAM 용량은 CPU 유형 선택보다 더 큰 영향을 미칩니다.

featured image - AI에 가장 적합한 서버, CPU 및 GPU를 어떻게 선택합니까?

생성 인공 지능과 그 실제 응용 프로그램의 개발로 인해 인공 지능용 서버를 만드는 것은 자동차 제조부터 의료, 교육 및 정부 기관에 이르기까지 다양한 산업에서 매우 중요해졌습니다.

인공지능용 서버 선택에 영향을 미치는 가장 중요한 구성 요소인 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU)를 고려해 보겠습니다. 적절한 프로세서와 그래픽 카드를 선택하면 고성능 플랫폼을 설정하고 전용 또는 가상(VPS) 서버에서 인공 지능과 관련된 계산을 크게 가속화할 수 있습니다.

즉시 배포 가능한 GPU 서버 임대 또는 맞춤 구성 전문가급 NVIDIA Tesla H100/H100 80Gb 또는 RTX A5000/A4000 카드 사용. 게임 RTX4090 카드가 포함된 GPU 서버 또한 사용 가능합니다.

AI 서버에 적합한 프로세서를 어떻게 선택합니까?

프로세서는 사용자로부터 명령을 받고 "명령 주기"를 수행하여 원하는 결과를 얻는 주요 "계산기"입니다. 따라서 AI 서버를 그토록 강력하게 만드는 가장 큰 부분은 CPU입니다.

AMD와 Intel 프로세서 간의 비교를 기대할 수 있습니다. 예, 이 두 업계 리더는 x86 기반 CISC 프로세서의 정점을 대표하는 Intel 5세대 Intel® Xeon®(이미 발표된 6세대) 및 AMD EPYC™ 8004/9004 라인업을 통해 프로세서 제조의 선두에 서 있습니다.

성숙하고 입증된 생태계와 결합된 탁월한 성능을 찾고 있다면 이러한 칩 제조업체의 최고급 제품을 선택하는 것이 올바른 선택이 될 것입니다. 예산이 문제라면 이전 버전의 Intel® Xeon® 및 AMD EPYC™ 프로세서를 고려해 보십시오.

워크로드에 많은 수의 코어와 멀티스레딩 기능이 필요하지 않은 경우 AMD 또는 Nvidia의 고급 모델의 데스크톱 CPU도 AI 작업을 위한 좋은 출발점이 될 것입니다. 실제로 언어 모델의 경우 CPU 유형 선택보다 그래픽 가속기 선택이나 서버에 설치된 RAM 용량이 더 큰 영향을 미칩니다.

Mixtral의 8x7B와 같은 일부 모델은 CPU에서 실행될 때 비디오 카드에 있는 텐서 코어의 컴퓨팅 성능과 비슷한 결과를 생성할 수 있지만 CPU + GPU 번들보다 2~3배 더 많은 RAM이 필요합니다. 예를 들어, 16GB RAM과 24GB GPU 비디오 메모리에서 실행되는 모델은 CPU에서만 실행될 때 최대 64GB RAM이 필요할 수 있습니다.

AMD 및 Intel 외에도 사용 가능한 다른 옵션이 있습니다. 이는 ARM 코어와 특허 받은 NVIDIA 기능을 결합한 NVIDIA Grace™ 또는 Ampere Altra™와 같은 ARM 아키텍처 기반 솔루션일 수 있습니다.

AI 서버에 적합한 그래픽 처리 장치(GPU)를 어떻게 선택합니까?

GPU는 오늘날 AI 서버 운영에서 점점 더 중요한 역할을 하고 있습니다. 이는 CPU가 신경망에 대한 요청을 훨씬 더 빠르고 효율적으로 처리하도록 돕는 가속기 역할을 합니다. GPU는 작업을 더 작은 세그먼트로 나누고 병렬 컴퓨팅이나 특수 코어를 사용하여 동시에 수행할 수 있습니다. 예를 들어 NVIDIA의 텐서 코어는 Transformer Engine, Tensor Float 32(TF32) 및 FP16을 사용한 8비트 부동 소수점(FP8) 계산에서 훨씬 더 높은 성능을 제공하여 고성능 컴퓨팅(HPC)에서 탁월한 결과를 보여줍니다.

이는 특히 추론(신경망 작동) 중에는 눈에 띄지 않지만, 예를 들어 FP32를 사용하는 모델의 경우 이 프로세스는 몇 주 또는 몇 달이 걸릴 수 있습니다.

검색 기준의 범위를 좁히려면 다음 질문을 고려하십시오.

시간이 지남에 따라 AI 서버의 워크로드 특성이 변합니까? 대부분의 최신 GPU는 매우 특정한 작업을 위해 설계되었습니다. 칩의 아키텍처는 AI 개발 또는 애플리케이션의 특정 영역에 적합할 수 있으며, 새로운 하드웨어 및 소프트웨어 솔루션은 단 몇 년 안에 이전 세대의 GPU를 쓸모없게 만들 수 있습니다(1-2-3).
AI 훈련이나 추론(사용)에 주로 중점을 두나요? 이 두 프로세스는 메모리 예산이 제한된 모든 최신 AI 반복의 기초입니다.

훈련 중에 AI 모델은 수십억 또는 심지어 수조 개의 매개변수가 포함된 대량의 데이터를 처리합니다. 일관되게 올바른 결과를 생성할 수 있을 때까지 알고리즘의 "가중치"를 조정합니다.

추론 모드에서 AI는 훈련의 "메모리"를 사용하여 실제 세계의 새로운 입력 데이터에 반응합니다. 두 프로세스 모두 상당한 컴퓨팅 리소스가 필요하므로 가속을 위해 GPU 및 확장 모듈이 설치됩니다.

GPU(그래픽 처리 장치)는 이 프로세스를 최적화할 수 있는 특수 코어와 메커니즘을 갖춘 딥 러닝 모델을 교육하기 위해 특별히 설계되었습니다. 예를 들어, 8개의 GPU 코어를 갖춘 NVIDIA의 H100은 FP8 딥 러닝에서 32페타플롭 이상의 성능을 제공합니다. 각 H100에는 FP8이라는 새로운 유형의 데이터를 사용하는 4세대 텐서 코어와 최적화를 위한 "Transformer Engine"이 포함되어 있습니다. 최근 NVIDIA는 더욱 강력한 차세대 GPU인 B200을 출시했습니다.

AMD 솔루션의 강력한 대안은 AMD Instinct™ MI300X입니다. 대용량 메모리와 높은 데이터 대역폭이 특징으로, 이는 LLM(대형 언어 모델)과 같은 추론 기반 생성 AI 애플리케이션에 중요합니다. AMD는 자사의 GPU가 NVIDIA의 솔루션보다 30% 더 효율적이지만 소프트웨어의 완성도가 낮다고 주장합니다.

예산 제약에 맞추기 위해 약간의 성능을 희생해야 하거나 AI 훈련을 위한 데이터 세트가 너무 크지 않은 경우 AMD 및 NVIDIA의 다른 옵션을 고려할 수 있습니다. 추론 작업의 경우 또는 교육을 위해 연중무휴 모드에서 지속적인 작업이 필요하지 않은 경우 Nvidia RTX 4090 또는 RTX 3090 기반의 "소비자" 솔루션이 적합할 수 있습니다.

모델 훈련을 위한 장기 계산에서 안정성을 찾고 있다면 NVIDIA의 RTX A4000 또는 A5000 카드를 고려해 볼 수 있습니다. PCIe 버스가 있는 H100은 작업에 따라 60~80% 성능의 더 강력한 솔루션을 제공할 수 있지만 RTX A5000은 더 접근하기 쉬운 옵션이며 특정 작업(예: 8x7B와 같은 모델 작업)에 최적의 선택이 될 수 있습니다.

좀 더 이국적인 추론 솔루션을 원한다면 AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core 및 Qualcomm® Cloud AI 100과 같은 카드를 고려할 수 있습니다. 가까운 미래에 AMD와 NVIDIA는 AI 훈련 시장에서 Intel의 GPU Gaudi 3를 능가할 계획입니다. .

이러한 모든 요소를 고려하고 HPC 및 AI에 대한 소프트웨어 최적화를 고려하여 Intel Xeon 또는 AMD Epyc 프로세서와 NVIDIA의 GPU를 탑재한 서버를 권장합니다. AI 추론 작업의 경우 RTX A4000/A5000부터 RTX 3090까지의 GPU를 사용할 수 있으며, 다중 모달 신경망에 대한 교육 및 작업의 경우 RTX 4090부터 A100/H100까지의 솔루션에 예산을 할당하는 것이 좋습니다.