Avec le développement de l'intelligence artificielle générative et de ses applications pratiques, la création de serveurs pour l'intelligence artificielle est devenue essentielle pour diverses industries - de la construction automobile à la médecine, ainsi que pour les institutions éducatives et gouvernementales.
Considérons les composants les plus importants qui affectent le choix d'un serveur pour l'intelligence artificielle : l'unité centrale (CPU) et l'unité de traitement graphique (GPU). Choisir des processeurs et des cartes graphiques adaptés vous permettra de mettre en place une plateforme performante et d'accélérer considérablement les calculs liés à l'intelligence artificielle sur un serveur dédié ou virtuel (VPS).
Louez des serveurs GPU avec déploiement instantané ou un serveur avec unconfiguration personnalisée avec des cartes NVIDIA Tesla H100 / H100 80 Go ou RTX A5000 / A4000 de qualité professionnelle.Serveurs GPU avec cartes de jeu RTX4090 sont également disponibles.
Le processeur est le principal « calculateur » qui reçoit les commandes des utilisateurs et exécute des « cycles de commandes » qui produiront les résultats souhaités. Par conséquent, une grande partie de ce qui rend un serveur IA si puissant est son processeur.
Vous pourriez vous attendre à une comparaison entre les processeurs AMD et Intel. Oui, ces deux leaders de l'industrie sont à la pointe de la fabrication de processeurs, avec la gamme Intel® Xeon® de 5e génération (et déjà annoncée pour la 6e génération) et AMD EPYC™ 8004/9004 représentant le summum des processeurs CISC x86.
Si vous recherchez d’excellentes performances combinées à un écosystème mature et éprouvé, sélectionner des produits haut de gamme auprès de ces fabricants de puces serait le bon choix. Si le budget est un problème, envisagez les anciennes versions des processeurs Intel® Xeon® et AMD EPYC™.
Même les processeurs de bureau d'AMD ou des modèles haut de gamme de Nvidia constitueraient un bon point de départ pour travailler avec l'IA si votre charge de travail ne nécessite pas un grand nombre de cœurs et de capacités multithreading. En pratique, lorsqu'il s'agit de modèles de langage, le choix de l'accélérateur graphique ou la quantité de RAM installée dans le serveur aura un impact plus important que le choix entre les types de CPU.
Bien que certains modèles, tels que le 8x7B de Mixtral, puissent produire des résultats comparables à la puissance de calcul des cœurs tenseurs des cartes vidéo lorsqu'ils sont exécutés sur un processeur, ils nécessitent également 2 à 3 fois plus de RAM qu'un ensemble CPU + GPU. Par exemple, un modèle fonctionnant avec 16 Go de RAM et 24 Go de mémoire vidéo GPU peut nécessiter jusqu'à 64 Go de RAM lorsqu'il est exécuté uniquement sur le processeur.
En plus d'AMD et d'Intel, d'autres options sont disponibles. Il peut s'agir de solutions basées sur l'architecture ARM, comme NVIDIA Grace™, qui combine des cœurs ARM avec des fonctionnalités brevetées NVIDIA, ou Ampere Altra™.
Le GPU joue aujourd’hui un rôle de plus en plus important dans les opérations des serveurs d’IA. Il sert d'accélérateur qui aide le processeur à traiter les requêtes vers les réseaux neuronaux beaucoup plus rapidement et plus efficacement. Le GPU peut diviser les tâches en segments plus petits et les exécuter simultanément à l'aide de calculs parallèles ou de cœurs spécialisés. Par exemple, les cœurs tenseurs de NVIDIA offrent des performances bien supérieures dans les calculs à virgule flottante (FP8) 8 bits avec Transformer Engine, Tensor Float 32 (TF32) et FP16, montrant d'excellents résultats en calcul haute performance (HPC).
Ceci est particulièrement visible non pas lors de l'inférence (le fonctionnement du réseau neuronal), mais lors de l'entraînement, comme par exemple pour les modèles avec FP32, ce processus peut prendre plusieurs semaines, voire plusieurs mois.
Pour affiner vos critères de recherche, réfléchissez aux questions suivantes :
Pendant l’entraînement, le modèle d’IA traite une grande quantité de données avec des milliards, voire des milliards de paramètres. Il ajuste les « poids » de ses algorithmes jusqu'à ce qu'il puisse générer systématiquement des résultats corrects.
En mode inférence, l'IA s'appuie sur la « mémoire » de son entraînement pour répondre aux nouvelles données d'entrée dans le monde réel. Les deux processus nécessitent des ressources de calcul importantes, c'est pourquoi des GPU et des modules d'extension sont installés pour l'accélération.
Les unités de traitement graphique (GPU) sont spécialement conçues pour former des modèles d'apprentissage en profondeur avec des cœurs et des mécanismes spécialisés capables d'optimiser ce processus. Par exemple, le H100 de NVIDIA avec 8 cœurs GPU offre plus de 32 pétaflops de performances en apprentissage profond FP8. Chaque H100 contient des cœurs tenseurs de quatrième génération utilisant un nouveau type de données appelé FP8 et un « Transformer Engine » pour l'optimisation. Récemment, NVIDIA a présenté la prochaine génération de ses GPU, le B200, qui sera encore plus puissant.
L'AMD Instinct™ MI300X constitue une alternative intéressante aux solutions AMD. Sa caractéristique est une grande capacité de mémoire et une bande passante de données élevée, ce qui est important pour les applications d'IA générative basées sur l'inférence, telles que les grands modèles de langage (LLM). AMD affirme que ses GPU sont 30 % plus efficaces que les solutions NVIDIA mais disposent de logiciels moins matures.
Si vous devez sacrifier un peu de performances pour respecter les contraintes budgétaires ou si votre ensemble de données pour entraîner l'IA n'est pas trop volumineux, vous pouvez envisager d'autres options d'AMD et NVIDIA. Pour les tâches d'inférence ou lorsqu'un fonctionnement continu en mode 24h/24 et 7j/7 pour la formation n'est pas requis, des solutions « grand public » basées sur Nvidia RTX 4090 ou RTX 3090 peuvent convenir.
Si vous recherchez de la stabilité dans les calculs à long terme pour la formation de modèles, vous pouvez envisager les cartes RTX A4000 ou A5000 de NVIDIA. Bien que le H100 avec bus PCIe puisse offrir une solution plus puissante avec des performances de 60 à 80 % selon les tâches, le RTX A5000 est une option plus accessible et pourrait être un choix optimal pour certaines tâches (comme travailler avec des modèles comme 8x7B).
Pour des solutions d'inférence plus exotiques, vous pouvez envisager des cartes comme AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core et Qualcomm® Cloud AI 100. Dans un avenir proche, AMD et NVIDIA prévoient de surpasser le GPU Gaudi 3 d'Intel sur le marché de la formation en IA. .
Compte tenu de tous ces facteurs et en tenant compte de l'optimisation logicielle pour le HPC et l'IA, nous recommandons des serveurs équipés de processeurs Intel Xeon ou AMD Epyc et de GPU de NVIDIA. Pour les tâches d'inférence d'IA, vous pouvez utiliser des GPU du RTX A4000/A5000 au RTX 3090, tandis que pour la formation et le travail sur des réseaux neuronaux multimodaux, il est conseillé d'allouer des budgets pour des solutions du RTX 4090 au A100/H100.
Louez des serveurs GPU avec déploiement instantané ou un serveur avec unconfiguration personnalisée avec des cartes NVIDIA Tesla H100 / H100 80 Go ou RTX A5000 / A4000 de qualité professionnelle.Serveurs GPU avec cartes de jeu RTX4090 sont également disponibles.
Cette histoire a été distribuée dans le cadre du programme de blogs d'affaires de HackerNoon. En savoir plus sur le programme