Mit der Entwicklung der generativen künstlichen Intelligenz und ihrer praktischen Anwendungen ist die Schaffung von Servern für künstliche Intelligenz für zahlreiche Branchen von entscheidender Bedeutung geworden – vom Automobilbau bis zur Medizin sowie für Bildungs- und Regierungseinrichtungen.
Betrachten wir die wichtigsten Komponenten, die die Auswahl eines Servers für künstliche Intelligenz beeinflussen: die zentrale Verarbeitungseinheit (CPU) und die Grafikverarbeitungseinheit (GPU). Durch die Auswahl geeigneter Prozessoren und Grafikkarten können Sie eine Hochleistungsplattform einrichten und Berechnungen im Zusammenhang mit künstlicher Intelligenz auf einem dedizierten oder virtuellen (VPS) Server erheblich beschleunigen.
GPU-Server mit sofortiger Bereitstellung mieten oder ein Server mit einemBenutzerdefinierte Konfiguration mit professionellen NVIDIA Tesla H100/H100 80Gb- oder RTX A5000/A4000-Karten.GPU-Server mit RTX4090-Spielekarten sind ebenfalls verfügbar.
Der Prozessor ist der wichtigste „Rechner“, der Befehle von Benutzern empfängt und „Befehlszyklen“ ausführt, die die gewünschten Ergebnisse liefern. Ein großer Teil dessen, was einen KI-Server so leistungsstark macht, ist daher seine CPU.
Sie erwarten vielleicht einen Vergleich zwischen AMD- und Intel-Prozessoren. Tatsächlich sind diese beiden Branchenführer führend in der Prozessorherstellung, wobei die Produktpalette aus Intel® Xeon® der 5. Generation (und der bereits angekündigten 6. Generation) und AMD EPYC™ 8004/9004 den Höhepunkt der x86-basierten CISC-Prozessoren darstellt.
Wenn Sie nach hervorragender Leistung in Kombination mit einem ausgereiften und bewährten Ökosystem suchen, sind die Spitzenprodukte dieser Chiphersteller die richtige Wahl. Wenn das Budget eine Rolle spielt, sollten Sie ältere Versionen der Intel® Xeon®- und AMD EPYC™-Prozessoren in Betracht ziehen.
Selbst Desktop-CPUs von AMD oder höherwertige Modelle von Nvidia wären ein guter Ausgangspunkt für die Arbeit mit KI, wenn Ihre Arbeitslast keine große Anzahl von Kernen und Multithreading-Fähigkeiten erfordert. In der Praxis wird bei Sprachmodellen die Wahl des Grafikbeschleunigers oder die im Server installierte RAM-Menge einen größeren Einfluss haben als die Wahl zwischen CPU-Typen.
Während einige Modelle, wie das 8x7B von Mixtral, bei Betrieb auf einer CPU Ergebnisse erzielen können, die mit der Rechenleistung von Tensor-Kernen in Grafikkarten vergleichbar sind, benötigen sie auch 2-3 Mal mehr RAM als ein CPU + GPU-Paket. Beispielsweise kann ein Modell, das mit 16 GB RAM und 24 GB GPU-Videospeicher läuft, bis zu 64 GB RAM benötigen, wenn es nur auf der CPU läuft.
Neben AMD und Intel stehen noch weitere Optionen zur Verfügung. Dies können Lösungen sein, die auf der ARM-Architektur basieren, wie NVIDIA Grace™, das ARM-Kerne mit patentierten NVIDIA-Funktionen kombiniert, oder Ampere Altra™.
Die GPU spielt heute im KI-Serverbetrieb eine immer wichtigere Rolle. Sie dient als Beschleuniger, der der CPU hilft, Anfragen an neuronale Netzwerke viel schneller und effizienter zu verarbeiten. Die GPU kann Aufgaben in kleinere Segmente aufteilen und diese mithilfe von Parallel Computing oder spezialisierten Kernen gleichzeitig ausführen. Beispielsweise bieten die Tensor-Kerne von NVIDIA bei 8-Bit-Gleitkommaberechnungen (FP8) mit Transformer Engine, Tensor Float 32 (TF32) und FP16 eine um Größenordnungen höhere Leistung und zeigen hervorragende Ergebnisse beim High-Performance-Computing (HPC).
Dies macht sich insbesondere nicht während der Inferenz (dem Betrieb des neuronalen Netzwerks) bemerkbar, sondern während des Trainings, da dieser Vorgang beispielsweise bei Modellen mit FP32 mehrere Wochen oder sogar Monate dauern kann.
Um Ihre Suchkriterien einzugrenzen, berücksichtigen Sie die folgenden Fragen:
Während des Trainings verarbeitet das KI-Modell eine große Menge an Daten mit Milliarden oder gar Billionen von Parametern. Es passt die „Gewichte“ seiner Algorithmen so lange an, bis es durchgängig korrekte Ergebnisse liefern kann.
Im Inferenzmodus verlässt sich die KI auf das „Gedächtnis“ ihres Trainings, um auf neue Eingabedaten in der realen Welt zu reagieren. Beide Prozesse erfordern erhebliche Rechenressourcen, daher werden zur Beschleunigung GPUs und Erweiterungsmodule installiert.
Grafikprozessoren (GPUs) sind speziell für das Training von Deep-Learning-Modellen konzipiert und verfügen über spezialisierte Kerne und Mechanismen, die diesen Prozess optimieren können. So bietet beispielsweise NVIDIAs H100 mit 8 GPU-Kernen mehr als 32 Petaflops Leistung beim FP8-Deep-Learning. Jeder H100 enthält Tensorkerne der vierten Generation, die einen neuen Datentyp namens FP8 verwenden, und eine „Transformer Engine“ zur Optimierung. Vor Kurzem hat NVIDIA die nächste Generation seiner GPUs vorgestellt, die B200, die noch leistungsstärker sein wird.
Eine starke Alternative zu AMD-Lösungen ist der AMD Instinct™ MI300X. Er zeichnet sich durch eine große Speicherkapazität und hohe Datenbandbreite aus, was für inferenzbasierte generative KI-Anwendungen wie große Sprachmodelle (LLM) wichtig ist. AMD behauptet, dass seine GPUs 30 % effizienter sind als die Lösungen von NVIDIA, verfügen aber über weniger ausgereifte Software.
Wenn Sie aufgrund des Budgets etwas Leistung opfern müssen oder Ihr Datensatz zum Trainieren der KI nicht zu groß ist, können Sie andere Optionen von AMD und NVIDIA in Betracht ziehen. Für Inferenzaufgaben oder wenn kein Dauerbetrieb im 24/7-Modus zum Trainieren erforderlich ist, können „Consumer“-Lösungen auf Basis von Nvidia RTX 4090 oder RTX 3090 geeignet sein.
Wenn Sie Stabilität bei Langzeitberechnungen für das Modelltraining suchen, können Sie die RTX A4000- oder A5000-Karten von NVIDIA in Betracht ziehen. Obwohl die H100 mit PCIe-Bus je nach Aufgaben eine leistungsstärkere Lösung mit 60-80 % Leistung bieten kann, ist die RTX A5000 eine zugänglichere Option und könnte für bestimmte Aufgaben (z. B. die Arbeit mit Modellen wie 8x7B) die optimale Wahl sein.
Für exotischere Inferenzlösungen können Sie Karten wie AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core und Qualcomm® Cloud AI 100 in Betracht ziehen. In naher Zukunft planen AMD und NVIDIA, Intels GPU Gaudi 3 auf dem KI-Trainingsmarkt zu übertreffen.
Unter Berücksichtigung all dieser Faktoren und der Softwareoptimierung für HPC und KI empfehlen wir Server mit Intel Xeon- oder AMD Epyc-Prozessoren und GPUs von NVIDIA. Für KI-Inferenzaufgaben können Sie GPUs von RTX A4000/A5000 bis RTX 3090 verwenden, während es für das Training und die Arbeit an multimodalen neuronalen Netzwerken ratsam ist, Budgets für Lösungen von RTX 4090 bis A100/H100 einzuplanen.
GPU-Server mit sofortiger Bereitstellung mieten oder ein Server mit einemBenutzerdefinierte Konfiguration mit professionellen NVIDIA Tesla H100/H100 80Gb- oder RTX A5000/A4000-Karten.GPU-Server mit RTX4090-Spielekarten sind ebenfalls verfügbar.
Diese Geschichte wurde im Rahmen des HackerNoon Business Blogging Program veröffentlicht. Erfahren Sie mehr über das Programm