Was wir über die Zukunft von KI-Chips gelernt haben, indem wir die neuesten Ankündigungen von NVIDIA verfolgten, mit Branchenexperten sprachen und Nachrichten und Analysen durchsuchten.
Die Erforschung von KI-Chips war ein Zeitvertreib und ein beliebtes Thema in Orchestrate all the Things-Artikeln . Im Jahr 2023 hatten wir das Gefühl, dass wir in dieser Hinsicht etwas zurückgefallen sind. Aber spielt das andererseits eine Rolle? Steht NVIDIA nicht immer noch an erster Stelle – 1 Billion Bewertung , mehr als 80 % Marktanteil, H100s, die sich wie warmes Brot verkaufen und alle Rekorde brechen? Nun ja, aber ... nicht so schnell.
Nachdem Sie in der AI Chips-Folge unserer Serie „What's New in AI“ mit O'Reilly die Chance hatten, den CPO für KI bei HPE Evan Sparks zu ernennen, nehmen Sie an einigen Pressekonferenzen von NVIDIA teil und lesen Sie eine Menge Neuigkeiten und Nachrichten Damit Sie dies nicht tun müssen, können wir Ihnen eine differenziertere Sicht auf KI-Chips im Jahr 2024 mitteilen. Hier erfahren Sie, was vor sich geht und wie sich dies voraussichtlich auf die KI in der Zukunft auswirken wird.
Beginnen wir mit den Nachrichten. Gestern gab NVIDIA die Ergebnisse der neuesten MLPerf-Einreichungen bekannt . MLPerf ist der De-facto-Standard für KI-Workload-Benchmarks, und da immer mehr KI-Workloads auftauchen , erweitert MLPerf seine Suite ständig . Mit dem Aufschwung der generativen KI im letzten Jahr hat MLPerf sein Arsenal um Gen-KI-Workloads erweitert.
Nachdem zuvor ein Benchmark hinzugefügt wurde, der einen Teil des vollständigen GPT-3-Datensatzes zum Trainieren eines Large Language Model (LLM) verwendet, ist die neueste Ergänzung zu MLPerf ein Trainingsbenchmark, der auf dem Text-zu-Bild-Modell „Stable Diffusion“ basiert. NVIDIA hat beides und noch ein paar mehr übertroffen. Auch Intel und Google verzeichnen große Fortschritte beim KI-Training .
NVIDIA Eos – ein KI-Supercomputer, der von satten 10.752 NVIDIA H100 Tensor Core GPUs und NVIDIA Quantum-2 InfiniBand- Netzwerken angetrieben wird – hat in nur 3,9 Minuten einen Trainingsbenchmark basierend auf einem GPT-3-Modell mit 175 Milliarden Parametern abgeschlossen, die auf einer Milliarde Token trainiert wurden.
Das ist eine fast dreifache Steigerung gegenüber 10,9 Minuten, dem Rekord, den NVIDIA aufgestellt hat, als der Test vor weniger als sechs Monaten eingeführt wurde . Durch Extrapolation konnte Eos dieses LLM nun in nur acht Tagen trainieren, 73-mal schneller als ein früheres hochmodernes System mit 512 A100-GPUs. Für den Stable Diffusion-Benchmark benötigten 1.024 GPUs mit NVIDIA-Hopper-Architektur 2,5 Minuten.
Aber das ist nicht alles. Wie NVIDIA feststellt, war das Unternehmen das einzige Unternehmen, das alle MLPerf-Tests durchgeführt hat und dabei in jedem der neun Benchmarks die schnellste Leistung und die größte Skalierung zeigte. In MLPerf HPC, einem separaten Benchmark für KI-gestützte Simulationen auf Supercomputern, lieferten H100-GPUs in der letzten HPC-Runde bis zu doppelt so viel Leistung wie NVIDIA A100 Tensor Core-GPUs.
Beginnen wir nun damit, diese Ergebnisse auszupacken. Als Erstes sind die verschiedenen Größenordnungen zu beachten. Als der Eos erstmals angekündigt wurde , gab es 4.608 H100. Heute sind es 10.752. Aber NVIDIA ist nicht das einzige Unternehmen, das die Skalierbarkeit und Leistung von Eos nutzt.
Wie das Unternehmen feststellt, wurde in der letzten Runde sowohl von Eos als auch von Microsoft Azure eine Full-Stack-Plattform mit Innovationen bei Beschleunigern, Systemen und Software genutzt. Azure hat nicht in allen Kategorien eingereicht, aber im GPT-3-Benchmark, bei dem beide eingereicht wurden, waren die Ergebnisse praktisch identisch. Und die Instanz von Azure ist auch im Handel erhältlich.
Darüber hinaus lag die Skalierungseffizienz für Eos bei über 80 %. Im Idealfall würde eine doppelte Anzahl an GPUs die doppelte Leistung bringen. 80 % davon zu erreichen, ist in dieser Größenordnung eine ziemliche Leistung. NVIDIA führte dies auf seinen Stack zurück – die Kombination aus Hardware, Software und Netzwerk.
Eine Erkenntnis hier ist, dass „ Jensens Gesetz “, der Spitzname zur Beschreibung der Leistung und Skalierung, die NVIDIA-GPUs erreichen, immer noch in Kraft zu sein scheint. Aber vielleicht ist die eigentliche Frage, wen es interessieren sollte und warum.
Mit einer solchen Skalierung könnte niemand außer den Hyperscalern normalerweise umgehen, selbst wenn sie es wollten. NVIDIA H100-GPUs sind Mangelware, obwohl sie jeweils rund 30.000 US-Dollar kosten. Wie der Bericht „State of AI in 2023“ feststellt, befinden sich Unternehmen in einem Wettlauf um die Bevorratung. Aber es gibt auch gute Nachrichten.
Zunächst einmal haben NVIDIA-Chips eine bemerkenswert lange Lebensdauer: 5 Jahre von der Markteinführung bis zum Höhepunkt ihrer Popularität. Der 2017 veröffentlichte NVIDIA V100 ist immer noch der am häufigsten verwendete Chip in der KI-Forschung. Dies deutet darauf hin, dass die im Jahr 2020 auf den Markt kommenden A100 ihren Höhepunkt im Jahr 2026 erreichen könnten, wenn die V100 wahrscheinlich ihren Tiefpunkt erreichen wird.
Außerdem ist es fraglich, ob die meisten Unternehmen ein neues Gen-KI-Modell von Grund auf trainieren müssen. Die meisten Unternehmen werden wahrscheinlich entweder nur vorab trainierte KI-Modelle der Generation verwenden, die unter der Haube verpackt sind, um Anwendungen zu betreiben, oder sich dafür entscheiden, etwas wie ChatGPT anstelle einer API zu verwenden. Für beide Optionen sind genau null GPUs erforderlich.
Die Kehrseite ist natürlich, dass beide Optionen auch keinerlei Autonomie und Sicherheit bieten. Aber selbst für Unternehmen, die sich dafür entscheiden, Gen-KI intern zu entwickeln, ist es für die meisten wahrscheinlich nicht sinnvoll, etwas von Grund auf zu trainieren. Die Anpassung eines handelsüblichen Open-Source-Gen-KI-Modells durch Feinabstimmung oder RAG (Retrieval Augmented Generation) ist viel schneller und einfacher und erfordert nur einen Bruchteil der Rechenleistung.
Wie dem auch sei, die langfristige Sichtweise ist hier, dass eine Skalierung wie NVIDIA leistungsfähigere KI-Modelle in kürzerer Zeit möglich macht. Wir können davon ausgehen, dass sich die Ergebnisse durchsetzen werden, unabhängig davon, ob es sich dabei um leistungsfähigere GPT-ähnliche Modelle, Open-Source-Modelle oder abgeleitete Anwendungen handelt.
Aber es gibt noch eine Reihe weiterer Fragen, die hier berücksichtigt werden müssen. Ist die Dominanz von NVIDIA eine gute Sache für die Branche? Kann und soll es halten? Was hat die Konkurrenz vor? Und warum sollte sich der Rest der Welt darum kümmern?
Wie ich und andere festgestellt haben, basiert die Dominanz von NVIDIA nicht nur auf der Hardware, sondern auf dem gesamten Stack. Darüber hinaus nutzt NVIDIA, wie der Analyst Dylan Patel feststellte , auch eine Reihe von Geschäftstaktiken in Bezug auf Lieferkettenmanagement, Vertriebsstrategien und Bündelung, die nur wenige andere nachahmen können. Das heißt aber auch nicht, dass die Konkurrenz untätig ist.
Was Supercomputer und Skalierung angeht, ist NVIDIAs Eos definitiv nicht das einzige Spiel, das es gibt. Wie Sparks erwähnte, steht Intels Aurora mit 60.000 eigenen Ponte-Vecchio-GPUs kurz vor der Inbetriebnahme. Darüber hinaus gibt es auf der Welt viele andere Supercomputer mit einer Reihe von Chips und Architekturen verschiedener Hersteller, und sie alle sind in der Lage, Hochleistungs-Gleitkomma-Arithmetik durchzuführen.
NVIDIA hat einen Vorsprung, da es sich als erstes Unternehmen auf KI-Workloads konzentriert hat, aber jeder seiner aufstrebenden Konkurrenten hat einen Fahrplan, um aufzuholen. Bis vor kurzem dachten wir, dass CUDA, die Softwareschicht von NVIDIA, der größte Burggraben des Unternehmens sei.
Wie Patel anmerkt , sind viele Frameworks für maschinelles Lernen gekommen und gegangen, aber die meisten haben sich stark auf die Nutzung von NVIDIAs CUDA verlassen und erzielten auf NVIDIA-GPUs die beste Leistung. Allerdings wird mit der Einführung von PyTorch 2.0 und OpenAIs Triton die dominierende Stellung von NVIDIA in diesem Bereich, vor allem aufgrund seines Software-Grabens, gestört. Diese Frameworks erleichtern es der Konkurrenz von NVIDIA, ihren eigenen Stack aufzubauen.
Wie Patel in einer anderen Notiz hinzufügt, in der er NVIDIAs eigenen Plan darlegt, die Nase vorn zu haben , ist NVIDIA natürlich nicht untätig. NVIDIA ist zwar äußerst erfolgreich, aber auch eines der paranoidesten Unternehmen der Branche, wobei CEO Jensen Huang den Geist von Andy Grove verkörpert. Es ist kein Zufall, dass NVIDIA betonte, dass sein Team derzeit doppelt so viele Software-Ingenieure wie Hardware-Ingenieure beschäftigt.
Erfolg erzeugt Selbstzufriedenheit. Selbstgefälligkeit führt zum Scheitern. Nur die Paranoiden überleben.
Andy Grove
Patel geht sogar so weit, einige der Taktiken von NVIDIA in Frage zu stellen, wozu wir keine Meinung haben. Was wir sagen können ist, dass NVIDIAs Unnachgiebigkeit sie zwar nicht in Selbstzufriedenheit versetzt, es aber nicht sehr gesund ist, wenn ein einzelner Anbieter über einen längeren Zeitraum einen Marktanteil von über 80 % besitzt. Es wird wahrscheinlich für alle eine gute Sache sein, zu sehen, wie die Konkurrenz aufholt.
Derzeit arbeiten Hyperscaler, etablierte Konkurrenten wie AMD und Intel sowie eine Schar von Emporkömmlingen an ihren eigenen maßgeschneiderten KI-Chips für 2024 und darüber hinaus. Es wird geschätzt, dass NVIDIA eine Marge von 1000 % gegenüber H100s hat , die ebenfalls knapp sind. Kein Wunder, dass jeder einen Teil der Action haben und/oder seine Autonomie erweitern möchte. Für die Verbraucher bedeutet mehr Wettbewerb mehr Auswahl und Autonomie sowie bessere Leistung und Preise .
Derzeit ist NVIDIA jedoch immer noch der unangefochtene Spitzenreiter – wenn auch mit ein oder zwei Fußnoten. Als er beispielsweise gebeten wurde, die MLPerf-Ergebnisse von NVIDIA direkt mit denen von Intel Gaudi zu vergleichen, wies Dave Salvator, Direktor für Produktmarketing in der Accelerated Computing Group bei NVIDIA, auf zwei Dinge hin. Erstens erreichten die Gaudi-Einsendungen bei weitem nicht die 10.000-Grenze. Zweitens waren die NVIDIA-Ergebnisse im Vergleich auf normalisierter Basis etwa doppelt so hoch. Andere wie der Analyst Karl Freund halten Gaudi2 hingegen für eine glaubwürdige Alternative .
Fußnote Nr. 1: MLPerf ist ein weithin anerkannter Benchmark in der Branche. Wie alle Benchmarks ist er jedoch nicht perfekt. Wie Sparks feststellte, fehlt bei MLPerf ein entscheidendes Element, nämlich die Preisgestaltung. Obwohl es verständlich ist, dass die Einbeziehung der Preisgestaltung in einen Benchmark aus mehreren Gründen schwierig ist, bedeutet dies auch, dass die Ergebnisse in einen Kontext gestellt werden müssen. Laut der Analyse von Patrick Kennedy bietet Intels Gaudi2 beispielsweise eine viermal bessere Leistung pro Dollar als NVIDIAs H100 .
Fußnote Nr. 2: Leistung allein ist selten die einzige Kennzahl, die für potenzielle Käufer von Bedeutung ist. In den meisten Fällen kommt es vor allem auf das Verhältnis von Leistung zu Kosten an: Wie viel kostet es, einen bestimmten Vorgang innerhalb eines bestimmten Zeitrahmens durchzuführen? Um zu dieser Kennzahl zu gelangen, sollten die Gesamtbetriebskosten (TCO) für KI-Chips berücksichtigt werden. Das ist eine komplexe Aufgabe, die umfassendes Fachwissen erfordert.
Ein großer Teil der Gesamtbetriebskosten für KI-Chips entfällt auf Inferenz, also auf den Einsatz trainierter KI-Modelle in der Produktion. Das Training eines KI-Modells ist in der Regel ein kostspieliges und komplexes Unterfangen. Die Schlussfolgerung mag im Vergleich einfacher sein, sie macht jedoch in der Regel den größten Teil der Lebensdauer und der Betriebskosten eines Modells aus.
Trainings- und Inferenzarbeitsbelastungen weisen unterschiedliche Merkmale auf. Das bedeutet, dass ein System, das beim Training gut abschneidet, nicht unbedingt auch bei der Schlussfolgerung gleich gut abschneidet. Ein typisches Beispiel: Als Salvator gebeten wurde, sich zu Eos Leistung im Bereich Inferenz zu äußern, verwies er die Teilnehmer auf zukünftige Briefings. In der Zwischenzeit bauen Menschen neue Systeme auf, die sich auf Inferenz konzentrieren , während andere versuchen, das Beste aus bestehenden Systemen herauszuholen .
NVIDIA hat gerade gezeigt, dass seine Führungsposition in naher Zukunft keine Anzeichen dafür zeigt, dass es nachlässt. Allerdings ist das nicht unbedingt eine gute Sache für den Rest der Welt. Die Konkurrenz ist da, und die Chance, aufzuholen, ist auch da, so weit sie zum jetzigen Zeitpunkt auch erscheinen mag. KI-Chips im Jahr 2024 werden etwas sein, das man im Auge behalten sollte. Auf jeden Fall ist die Umsetzung der Benchmark-Highlights in die tatsächliche Wirkung, Benutzerfreundlichkeit und Gesamtbetriebskosten für Unternehmen, die KI entwickeln und nutzen möchten, nicht linear.
Geschichten darüber, wie Technologie, Daten, KI und Medien ineinander fließen und unser Leben prägen. Analysen, Essays, Interviews und Nachrichten. Mittlere bis lange Form, 1-3 mal pro Monat.
Auch hier veröffentlicht.