Ce que nous avons appris sur l'avenir des puces IA en suivant les dernières annonces de NVIDIA, en discutant avec des experts du secteur et en analysant les actualités et les analyses. L'exploration est un passe-temps, ainsi qu'un thème populaire dans . En 2023, nous avions l’impression d’avoir pris un peu de retard sur ce point… mais là encore, est-ce important ? NVIDIA ne règne-t-il pas toujours en maître – , plus de 80 % de part de marché, des H100 se vendant comme du pain chaud et battant tous les records et tout ? Eh bien, oui, mais… pas si vite. des puces IA les articles Orchestrate all the Things 1 000 milliards de valorisation Après avoir eu la chance de choisir le CPO de l'IA chez HPE, le cerveau d'Evan Sparks lors de , assistez à quelques conférences de presse de NVIDIA et parcourez une tonne d'actualités et Pour que vous n'ayez pas à le faire, nous avons un point de vue plus nuancé à partager sur les puces IA en 2024. Voici ce qui se passe et comment cela est susceptible d'affecter l'IA à l'avenir. l'épisode AI Chips de notre série « Quoi de neuf en IA » avec O'Reilly NVIDIA bat les records du benchmark MLPerf Commençons par l'actualité. Hier, . MLPerf est la norme de facto en matière d'évaluation des charges de travail d'IA, et à mesure que de nouvelles charges de travail d'IA émergent . Avec le décollage de l'IA générative au cours de l'année dernière, MLPerf a ajouté des charges de travail Gen AI à son arsenal. NVIDIA a annoncé les résultats des dernières soumissions MLPerf , MLPerf continue d'enrichir sa suite Après avoir précédemment ajouté un benchmark qui utilise une partie de l'ensemble complet de données GPT-3 pour former un grand modèle linguistique (LLM), le est un benchmark de formation basé sur le modèle texte-image à diffusion stable. NVIDIA a réussi ces deux résultats, ainsi que quelques autres. . dernier ajout à MLPerf Intel et Google affichent également d'importants gains en matière de formation à l'IA – un supercalculateur d'IA alimenté par 10 752 et un réseau – a réalisé un test de formation basé sur un modèle GPT-3 avec 175 milliards de paramètres entraînés sur un milliard de jetons en seulement 3,9 minutes. NVIDIA Eos GPU NVIDIA H100 Tensor Core NVIDIA Quantum-2 InfiniBand Cela représente un gain de près de 3 fois par rapport aux 10,9 minutes, le record établi par NVIDIA lors de du test il y a moins de six mois. Par extrapolation, Eos pourrait désormais former ce LLM en seulement huit jours, 73 fois plus rapidement qu'un système de pointe antérieur utilisant 512 GPU A100. Quant au benchmark Stable Diffusion, il a fallu 2,5 minutes à 1 024 pour le réaliser. l'introduction GPU à architecture NVIDIA Hopper Mais ce n'est pas tout. Comme le note NVIDIA, la société a été la seule à exécuter tous les tests MLPerf, démontrant les performances les plus rapides et la plus grande évolutivité dans chacun des neuf benchmarks. Dans MLPerf HPC, une référence distincte pour les simulations assistées par IA sur supercalculateurs, les GPU H100 ont fourni des performances jusqu'à deux fois supérieures aux GPU NVIDIA A100 Tensor Core lors . du dernier cycle HPC Options de formation des modèles d'IA Commençons maintenant à analyser ces résultats. La première chose à noter concerne les différentes dimensions d’échelle. Lorsque , il comportait 4 608 H100. Aujourd’hui, il en compte 10 752. Mais NVIDIA n’est pas le seul à tirer parti de l’évolutivité et des performances de l’Eos. l'Eos a été annoncé pour la première fois Comme le note la société, une plate-forme complète d'innovations en matière d'accélérateurs, de systèmes et de logiciels a été utilisée par Eos et Microsoft Azure lors du dernier cycle. Azure n'a pas soumis de candidature dans toutes les catégories, mais dans le benchmark GPT-3 où les deux ont été soumis, les résultats étaient pratiquement identiques. Et l'instance d'Azure est également disponible dans le commerce. De plus, l'efficacité de mise à l'échelle pour Eos était supérieure à 80 %. Idéalement, doubler le nombre de GPU permettrait d’obtenir des performances deux fois supérieures. Obtenir 80 % de ce montant, à cette échelle, est tout un exploit. NVIDIA a attribué cela à sa pile – la combinaison de matériel, de logiciels et de réseau. Ce qu'il faut retenir ici, c'est que la « », le surnom utilisé pour décrire les performances et l'évolutivité obtenues par les GPU NVIDIA, semble être toujours en vigueur. Mais la vraie question est peut-être de savoir qui devrait s’en soucier et pourquoi. loi de Jensen Ce type d'échelle n'est pas quelque chose que quiconque, mais les hyperscalers, pourraient normalement gérer, même s'ils le voulaient. Les GPU NVIDIA H100 sont rares malgré un coût d'environ 30 000 $ chacun. Comme le souligne le , les organisations sont engagées dans une course au stockage. Mais il y a aussi de bonnes nouvelles. rapport L’état de l’IA en 2023 Tout d’abord, les puces NVIDIA ont une durée de vie remarquablement longue : 5 ans entre leur lancement et leur popularité maximale. NVIDIA V100, sortie en 2017, reste la puce la plus couramment utilisée dans la recherche en IA. Cela suggère que les A100, sortis en 2020, pourraient culminer en 2026, lorsque le V100 atteindra probablement son creux. De plus, on peut se demander si la formation d’un nouveau modèle Gen AI à partir de zéro est quelque chose que la plupart des organisations devront faire. La majorité des organisations utiliseront probablement uniquement des modèles Gen AI pré-entraînés intégrés sous le capot pour alimenter les applications, ou choisiront d'utiliser quelque chose comme ChatGPT sur une API. Ces deux options ne nécessitent exactement aucun GPU. Le revers de la médaille, bien sûr, est que ces deux options n’offrent également aucune autonomie et sécurité. Mais même pour les organisations qui choisissent de développer la Gen AI en interne, former quelque chose à partir de zéro n’est probablement pas ce qui a le plus de sens pour la plupart. Prendre un modèle Gen AI open source prêt à l'emploi et le personnaliser via un réglage fin ou RAG (Retrieval Augmented Generation) est bien plus rapide et plus simple, et ne nécessite qu'une fraction du calcul. Comment les concurrents de NVIDIA pourraient rattraper leur retard Quoi qu’il en soit, l’idée à long terme est que la mise à l’échelle comme le fait NVIDIA rend possible des modèles d’IA plus puissants dans un délai plus court. Nous pouvons nous attendre à ce que les résultats se répercutent, qu’il s’agisse de modèles plus puissants de type GPT, de modèles open source ou d’applications dérivées. Mais il y a une autre série de questions à considérer ici. La domination de NVIDIA est-elle une bonne chose pour l'industrie ? Cela peut-il et doit-il durer ? Que fait la concurrence ? Et pourquoi le reste du monde devrait-il s’en soucier ? Comme moi-même et d'autres l'avons remarqué, la domination de NVIDIA ne repose pas seulement sur son matériel, mais sur l'intégralité de sa pile. En outre, comme , NVIDIA exploite également un ensemble de tactiques commerciales en matière de gestion de la chaîne d'approvisionnement, de stratégies de vente et de regroupement que peu d'autres sont capables de reproduire. Mais cela ne signifie pas non plus que la concurrence tourne au ralenti. l'a noté l'analyste Dylan Patel En ce qui concerne les supercalculateurs et la mise à l'échelle, l'Eos de NVIDIA n'est certainement pas le seul jeu en ville. Comme Sparks l'a mentionné, , dotée de 60 000 de ses propres GPU Ponte Vecchio, est sur le point d'être mise en ligne. De plus, il existe de nombreux autres supercalculateurs dans le monde dotés d'une gamme de puces et d'architectures de différents fabricants, et ils sont tous capables d'effectuer des opérations arithmétiques à virgule flottante hautes performances. l'Aurora d'Intel NVIDIA a un avantage car elle a été la première à se concentrer sur les charges de travail d'IA, mais chacun de ses concurrents en herbe a une feuille de route à rattraper. Jusqu'à récemment, nous pensions que CUDA, la couche logicielle de NVIDIA, était le plus grand fossé de l'entreprise. Comme , de nombreux frameworks d'apprentissage automatique ont disparu, mais la plupart se sont fortement appuyés sur l'exploitation du CUDA de NVIDIA et ont obtenu de meilleurs résultats sur les GPU NVIDIA. Cependant, avec l'arrivée de PyTorch 2.0 et de Triton d'OpenAI, la position dominante de NVIDIA dans ce domaine, principalement due à son fossé logiciel, est bouleversée. Ces frameworks permettent aux concurrents de NVIDIA de créer plus facilement leur propre pile. le note Patel Bien sûr, comme l'ajoute Patel dans une autre note décrivant , NVIDIA ne reste pas les bras croisés. Bien que NVIDIA connaisse un énorme succès, c'est également l'une des entreprises les plus paranoïaques du secteur, avec son PDG Jensen Huang incarnant l'esprit d'Andy Grove. Ce n'est pas un hasard si NVIDIA a souligné que son équipe emploie actuellement deux fois plus d'ingénieurs logiciels que d'ingénieurs matériels. le plan de NVIDIA pour rester en tête du peloton Le succès engendre la complaisance. La complaisance engendre l’échec. Seuls les paranoïaques survivent. Andy Grove Concurrence, échelle, performances et TCO Patel va jusqu'à remettre en question certaines tactiques de NVIDIA, sur lesquelles nous n'avons pas d'opinion. Ce que nous pouvons dire, c'est que même si l'acharnement de NVIDIA ne les laisse pas aller à la complaisance, avoir un seul fournisseur détenant n'est pas très sain. Ce sera probablement une bonne chose pour tout le monde de voir la concurrence rattraper son retard. plus de 80 % de part de marché pendant très longtemps À l’heure actuelle, les hyperscalers, les concurrents historiques tels qu’AMD et Intel, ainsi que de nombreux nouveaux venus travaillent tous sur leurs propres puces d’IA personnalisées pour 2024 et au-delà. On estime que , qui sont également en pénurie. Il n’est pas étonnant que tout le monde veuille participer à l’action et/ou accroître son autonomie. Pour les consommateurs, . NVIDIA dispose d'une marge de 1 000 % sur les H100 plus de concurrence signifiera plus de choix et d’autonomie, ainsi que de meilleures performances et de meilleurs prix Mais pour le moment, NVIDIA est toujours le leader incontesté – même avec une ou deux notes en bas de page. Lorsqu'on lui a demandé de comparer directement les résultats MLPerf de NVIDIA avec ceux de Gaudi d'Intel, par exemple, le directeur du marketing produit du groupe Accelerated Computing de NVIDIA, Dave Salvator, a souligné deux choses. Premièrement, les soumissions de Gaudi étaient loin d’atteindre l’échelle 10K. Deuxièmement, les résultats de NVIDIA étaient environ 2 fois meilleurs que sur une base normalisée. D'autres, comme l'analyste Karl Freund, . considèrent cependant Gaudi2 comme une alternative crédible Note de bas de page n°1 : MLPerf est une référence largement acclamée dans l'industrie. Cependant, comme tous les benchmarks, ce n’est pas parfait. Comme Sparks l'a noté, un élément crucial manquant dans MLPerf est la tarification. S'il est compréhensible qu'il soit délicat d'intégrer la tarification dans tout benchmark pour un certain nombre de raisons, cela signifie également que les résultats doivent être replacés dans leur contexte. Par exemple, selon l'analyse de Patrick Kennedy, . le Gaudi2 d'Intel offre des performances par dollar 4 fois supérieures à celles du H100 de NVIDIA Note de bas de page n°2 : La performance à elle seule est rarement la seule mesure qui compte pour les acheteurs potentiels. Le plus souvent, ce qui compte le plus est le rapport performance/coût : combien coûte la réalisation d’une certaine opération dans un certain délai. Pour arriver à cette mesure, le coût total de possession (TCO) des puces IA doit être pris en compte. Il s’agit d’un exercice complexe qui nécessite une expertise approfondie. Une grande partie du TCO des puces IA réside dans l’inférence, c’est-à-dire l’utilisation de modèles d’IA entraînés en production. La formation d’un modèle d’IA est généralement une entreprise coûteuse et complexe. L'inférence est peut-être plus simple en comparaison, mais elle constitue généralement l'essentiel de la durée de vie et du coût opérationnel d'un modèle. Les charges de travail de formation et d’inférence ont des caractéristiques différentes. Cela signifie qu’un système qui réussit bien en formation ne réussit pas nécessairement aussi bien en inférence. Par exemple, lorsqu’on a demandé à Salvator de commenter les performances d’Eos en matière d’inférence, il a renvoyé les participants aux futurs briefings. Pendant ce temps, les gens , tandis que d'autres . construisent de nouveaux systèmes axés sur l'inférence tentent de tirer le meilleur parti des systèmes existants Conclusion NVIDIA vient de montrer que son leadership ne montre aucun signe de déclin dans l'immédiat. Cependant, ce n’est pas nécessairement une bonne chose pour le reste du monde. La concurrence est là, tout comme la possibilité de rattraper son retard, aussi lointaine que cela puisse paraître à ce stade. Les puces IA en 2024 seront quelque chose à surveiller. Quoi qu’il en soit, la façon dont les points forts du benchmark se traduisent en impact réel, en convivialité et en coût total de possession pour les organisations aspirant à développer et à utiliser l’IA n’est pas linéaire. Rejoignez la newsletter Orchestrate all the Things Des histoires sur la façon dont la technologie, les données, l'IA et les médias s'articulent pour façonner nos vies. Analyses, essais, interviews et actualités. Forme moyenne à longue, 1 à 3 fois par mois. Également publié . ici