Lo que aprendimos sobre el futuro de los chips de IA al realizar un seguimiento de los últimos anuncios de NVIDIA, hablar con expertos de la industria y analizar noticias y análisis.
Explorar chips de IA ha sido un pasatiempo, además de un tema popular en los artículos de Orchestrate all the Things . En 2023, sentimos que nos quedamos un poco atrás en eso... pero, de nuevo, ¿eso importa? ¿NVIDIA no sigue reinando supremamente: valoración de 1 billón , más del 80% de participación de mercado, H100 vendiéndose como pan caliente y batiendo todos los récords y todo? Bueno, sí, pero... no tan rápido.
Después de tener la oportunidad de elegir el CPO de IA en el cerebro de HPE Evan Sparks en el episodio AI Chips de nuestra serie "Qué hay de nuevo en IA" con O'Reilly , sentarse en un par de conferencias de prensa de NVIDIA y leer un montón de noticias y analiza para que usted no tenga que hacerlo, tenemos una visión más matizada para compartir sobre los chips de IA en 2024. Esto es lo que está sucediendo y cómo es probable que afecte a la IA en el futuro.
Empecemos por las noticias. Ayer, NVIDIA anunció los resultados de las últimas presentaciones de MLPerf . MLPerf es el estándar de facto en los puntos de referencia de cargas de trabajo de IA y, a medida que surgen más cargas de trabajo de IA , MLPerf sigue ampliando su conjunto . Con el despegue de la IA generativa durante el último año, MLPerf ha agregado cargas de trabajo de Gen AI a su arsenal.
Habiendo agregado previamente un punto de referencia que utiliza una parte del conjunto completo de datos GPT-3 para entrenar un modelo de lenguaje grande (LLM), la última incorporación a MLPerf es un punto de referencia de entrenamiento basado en el modelo de texto a imagen de difusión estable. NVIDIA superó ambos, así como algunos más. Intel y Google también cuentan con grandes avances en el entrenamiento de IA .
NVIDIA Eos , una supercomputadora de inteligencia artificial impulsada por la friolera de 10,752 GPU NVIDIA H100 Tensor Core y redes NVIDIA Quantum-2 InfiniBand , completó un punto de referencia de entrenamiento basado en un modelo GPT-3 con 175 mil millones de parámetros entrenados en mil millones de tokens en solo 3,9 minutos.
Eso es una ganancia de casi 3 veces desde 10,9 minutos, el récord que NVIDIA estableció cuando se introdujo la prueba hace menos de seis meses. Por extrapolación, Eos ahora podría entrenar ese LLM en solo ocho días, 73 veces más rápido que un sistema de última generación anterior que utilizaba 512 GPU A100. En cuanto al punto de referencia Stable Diffusion, 1.024 GPU de arquitectura NVIDIA Hopper tardaron 2,5 minutos en completarlo.
Pero eso no es todo. Como señala NVIDIA, la compañía fue la única que realizó todas las pruebas MLPerf, demostrando el rendimiento más rápido y la mayor escala en cada uno de los nueve puntos de referencia. En MLPerf HPC, un punto de referencia independiente para simulaciones asistidas por IA en supercomputadoras, las GPU H100 ofrecieron hasta el doble de rendimiento que las GPU NVIDIA A100 Tensor Core en la última ronda de HPC .
Ahora, comencemos a analizar estos resultados. Lo primero que hay que tener en cuenta son las distintas dimensiones de escala. Cuando se anunció por primera vez Eos , presentaba 4.608 H100. Hoy cuenta con 10.752. Pero NVIDIA no es la única que aprovecha la escala y el rendimiento de Eos.
Como señala la compañía, tanto Eos como Microsoft Azure utilizaron una plataforma completa de innovaciones en aceleradores, sistemas y software en la última ronda. Azure no se presentó en todas las categorías, pero en el punto de referencia GPT-3 donde ambos se presentaron, los resultados fueron prácticamente idénticos. Y la instancia de Azure también está disponible comercialmente.
Es más, la eficiencia de escalado de Eos fue superior al 80%. Idealmente, duplicar la cantidad de GPU obtendría el doble de rendimiento. Conseguir el 80% de eso, a esta escala, es toda una hazaña. NVIDIA atribuyó esto a su pila: la combinación de hardware, software y redes.
Una conclusión aquí es que la " Ley de Jensen ", el apodo utilizado para describir el rendimiento y la ampliación que logran las GPU de NVIDIA, parece seguir vigente. Pero quizás la verdadera pregunta sea a quién debería importarle y por qué.
Ese tipo de escala no es algo que nadie, excepto los hiperescaladores, normalmente podría manejar, incluso si quisieran. Las GPU NVIDIA H100 son escasas a pesar de que cuestan alrededor de 30.000 dólares cada una. Como señala el informe El estado de la IA en 2023 , las organizaciones están en una carrera por acumular existencias. Pero también hay buenas noticias.
En primer lugar, los chips NVIDIA tienen una vida útil notablemente larga: 5 años desde su lanzamiento hasta su máxima popularidad. NVIDIA V100, lanzado en 2017, sigue siendo el chip más utilizado en la investigación de IA. Esto sugiere que los A100, lanzados en 2020, podrían alcanzar su punto máximo en 2026, cuando es probable que el V100 llegue a su punto más bajo.
Además, es cuestionable si entrenar un nuevo modelo Gen AI desde cero es algo que la mayoría de las organizaciones necesitarán hacer. La mayoría de las organizaciones probablemente solo usarán modelos Gen AI previamente entrenados y empaquetados bajo el capó para impulsar aplicaciones, o optarán por usar algo como ChatGPT en lugar de una API. Ambas opciones requieren exactamente cero GPU.
La otra cara, por supuesto, es que ambas opciones también proporcionan cero autonomía y seguridad. Pero incluso para las organizaciones que optan por desarrollar Gen AI internamente, entrenar algo desde cero probablemente no sea lo que tenga más sentido para la mayoría. Tomar un modelo Gen AI de código abierto disponible en el mercado y personalizarlo mediante ajuste fino o RAG (Generación Aumentada de Recuperación) es mucho más rápido y fácil, y solo requiere una fracción de la computación.
De cualquier manera, la visión a largo plazo aquí es que la ampliación de la forma en que lo hace NVIDIA hace posibles modelos de IA más potentes en un tiempo más corto. Podemos esperar que los resultados se filtren, ya sea que eso signifique modelos más potentes tipo GPT, modelos de código abierto o aplicaciones derivadas.
Pero hay otro conjunto de preguntas a considerar aquí. ¿Es el dominio de NVIDIA algo bueno para la industria? ¿Puede y debe durar? ¿A qué se dedica la competencia? ¿Y por qué debería importarle al resto del mundo?
Como otros y yo hemos observado, el dominio de NVIDIA se basa no sólo en su hardware, sino en la totalidad de su pila. Además, como señaló el analista Dylan Patel , NVIDIA también aprovecha un conjunto de tácticas comerciales con respecto a la gestión de la cadena de suministro, estrategias de ventas y agrupación que pocos otros pueden replicar. Pero eso tampoco significa que la competencia esté estancada.
En lo que respecta a las supercomputadoras y la ampliación, Eos de NVIDIA definitivamente no es el único juego en la ciudad. Como mencionó Sparks, Aurora de Intel con 60.000 de sus propias GPU Ponte Vecchio está a punto de estar en línea. Además, hay muchas otras supercomputadoras en el mundo que presentan una variedad de chips y arquitecturas de diferentes fabricantes, y todas ellas son capaces de realizar aritmética de punto flotante de alto rendimiento.
NVIDIA tiene una ventaja debido al hecho de que fue la primera en centrarse en cargas de trabajo de IA, pero cada uno de sus aspirantes a competidores tiene una hoja de ruta para ponerse al día. Hasta hace poco solíamos pensar que CUDA, la capa de software de NVIDIA, era el mayor foso de la compañía.
Como señala Patel , muchos marcos de aprendizaje automático han ido y venido, pero la mayoría ha dependido en gran medida del aprovechamiento de CUDA de NVIDIA y ha tenido un mejor rendimiento en las GPU de NVIDIA. Sin embargo, con la llegada de PyTorch 2.0 y Triton de OpenAI, la posición dominante de NVIDIA en este campo, principalmente debido a su software, se está viendo alterada. Estos marcos facilitan que la competencia de NVIDIA construya su propia pila.
Por supuesto, como añade Patel en una nota diferente que describe el propio plan de NVIDIA para mantenerse a la vanguardia , NVIDIA no se queda de brazos cruzados. Si bien NVIDIA tiene un gran éxito, también es una de las empresas más paranoicas de la industria, y el director ejecutivo Jensen Huang encarna el espíritu de Andy Grove. No es casualidad que NVIDIA haya destacado que su equipo emplea actualmente el doble de ingenieros de software que de hardware.
El éxito genera complacencia. La complacencia genera fracaso. Sólo los paranoicos sobreviven.
Andy Grove
Patel llega incluso a cuestionar algunas de las tácticas de NVIDIA, algo sobre lo que no tenemos opinión. Lo que podemos decir es que, aunque la implacabilidad de NVIDIA no les permite volverse complacientes, que un solo proveedor posea más del 80% de la cuota de mercado durante mucho tiempo no es muy saludable. Probablemente será bueno para todos ver cómo la competencia se pone al día.
En este punto, los hiperescaladores, la competencia actual como AMD e Intel, así como una bandada de empresas emergentes, están trabajando en sus propios chips de IA personalizados para 2024 y más allá. Se estima que NVIDIA tiene un margen del 1000% en los H100 , que también escasean. No es de extrañar que todo el mundo quiera participar en la acción y/o aumentar su autonomía. Para los consumidores, más competencia significará más opciones y autonomía, así como mejores resultados y precios .
Por el momento, sin embargo, NVIDIA sigue siendo el líder indiscutible, aunque con una o dos notas a pie de página. Cuando se le pidió que comparara directamente los resultados de MLPerf de NVIDIA con los de Gaudí de Intel, por ejemplo, el director de marketing de productos del Accelerated Computing Group de NVIDIA, Dave Salvator, señaló dos cosas. Primero, las presentaciones de Gaudí no estaban ni cerca de la escala 10K. En segundo lugar, los resultados de NVIDIA fueron aproximadamente 2 veces mejores en comparación con una base normalizada. Otros, como el analista Karl Freund, sin embargo, consideran a Gaudí2 una alternativa creíble .
Nota a pie de página n.º 1: MLPerf es un punto de referencia ampliamente aclamado en la industria. Sin embargo, como todos los puntos de referencia, no es perfecto. Como señaló Sparks, un elemento crucial que falta en MLPerf es el precio. Si bien es comprensible que incorporar los precios en cualquier punto de referencia sea complicado por varias razones, también significa que los resultados deben ponerse en contexto. Por ejemplo, según el análisis de Patrick Kennedy, el Gaudi2 de Intel tiene un rendimiento por dólar 4 veces mejor que el H100 de NVIDIA .
Nota al pie n.º 2: El rendimiento por sí solo rara vez es la única métrica que importa a los posibles compradores. La mayoría de las veces, lo que más importa es la relación rendimiento-costo: cuánto cuesta realizar una determinada operación en un plazo determinado. Para llegar a esa métrica, se debe tener en cuenta el costo total de propiedad (TCO) de los chips de IA. Se trata de un ejercicio complejo que requiere una profunda experiencia.
Una gran parte del TCO de los chips de IA es la inferencia, es decir, el uso de modelos de IA entrenados en la producción. Entrenar un modelo de IA suele ser una tarea costosa y compleja. La inferencia puede ser más simple en comparación, pero normalmente constituye la mayor parte de la vida útil y el costo operativo de un modelo.
Las cargas de trabajo de entrenamiento e inferencia tienen características diferentes. Esto significa que un sistema que tiene buenos resultados en el entrenamiento no necesariamente tiene los mismos resultados en la inferencia. Un buen ejemplo: cuando se le pidió a Salvator que comentara sobre el desempeño de Eo en la inferencia, remitió a los asistentes a futuras sesiones informativas. Mientras tanto, la gente está construyendo nuevos sistemas centrados en la inferencia , mientras que otros intentan aprovechar al máximo los existentes .
NVIDIA acaba de demostrar que su liderazgo no muestra signos de decaer en el futuro inmediato. Sin embargo, eso no es necesariamente algo bueno para el resto del mundo. La competencia está ahí, y la oportunidad de ponerse al día también está ahí, por lejana que parezca a estas alturas. Los chips de IA en 2024 serán algo a tener en cuenta. En cualquier caso, la forma en que los puntos destacados de los puntos de referencia se traducen en impacto real, usabilidad y TCO para las organizaciones que aspiran a desarrollar y utilizar la IA no es lineal.
Historias sobre cómo la tecnología, los datos, la inteligencia artificial y los medios fluyen entre sí dando forma a nuestras vidas. Análisis, ensayos, entrevistas y noticias. Forma media a larga, 1-3 veces por mes.
También publicado aquí .