paint-brush
¿Cómo se elige el mejor servidor, CPU y GPU para su IA?por@hostkey
1,364 lecturas
1,364 lecturas

¿Cómo se elige el mejor servidor, CPU y GPU para su IA?

por Hostkey.com5m2024/04/18
Read on Terminal Reader

Demasiado Largo; Para Leer

La inteligencia artificial se ha vuelto fundamental para diversas industrias. Seleccionar procesadores y tarjetas gráficas adecuados le permitirá configurar una plataforma de alto rendimiento. La elección del acelerador de gráficos o la cantidad de RAM instalada en el servidor tendrá un impacto mayor que la elección entre tipos de CPU.
featured image - ¿Cómo se elige el mejor servidor, CPU y GPU para su IA?
Hostkey.com HackerNoon profile picture
0-item


Con el desarrollo de la inteligencia artificial generativa y sus aplicaciones prácticas, la creación de servidores para inteligencia artificial se ha vuelto fundamental para diversas industrias, desde la fabricación de automóviles hasta la medicina, así como para instituciones educativas y gubernamentales.


Consideremos los componentes más importantes que afectan la selección de un servidor para inteligencia artificial: la unidad central de procesamiento (CPU) y la unidad de procesamiento de gráficos (GPU). Seleccionar procesadores y tarjetas gráficas adecuados le permitirá configurar una plataforma de alto rendimiento y acelerar significativamente los cálculos relacionados con la inteligencia artificial en un servidor dedicado o virtual (VPS).


Alquile servidores GPU con implementación instantánea o un servidor con un configuración personalizada con tarjetas NVIDIA Tesla H100/H100 80Gb o RTX A5000/A4000 de nivel profesional. Servidores GPU con tarjetas de juego RTX4090 también están disponibles.



¿Cómo se elige el procesador adecuado para su servidor de IA?

El procesador es la "calculadora" principal que recibe comandos de los usuarios y realiza "ciclos de comandos" que producirán los resultados deseados. Por lo tanto, una gran parte de lo que hace que un servidor de IA sea tan poderoso es su CPU.


Es de esperar una comparación entre los procesadores AMD e Intel. Sí, estos dos líderes de la industria están a la vanguardia de la fabricación de procesadores, con la línea Intel® Xeon® de quinta generación (y la sexta generación ya anunciada) y AMD EPYC™ 8004/9004 que representan el pináculo de los procesadores CISC basados en x86.


Si busca un rendimiento excelente combinado con un ecosistema maduro y probado, seleccionar productos de primera línea de estos fabricantes de chips sería la opción correcta. Si le preocupa el presupuesto, considere versiones anteriores de los procesadores Intel® Xeon® y AMD EPYC™.


Incluso las CPU de escritorio de AMD o los modelos de gama alta de Nvidia serían un buen punto de partida para trabajar con IA si su carga de trabajo no requiere una gran cantidad de núcleos y capacidades de subprocesos múltiples. En la práctica, cuando se trata de modelos de lenguaje, la elección del acelerador de gráficos o la cantidad de RAM instalada en el servidor tendrá un impacto mayor que la elección entre tipos de CPU.


Si bien algunos modelos, como el 8x7B de Mixtral, pueden producir resultados comparables a la potencia computacional de los núcleos tensoriales que se encuentran en las tarjetas de video cuando se ejecutan en una CPU, también requieren de 2 a 3 veces más RAM que un paquete de CPU + GPU. Por ejemplo, un modelo que funciona con 16 GB de RAM y 24 GB de memoria de video GPU puede requerir hasta 64 GB de RAM cuando se ejecuta únicamente en la CPU.


Además de AMD e Intel, hay otras opciones disponibles. Pueden ser soluciones basadas en la arquitectura ARM, como NVIDIA Grace™, que combina núcleos ARM con funciones patentadas de NVIDIA, o Ampere Altra™.


¿Cómo se elige la unidad de procesamiento de gráficos (GPU) adecuada para su servidor de IA?

La GPU desempeña un papel cada vez más importante en las operaciones de servidores de IA en la actualidad. Sirve como un acelerador que ayuda a la CPU a procesar las solicitudes a las redes neuronales de manera mucho más rápida y eficiente. La GPU puede dividir tareas en segmentos más pequeños y realizarlas simultáneamente utilizando computación paralela o núcleos especializados. Por ejemplo, los núcleos tensoriales de NVIDIA proporcionan un rendimiento mucho mayor en cálculos de punto flotante de 8 bits (FP8) con Transformer Engine, Tensor Float 32 (TF32) y FP16, lo que muestra excelentes resultados en informática de alto rendimiento (HPC).


Esto se nota especialmente no durante la inferencia (el funcionamiento de la red neuronal), sino durante el entrenamiento, ya que, por ejemplo, en los modelos con FP32, este proceso puede tardar varias semanas o incluso meses.


Para limitar sus criterios de búsqueda, considere las siguientes preguntas:

  • ¿Cambiará la naturaleza de la carga de trabajo de su servidor de IA con el tiempo? La mayoría de las GPU modernas están diseñadas para tareas muy específicas. La arquitectura de sus chips puede ser adecuada para determinadas áreas de desarrollo o aplicación de la IA, y las nuevas soluciones de hardware y software pueden dejar obsoletas las generaciones anteriores de GPU en tan solo unos años (1-2-3).
  • ¿Se centrará principalmente en entrenar IA o en inferencia (uso)? Estos dos procesos son la base de todas las iteraciones modernas de IA con presupuestos de memoria limitados.


Durante el entrenamiento, el modelo de IA procesa una gran cantidad de datos con miles de millones o incluso billones de parámetros. Ajusta los "pesos" de sus algoritmos hasta que pueda generar resultados correctos de manera consistente.


En el modo de inferencia, la IA se basa en la "memoria" de su entrenamiento para responder a nuevos datos de entrada en el mundo real. Ambos procesos requieren importantes recursos computacionales, por lo que se instalan GPU y módulos de expansión para la aceleración.


Las unidades de procesamiento gráfico (GPU) están diseñadas específicamente para entrenar modelos de aprendizaje profundo con núcleos y mecanismos especializados que pueden optimizar este proceso. Por ejemplo, el H100 de NVIDIA con 8 núcleos de GPU proporciona más de 32 petaflops de rendimiento en aprendizaje profundo del FP8. Cada H100 contiene núcleos tensoriales de cuarta generación que utilizan un nuevo tipo de datos llamado FP8 y un "Transformer Engine" para su optimización. Recientemente, NVIDIA presentó la próxima generación de sus GPU, la B200, que será aún más potente.


Una fuerte alternativa a las soluciones AMD es AMD Instinct™ MI300X. Su característica es una gran capacidad de memoria y un gran ancho de banda de datos, lo cual es importante para aplicaciones de IA generativa basadas en inferencias, como los modelos de lenguaje grandes (LLM). AMD afirma que sus GPU son un 30% más eficientes que las soluciones de NVIDIA pero tienen un software menos maduro.


Si necesita sacrificar un poco de rendimiento para ajustarse a las limitaciones presupuestarias o si su conjunto de datos para entrenar la IA no es demasiado grande, puede considerar otras opciones de AMD y NVIDIA. Para tareas de inferencia o cuando no se requiere un funcionamiento continuo en modo 24 horas al día, 7 días a la semana para capacitación, las soluciones de "consumo" basadas en Nvidia RTX 4090 o RTX 3090 pueden ser adecuadas.


Si busca estabilidad en los cálculos a largo plazo para el entrenamiento de modelos, puede considerar las tarjetas RTX A4000 o A5000 de NVIDIA. Aunque el H100 con bus PCIe puede ofrecer una solución más potente con un rendimiento del 60-80% dependiendo de las tareas, el RTX A5000 es una opción más accesible y podría ser una opción óptima para determinadas tareas (como trabajar con modelos como 8x7B).


Para soluciones de inferencia más exóticas, puede considerar tarjetas como AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core y Qualcomm® Cloud AI 100. En un futuro próximo, AMD y NVIDIA planean superar a la GPU Gaudi 3 de Intel en el mercado de entrenamiento de IA. .


Teniendo en cuenta todos estos factores y teniendo en cuenta la optimización del software para HPC e IA, recomendamos servidores con procesadores Intel Xeon o AMD Epyc y GPU de NVIDIA. Para tareas de inferencia de IA, puede utilizar GPU desde RTX A4000/A5000 hasta RTX 3090, mientras que para entrenar y trabajar en redes neuronales multimodales, es recomendable asignar presupuestos para soluciones desde RTX 4090 hasta A100/H100.





Alquile servidores GPU con implementación instantánea o un servidor con un configuración personalizada con tarjetas NVIDIA Tesla H100/H100 80Gb o RTX A5000/A4000 de nivel profesional. Servidores GPU con tarjetas de juego RTX4090 también están disponibles.

Esta historia se distribuyó bajo el programa Business Blogging de HackerNoon. Más información sobre el programa aquí .