paint-brush
MinIO DataPod: una arquitectura de referencia para la computación a escala de exaescalapor@minio
Nueva Historia

MinIO DataPod: una arquitectura de referencia para la computación a escala de exaescala

por MinIO7m2024/08/20
Read on Terminal Reader

Demasiado Largo; Para Leer

MinIO ha creado un plan integral para la infraestructura de datos que admita la IA a escala de exaescala y otras cargas de trabajo de lagos de datos a gran escala. MinIO DataPod ofrece una arquitectura integral que permite a los administradores de infraestructura implementar soluciones rentables para una variedad de cargas de trabajo de IA y ML.
featured image - MinIO DataPod: una arquitectura de referencia para la computación a escala de exaescala
MinIO HackerNoon profile picture


La empresa moderna se define a sí misma por sus datos. Esto requiere una infraestructura de datos para IA/ML, así como una infraestructura de datos que sea la base de un Datalake moderno capaz de respaldar la inteligencia empresarial, el análisis de datos y la ciencia de datos. Esto es así si están atrasadas, están comenzando o usan IA para obtener información avanzada. En el futuro previsible, así será como se percibirá a las empresas. Existen múltiples dimensiones o etapas para el problema más amplio de cómo la IA llega al mercado en la empresa. Estas incluyen la ingesta de datos, la transformación, el entrenamiento, la inferencia, la producción y el archivo, con datos compartidos en cada etapa. A medida que estas cargas de trabajo escalan, aumenta la complejidad de la infraestructura de datos de IA subyacente. Esto crea la necesidad de una infraestructura de alto rendimiento al tiempo que minimiza el costo total de propiedad (TCO).


MinIO ha creado un plan integral para la infraestructura de datos que admita la IA a exaescala y otras cargas de trabajo de lagos de datos a gran escala. Se llama MinIO DataPod. La unidad de medida que utiliza es 100 PiB. ¿Por qué? Porque la realidad es que esto es algo común hoy en día en las empresas. A continuación, se muestran algunos ejemplos rápidos:


  • Un fabricante de automóviles norteamericano con casi un exabyte de vídeos de automóviles

  • Un fabricante de automóviles alemán con más de 50 PB de telemetría de automóviles

  • Una empresa de biotecnología con más de 50 PB de datos biológicos, químicos y centrados en el paciente.

  • Una empresa de ciberseguridad con más de 500 PB de archivos de registro

  • Una empresa de transmisión multimedia con más de 200 PB de video

  • Un contratista de defensa con más de 80 PB de datos geoespaciales, de registro y telemetría de aeronaves


Incluso si no alcanzan los 100 PB hoy, lo harán dentro de unos pocos trimestres. La empresa promedio crece a un ritmo del 42 % anual, las empresas centradas en datos crecen al doble de esa tasa, si no más.


La arquitectura de referencia MinIO Datapod se puede combinar de distintas maneras para lograr casi cualquier escala. De hecho, tenemos clientes que han desarrollado este modelo a partir de un exabyte y con múltiples proveedores de hardware. MinIO DataPod ofrece una arquitectura integral que permite a los administradores de infraestructura implementar soluciones rentables para una variedad de cargas de trabajo de IA y ML. Esta es la razón fundamental de nuestra arquitectura.

La IA requiere almacenamiento y computación desagregados

Las cargas de trabajo de IA, especialmente la IA generativa, requieren inherentemente GPU para el procesamiento. Son dispositivos espectaculares con un rendimiento increíble, ancho de banda de memoria y capacidades de procesamiento paralelo. Para mantenerse al día con las GPU, que son cada vez más rápidas, se necesita un almacenamiento de alta velocidad. Esto es especialmente cierto cuando los datos de entrenamiento no caben en la memoria y los bucles de entrenamiento tienen que hacer más llamadas al almacenamiento. Además, las empresas requieren más que rendimiento: también necesitan seguridad, replicación y resiliencia.


El requisito de almacenamiento empresarial exige que la arquitectura desagregue por completo el almacenamiento del cómputo. Esto permite que el almacenamiento se escale independientemente del cómputo y, dado que el crecimiento del almacenamiento generalmente es uno o más órdenes de magnitud mayor que el crecimiento del cómputo, este enfoque garantiza la mejor rentabilidad a través de una utilización superior de la capacidad.

Las cargas de trabajo de IA exigen una clase diferente de redes

La infraestructura de red se ha estandarizado en enlaces de ancho de banda de 100 Gigabits por segundo (Gbps) para implementaciones de cargas de trabajo de IA. Las unidades NVMe modernas brindan un rendimiento de 7 GBps en promedio, lo que hace que el ancho de banda de red entre los servidores de almacenamiento y los servidores de cómputo de GPU sea el cuello de botella para el rendimiento de la ejecución de la canalización de IA.


Resolver este problema con soluciones de redes complejas como Infiniband (IB) tiene limitaciones reales. Recomendamos que las empresas aprovechen las soluciones basadas en Ethernet estándar de la industria (por ejemplo, HTTP sobre TCP) que funcionan de manera inmediata para entregar datos con un alto rendimiento para GPU por las siguientes razones:


  • Ecosistema mucho más grande y abierto
  • Reducción de costes de infraestructura de red
  • Altas velocidades de interconexión (800 GbE y más) con soporte RDMA sobre Ethernet (es decir: RoCEv2)
  • Reutilice la experiencia y las herramientas existentes para implementar, administrar y observar Ethernet.
  • La innovación en torno a la comunicación entre las GPU y los servidores de almacenamiento se está produciendo en soluciones basadas en Ethernet

Los requisitos de la IA exigen almacenamiento de objetos

No es casualidad que la infraestructura de datos de IA en las nubes públicas esté construida sobre almacenes de objetos. Tampoco es casualidad que todos los modelos básicos principales se hayan entrenado en un almacén de objetos. Esto se debe al hecho de que POSIX es demasiado hablador para funcionar a la escala de datos que requiere la IA, a pesar de lo que afirmen los defensores de los archivos heredados.


La misma arquitectura que ofrece IA en la nube pública se debe aplicar a la nube privada y, obviamente, a la nube híbrida. Los almacenes de objetos se destacan por manejar varios formatos de datos y grandes volúmenes de datos no estructurados y pueden escalar sin esfuerzo para adaptarse a datos en aumento sin comprometer el rendimiento. Sus capacidades de metadatos y espacio de nombres planos permiten una gestión y procesamiento de datos eficientes, lo cual es crucial para las tareas de IA que requieren un acceso rápido a grandes conjuntos de datos.


A medida que las GPU de alta velocidad evolucionan y el ancho de banda de la red se estandariza a 200/400/800 Gbps y más, los almacenes de objetos modernos serán la única solución que cumpla con los acuerdos de nivel de servicio de rendimiento y la escala de las cargas de trabajo de IA.


Todo definido por software

Sabemos que las GPU son la estrella del espectáculo y que son hardware, pero incluso Nvidia te dirá que el ingrediente secreto es CUDA. Sin embargo, si nos alejamos del chip, el mundo de la infraestructura está cada vez más definido por el software. En ningún ámbito esto es más cierto que en el almacenamiento. Las soluciones de almacenamiento definidas por software son esenciales para la escalabilidad, la flexibilidad y la integración en la nube, y superan a los modelos tradicionales basados en dispositivos por las siguientes razones:


  • Compatibilidad con la nube : el almacenamiento definido por software se alinea con las operaciones en la nube, a diferencia de los dispositivos que no pueden ejecutarse en múltiples nubes.


  • Contenerización : los dispositivos no se pueden contenerizar, lo que hace que se pierdan las ventajas nativas de la nube y se evite la orquestación de Kubernetes.


  • Flexibilidad de hardware : el almacenamiento definido por software admite una amplia gama de hardware, desde el borde hasta el núcleo, y se adapta a diversos entornos de TI.


  • Rendimiento adaptativo : el almacenamiento definido por software ofrece una flexibilidad inigualable y administra de manera eficiente diferentes capacidades y necesidades de rendimiento en varios conjuntos de chips.


A escala de exabytes, la simplicidad y un modelo operativo basado en la nube son cruciales. El almacenamiento de objetos, como solución definida por software, debería funcionar sin problemas en hardware comercial y en cualquier plataforma informática, ya sea hardware físico, máquinas virtuales o contenedores.


Los dispositivos de hardware diseñados a medida para el almacenamiento de objetos a menudo compensan un software mal diseñado con hardware costoso y soluciones complejas, lo que resulta en un alto costo total de propiedad (TCO).

Especificación de hardware MinIO DataPOD para IA:

Los clientes empresariales que utilizan MinIO para iniciativas de IA crean una infraestructura de datos a escala de exabytes como unidades repetibles de 100 PiB. Esto ayuda a los administradores de infraestructura a facilitar el proceso de implementación, mantenimiento y escalado a medida que los datos de IA crecen exponencialmente durante un período de tiempo. A continuación, se muestra la lista de materiales (BOM) para construir una infraestructura de datos a escala de 100 PiB.


Especificación de clúster


Componente

Cantidad

Número total de bastidores

30

Número total de servidores de almacenamiento

330

Número total de servidores de almacenamiento por rack

11

Número total de conmutadores TOR

60

Número total de interruptores Spine

10

Tamaño de la franja del código de borrado

10

Paridad del código de borrado

4


Especificación de un solo rack


Componente

Descripción

Cantidad

Caja de rack

Rack con ranuras de 42U/45U

1

Servidor de almacenamiento

Factor de forma 2U

11

Conmutadores de la parte superior del rack

Conmutador de capa 2

2

Interruptor de gestión

Capa 2 y capa 3 combinadas

1

Cables de red

Cables AOC

30-40

Fuerza

Fuente de alimentación dual con RPDU

17 kW - 20 kW


Especificación del servidor de almacenamiento

Componente

Especificación

Servidor

2U, un solo zócalo

UPC

64 núcleos, 128 * líneas PCIe 4.0

Memoria

256 GB

Red

Puerto dual, NIC de 200 GBE

Bahías de unidad

24 NVMe U.2 de 2,5" intercambiables en caliente

Conduce

30 TB * 24 NVMe

Fuerza

Fuentes de alimentación redundantes de 1600 W

Capacidad bruta total

720 TB


Referencia del servidor de almacenamiento


Dell : Servidor en rack PowerEdge R7615


HPE : HPE ProLiant DL345 Gen11


Supermicro : Servidor A+ 2114S-WN24RT


Especificación del conmutador de red

Componente

Especificación


Conmutador de la parte superior del rack (TOR)

32 * 100 GbE QSFP 28 puertos


Interruptor de columna

64 * 100 GbE QSFP 28 puertos


Cable

100G QSFP 28 AOC


Fuerza

500 vatios por interruptor



Precio

MinIO ha validado esta arquitectura con varios clientes y espera que otros vean el siguiente precio promedio por terabyte por mes. Este es un precio promedio en la calle y el precio real puede variar según la configuración y la relación con el proveedor de hardware.


Escala

Precio del hardware de almacenamiento **(por TB/mes)**

Precio del software MinIO **(Por TB/mes)**

100PiB

$1,50

$3,54


Los dispositivos de hardware llave en mano específicos del proveedor para IA generarán un alto costo total de propiedad y no son escalables desde el punto de vista de la economía unitaria para iniciativas de IA de grandes datos a escala de exabytes.

Conclusión

La configuración de la infraestructura de datos a escala de exabytes y el cumplimiento de los objetivos de TCO para todas las cargas de trabajo de IA/ML pueden ser complejos y difíciles de implementar correctamente. El modelo de infraestructura DataPOD de MinIO hace que sea simple y directo para los administradores de infraestructura configurar el hardware comercial requerido con un almacén de objetos empresariales MinIO compatible con S3 altamente escalable, de alto rendimiento y rentable, lo que da como resultado un mejor tiempo general de comercialización y un tiempo más rápido para obtener valor de las iniciativas de IA en todas las organizaciones dentro del panorama empresarial.