paint-brush
O MinIO DataPod: Uma Arquitetura de Referência para Computação em Exaescalapor@minio
7,519 leituras
7,519 leituras

O MinIO DataPod: Uma Arquitetura de Referência para Computação em Exaescala

por MinIO7m2024/08/20
Read on Terminal Reader

Muito longo; Para ler

O MinIO criou um blueprint abrangente para infraestrutura de dados para dar suporte a IA exascale e outras cargas de trabalho de data lake de grande escala. O MinIO DataPod oferece uma arquitetura de ponta a ponta que permite que administradores de infraestrutura implantem soluções econômicas para uma variedade de cargas de trabalho de IA e ML.
featured image - O MinIO DataPod: Uma Arquitetura de Referência para Computação em Exaescala
MinIO HackerNoon profile picture


A empresa moderna se define por seus dados. Isso requer uma infraestrutura de dados para IA/ML, bem como uma infraestrutura de dados que seja a base para um Datalake Moderno capaz de dar suporte a inteligência empresarial, análise de dados e ciência de dados. Isso é verdade se eles estão atrasados, começando ou usando IA para insights avançados. No futuro previsível, essa será a maneira como as empresas serão percebidas. Existem várias dimensões ou estágios para o problema maior de como a IA chega ao mercado na empresa. Isso inclui ingestão de dados, transformação, treinamento, inferência, produção e arquivamento, com dados compartilhados em cada estágio. À medida que essas cargas de trabalho aumentam, a complexidade da infraestrutura de dados de IA subjacente aumenta. Isso cria a necessidade de infraestrutura de alto desempenho, minimizando o custo total de propriedade (TCO).


O MinIO criou um blueprint abrangente para infraestrutura de dados para dar suporte a IA exascale e outras cargas de trabalho de data lake de grande escala. Ele é chamado de MinIO DataPod. A unidade de medida que ele usa é 100 PiB. Por quê? Porque a realidade é que isso é comum hoje em dia na empresa. Aqui estão alguns exemplos rápidos:


  • Um fabricante de automóveis norte-americano com quase um exabyte de vídeos de carros

  • Um fabricante de automóveis alemão com mais de 50 PB de telemetria de automóveis

  • Uma empresa de biotecnologia com mais de 50 PB de dados biológicos, químicos e centrados no paciente

  • Uma empresa de segurança cibernética com mais de 500 PB de arquivos de log

  • Uma empresa de streaming de mídia com mais de 200 PB de vídeo

  • Um contratante de defesa com mais de 80 PB de dados geoespaciais, de registro e telemetria de aeronaves


Mesmo que não estejam em 100 PB hoje, estarão em alguns trimestres. A empresa média está crescendo a 42% ao ano, empresas centradas em dados estão crescendo a uma taxa duas vezes maior, se não mais.


A arquitetura de referência do MinIO Datapod pode ser empilhada de diferentes maneiras para atingir quase qualquer escala - na verdade, temos clientes que construíram a partir desse blueprint - passando de um exabyte e com vários fornecedores de hardware. O MinIO DataPod oferece uma arquitetura de ponta a ponta que permite que os administradores de infraestrutura implantem soluções econômicas para uma variedade de cargas de trabalho de IA e ML. Aqui está a justificativa para nossa arquitetura.

A IA requer armazenamento e computação desagregados

Cargas de trabalho de IA, especialmente IA generativa, inerentemente exigem GPUs para computação. Eles são dispositivos espetaculares com incrível rendimento, largura de banda de memória e capacidades de processamento paralelo. Acompanhar GPUs que estão ficando cada vez mais rápidas requer armazenamento de alta velocidade. Isso é especialmente verdadeiro quando os dados de treinamento não cabem na memória e os loops de treinamento precisam fazer mais chamadas para o armazenamento. Além disso, as empresas exigem mais do que desempenho, elas também precisam de segurança, replicação e resiliência.


O requisito de armazenamento empresarial exige que a arquitetura desagregue totalmente o armazenamento da computação. Isso permite que o armazenamento seja dimensionado independentemente da computação e, dado que o crescimento do armazenamento é geralmente uma ou mais ordens de magnitude maior do que o crescimento da computação, essa abordagem garante a melhor economia por meio da utilização de capacidade superior.

Cargas de trabalho de IA exigem uma classe diferente de rede

A infraestrutura de rede padronizou links de largura de banda de 100 Gigabits por segundo (Gbps) para implantações de carga de trabalho de IA. As unidades NVMe modernas fornecem uma taxa de transferência de 7 GBps em média, tornando a largura de banda de rede entre os servidores de armazenamento e os servidores de computação de GPU o gargalo para o desempenho de execução do pipeline de IA.


Resolver esse problema com soluções de rede complexas como Infiniband (IB) tem limitações reais. Recomendamos que as empresas aproveitem as soluções existentes baseadas em Ethernet padrão da indústria (por exemplo, HTTP sobre TCP) que funcionam imediatamente para entregar dados em alto rendimento para GPUs pelos seguintes motivos:


  • Ecossistema muito maior e aberto
  • Custo de infraestrutura de rede reduzido
  • Altas velocidades de interconexão (800 GbE e além) com suporte RDMA sobre Ethernet (ou seja: RoCEv2)
  • Reutilizar a experiência e as ferramentas existentes na implantação, gerenciamento e observação de Ethernet
  • A inovação em torno da comunicação entre GPUs e servidores de armazenamento está acontecendo em soluções baseadas em Ethernet

Os requisitos de armazenamento de objetos de demanda de IA

Não é coincidência que a infraestrutura de dados de IA em nuvens públicas seja toda construída sobre armazenamentos de objetos. Nem é coincidência que todos os principais modelos fundamentais tenham sido treinados em um armazenamento de objetos. Isso é uma função do fato de que o POSIX é muito tagarela para trabalhar na escala de dados exigida pela IA - apesar do que o coro de arquivadores legados alegará.


A mesma arquitetura que entrega IA na nuvem pública deve ser aplicada à nuvem privada e, obviamente, à nuvem híbrida. Os armazenamentos de objetos se destacam no manuseio de vários formatos de dados e grandes volumes de dados não estruturados e podem ser facilmente dimensionados para acomodar dados crescentes sem comprometer o desempenho. Seus recursos de namespace e metadados simples permitem gerenciamento e processamento de dados eficientes, o que é crucial para tarefas de IA que exigem acesso rápido a grandes conjuntos de dados.


À medida que as GPUs de alta velocidade evoluem e a largura de banda da rede se padroniza em 200/400/800 Gbps e além, os armazenamentos de objetos modernos serão a única solução que atenderá aos SLAs de desempenho e à escala das cargas de trabalho de IA.


Tudo definido por software

Sabemos que as GPUs são a estrela do show e que elas são hardware. Mas até mesmo a Nvidia dirá que o molho secreto é CUDA. No entanto, vá além do chip e o mundo da infraestrutura é cada vez mais definido por software. Em nenhum lugar isso é mais verdadeiro do que no armazenamento. As soluções de armazenamento definidas por software são essenciais para escalabilidade, flexibilidade e integração em nuvem, superando os modelos tradicionais baseados em dispositivos pelos seguintes motivos:


  • Compatibilidade com a nuvem : o armazenamento definido por software se alinha às operações na nuvem, diferentemente de dispositivos que não podem ser executados em várias nuvens.


  • Conteinerização : os dispositivos não podem ser conteinerizados, perdendo as vantagens nativas da nuvem e impedindo a orquestração do Kubernetes.


  • Flexibilidade de hardware : o armazenamento definido por software oferece suporte a uma ampla variedade de hardware, do edge ao core, acomodando diversos ambientes de TI.


  • Desempenho adaptável : o armazenamento definido por software oferece flexibilidade incomparável, gerenciando com eficiência diferentes capacidades e necessidades de desempenho em vários chipsets.


Em escala exabyte, simplicidade e um modelo operacional baseado em nuvem são cruciais. O armazenamento de objetos, como uma solução definida por software, deve funcionar perfeitamente em hardware de commodity pronto para uso (COTS) e qualquer plataforma de computação, seja bare metal, máquinas virtuais ou contêineres.


Dispositivos de hardware personalizados para armazenamento de objetos geralmente compensam softwares mal projetados com hardware caro e soluções complexas, resultando em um alto custo total de propriedade (TCO).

Especificação de hardware MinIO DataPOD para IA:

Clientes corporativos que usam o MinIO para iniciativas de IA criam infraestrutura de dados em escala de exabytes como unidades repetíveis de 100 PiB. Isso ajuda os administradores de infraestrutura a facilitar o processo de implantação, manutenção e dimensionamento à medida que os dados de IA crescem exponencialmente ao longo de um período de tempo. Abaixo está a lista de materiais (BOM) para construir uma infraestrutura de dados em escala de 100 PiB.


Especificação de cluster


Componente

Quantidade

Número total de Racks

30

Número total de servidores de armazenamento

330

Número total de servidores de armazenamento por rack

11

Número total de interruptores TOR

60

Número total de interruptores de coluna

10

Tamanho da faixa do código de apagamento

10

Paridade de código de apagamento

4


Especificação de rack único


Componente

Descrição

Quantidade

Gabinete de Rack

Slots de rack 42U/45U

1

Servidor de armazenamento

Fator de forma 2U

11

Interruptores Top Of the Rack

Interruptor de camada 2

2

Interruptor de gerenciamento

Camada 2 e Camada 3 combinadas

1

Cabos de rede

Cabos AOC

30-40

Poder

Fonte de alimentação dupla com RPDU

17 kW - 20 kW


Especificação do servidor de armazenamento

Componente

Especificação

Servidor

2U, soquete único

CPU

64 núcleos, 128 * pistas PCIe 4.0

Memória

256 GB

Rede

Porta dupla, NIC de 200 Gbe

Baías de Unidade

24 NVMe U.2 de 2,5" de troca a quente

Unidades

30 TB * 24 NVMe

Poder

Fontes de alimentação redundantes de 1600 W

Capacidade bruta total

720 TB


Referência do servidor de armazenamento


Dell : Servidor Rack PowerEdge R7615


HPE : HPE ProLiant DL345 Gen11


Supermicro : Servidor A+ 2114S-WN24RT


Especificação do switch de rede

Componente

Especificação


Interruptor Top of the Rack (TOR)

32 * 100GbE QSFP 28 portas


Troca de coluna

64 * 100GbE QSFP 28 portas


Cabo

100G QSFP 28 AOC


Poder

500 Watts por interruptor



Preço

O MinIO validou essa arquitetura com vários clientes e esperaria que outros vissem o seguinte preço médio por terabyte por mês. Esse é um preço médio de rua e o preço real pode variar dependendo da configuração e do relacionamento com o fornecedor de hardware.


Escala

Preço do hardware de armazenamento **(Por TB/mês)**

Preço do software MinIO **(por TB/mês)**

100PiB

$ 1,50

$ 3,54


Dispositivos de hardware prontos para uso específicos do fornecedor para IA resultarão em alto TCO e não são escaláveis do ponto de vista da economia unitária para grandes iniciativas de IA de dados em escala de exabyte.

Conclusão

A configuração da infraestrutura de dados em escala exabyte enquanto atende aos objetivos de TCO para todas as cargas de trabalho de IA/ML pode ser complexa e difícil de acertar. O blueprint de infraestrutura DataPOD da MinIO torna simples e direto para os administradores de infraestrutura configurar o hardware de prateleira de commodity necessário com o armazenamento de objetos corporativos MinIO compatível com S3 altamente escalável e de alto desempenho, resultando em melhor tempo geral de colocação no mercado e tempo mais rápido para valorização de iniciativas de IA em todas as organizações dentro do cenário corporativo.