L’entreprise moderne se définit par ses données. Cela nécessite une infrastructure de données pour l’IA/ML ainsi qu’une infrastructure de données qui constitue la base d’un Datalake moderne capable de prendre en charge la veille stratégique, l’analyse de données et la science des données. Cela est vrai si elles sont en retard, débutantes ou utilisent l’IA pour obtenir des informations avancées. Dans un avenir proche, c’est ainsi que les entreprises seront perçues. Le problème plus vaste de la mise sur le marché de l’IA dans l’entreprise comporte plusieurs dimensions ou étapes. Il s’agit notamment de l’ingestion, de la transformation, de la formation, de l’inférence, de la production et de l’archivage des données, les données étant partagées à chaque étape. À mesure que ces charges de travail augmentent, la complexité de l’infrastructure de données IA sous-jacente augmente. Cela crée le besoin d’une infrastructure haute performance tout en minimisant le coût total de possession (TCO).
MinIO a créé un plan détaillé pour l'infrastructure de données afin de prendre en charge l'IA exascale et d'autres charges de travail de lac de données à grande échelle. Il s'appelle MinIO DataPod. L'unité de mesure qu'il utilise est 100 PiB. Pourquoi ? Parce que la réalité est que c'est courant aujourd'hui dans l'entreprise. Voici quelques exemples rapides :
Un constructeur automobile nord-américain avec près d'un exaoctet de vidéos automobiles
Un constructeur automobile allemand avec plus de 50 Po de télémétrie automobile
Une entreprise de biotechnologie avec plus de 50 Po de données biologiques, chimiques et centrées sur le patient
Une entreprise de cybersécurité avec plus de 500 Po de fichiers journaux
Une société de streaming multimédia avec plus de 200 Po de vidéo
Un sous-traitant de la défense disposant de plus de 80 Po de données géospatiales, de journaux et de télémétrie provenant d'aéronefs
Même si elles ne sont pas à 100 Po aujourd'hui, elles le seront d'ici quelques trimestres. L'entreprise moyenne croît de 42 % par an, les entreprises centrées sur les données connaissent une croissance deux fois plus rapide, voire plus.
L'architecture de référence MinIO Datapod peut être empilée de différentes manières pour atteindre presque n'importe quelle échelle. En effet, nous avons des clients qui ont construit à partir de ce modèle, jusqu'à l'exaoctet et avec plusieurs fournisseurs de matériel. Le MinIO DataPod offre une architecture de bout en bout qui permet aux administrateurs d'infrastructure de déployer des solutions rentables pour une variété de charges de travail d'IA et de ML. Voici la raison d'être de notre architecture.
Les charges de travail de l’IA, en particulier l’IA générative, nécessitent par nature des GPU pour le calcul. Ce sont des appareils spectaculaires dotés d’un débit, d’une bande passante mémoire et de capacités de traitement parallèle incroyables. Pour suivre le rythme des GPU de plus en plus rapides, il faut un stockage à grande vitesse. Cela est particulièrement vrai lorsque les données d’entraînement ne peuvent pas tenir dans la mémoire et que les boucles d’entraînement doivent effectuer davantage d’appels au stockage. En outre, les entreprises ont besoin de plus que de performances, elles ont également besoin de sécurité, de réplication et de résilience.
Les exigences de stockage des entreprises exigent que l'architecture sépare entièrement le stockage du calcul. Cela permet au stockage d'évoluer indépendamment du calcul et, étant donné que la croissance du stockage est généralement d'un ou plusieurs ordres de grandeur supérieure à la croissance du calcul, cette approche garantit la meilleure rentabilité grâce à une utilisation supérieure des capacités.
L'infrastructure réseau est normalisée sur des liaisons de bande passante de 100 gigabits par seconde (Gbps) pour les déploiements de charges de travail d'IA. Les disques NVMe modernes fournissent un débit moyen de 7 Gbps, ce qui fait de la bande passante réseau entre les serveurs de stockage et les serveurs de calcul GPU le goulot d'étranglement des performances d'exécution du pipeline d'IA.
La résolution de ce problème avec des solutions réseau complexes comme Infiniband (IB) présente de réelles limites. Nous recommandons aux entreprises de tirer parti des solutions Ethernet existantes et standard du secteur (par exemple, HTTP sur TCP) qui fonctionnent dès la sortie de la boîte pour fournir des données à haut débit pour les GPU, pour les raisons suivantes :
Ce n’est pas une coïncidence si les infrastructures de données d’IA dans les clouds publics sont toutes construites sur des magasins d’objets. Ce n’est pas non plus une coïncidence si tous les principaux modèles fondamentaux ont été formés sur un magasin d’objets. Cela est dû au fait que POSIX est trop bavard pour fonctionner à l’échelle de données requise par l’IA – malgré ce que prétendent les chorus des déposants traditionnels.
La même architecture qui fournit l’IA dans le cloud public doit être appliquée au cloud privé et évidemment au cloud hybride. Les magasins d’objets excellent dans la gestion de divers formats de données et de grands volumes de données non structurées et peuvent évoluer sans effort pour s’adapter à la croissance des données sans compromettre les performances. Leurs capacités d’espace de noms plat et de métadonnées permettent une gestion et un traitement efficaces des données, essentiels pour les tâches d’IA nécessitant un accès rapide à de grands ensembles de données.
À mesure que les GPU à haut débit évoluent et que la bande passante du réseau se normalise à 200/400/800 Gbit/s et au-delà, les magasins d’objets modernes seront la seule solution capable de répondre aux SLA de performances et à l’échelle des charges de travail de l’IA.
Nous savons que les GPU sont la vedette du spectacle et qu'ils sont du matériel. Mais même Nvidia vous dira que le secret réside dans CUDA. Mais si vous sortez du cadre de la puce, le monde de l'infrastructure est de plus en plus défini par logiciel. Cela est particulièrement vrai pour le stockage. Les solutions de stockage définies par logiciel sont essentielles pour l'évolutivité, la flexibilité et l'intégration dans le cloud, surpassant les modèles traditionnels basés sur des appareils pour les raisons suivantes :
Compatibilité cloud : le stockage défini par logiciel s'aligne sur les opérations cloud, contrairement aux appareils qui ne peuvent pas fonctionner sur plusieurs clouds.
Conteneurisation : les appareils ne peuvent pas être conteneurisés, ce qui entraîne la perte des avantages du cloud natif et empêche l’orchestration de Kubernetes.
Flexibilité matérielle : le stockage défini par logiciel prend en charge une large gamme de matériel, de la périphérie au cœur, s'adaptant à divers environnements informatiques.
Performances adaptatives : le stockage défini par logiciel offre une flexibilité inégalée, gérant efficacement différentes capacités et besoins de performances sur différents chipsets.
À l'échelle de l'exaoctet, la simplicité et un modèle d'exploitation basé sur le cloud sont essentiels. Le stockage d'objets, en tant que solution définie par logiciel, doit fonctionner de manière transparente sur du matériel standard (COTS) et sur n'importe quelle plate-forme de calcul, qu'il s'agisse de matériel nu, de machines virtuelles ou de conteneurs.
Les appareils matériels personnalisés pour le stockage d'objets compensent souvent les logiciels mal conçus par du matériel coûteux et des solutions complexes, ce qui entraîne un coût total de possession (TCO) élevé.
Les entreprises clientes qui utilisent MinIO pour leurs initiatives d'IA construisent une infrastructure de données à l'échelle de l'exaoctet sous forme d'unités répétables de 100 PiB. Cela aide les administrateurs d'infrastructure à faciliter le processus de déploiement, de maintenance et de mise à l'échelle à mesure que les données d'IA augmentent de manière exponentielle au fil du temps. Vous trouverez ci-dessous la nomenclature (BOM) pour la construction d'une infrastructure de données à l'échelle de 100 PiB.
Composant | Quantité |
---|---|
Nombre total de racks | 30 |
Nombre total de serveurs de stockage | 330 |
Nombre total de serveurs de stockage par rack | 11 |
Nombre total de commutateurs TOR | 60 |
Nombre total de commutateurs Spine | 10 |
Taille de la bande de code d'effacement | 10 |
Parité du code d'effacement | 4 |
Composant | Description | Quantité |
---|---|---|
Boîtier de rack | Rack à fentes 42U/45U | 1 |
Serveur de stockage | Facteur de forme 2U | 11 |
Commutateurs haut de gamme | Commutateur de couche 2 | 2 |
Commutateur de gestion | Couche 2 et couche 3 combinées | 1 |
Câbles réseau | Câbles AOC | 30-40 |
Pouvoir | Alimentation double avec RPDU | 17 kW - 20 kW |
Composant | Spécification |
---|---|
Serveur | 2U, prise simple |
Processeur | 64 cœurs, 128 voies PCIe 4.0 |
Mémoire | 256 Go |
Réseau | Carte réseau double port 200 Go |
Baies de lecteur | 24 disques NVMe U.2 2,5" échangeables à chaud |
Conduites | 30 To * 24 NVMe |
Pouvoir | Alimentations redondantes de 1600 W |
Capacité brute totale | 720 To |
Dell : Serveur rack PowerEdge R7615
HPE : HPE ProLiant DL345 Gen11
Supermicro : Serveur A+ 2114S-WN24RT
Composant | Spécification | |
---|---|---|
Commutateur de rack supérieur (TOR) | 32 * 100GbE QSFP 28 ports | |
Interrupteur de colonne vertébrale | 64 * 100GbE QSFP 28 ports | |
Câble | 100G QSFP 28 AOC | |
Pouvoir | 500 watts par interrupteur | |
MinIO a validé cette architecture auprès de plusieurs clients et s'attend à ce que d'autres voient le prix moyen suivant par téraoctet par mois. Il s'agit d'un prix de vente moyen et le prix réel peut varier en fonction de la configuration et de la relation avec le fournisseur de matériel.
Échelle | Prix du matériel de stockage **(par To/mois)** | Prix du logiciel MinIO **(Par To/mois)** |
---|---|---|
100 PiB | 1,50 $ | 3,54 $ |
Les appareils matériels clés en main spécifiques aux fournisseurs pour l'IA entraîneront un coût total de possession élevé et ne sont pas évolutifs d'un point de vue économique pour les initiatives d'IA de données volumineuses à l'échelle de l'exaoctet.
La mise en place d'une infrastructure de données à l'échelle de l'exaoctet tout en respectant les objectifs de coût total de possession pour toutes les charges de travail d'IA/ML peut être complexe et difficile à réaliser. Le plan d'infrastructure DataPOD de MinIO permet aux administrateurs d'infrastructure de configurer facilement et rapidement le matériel prêt à l'emploi requis avec un magasin d'objets d'entreprise MinIO compatible S3 hautement évolutif et performant, ce qui améliore le délai de mise sur le marché global et accélère la rentabilisation des initiatives d'IA dans toutes les organisations du paysage de l'entreprise.