Das moderne Unternehmen definiert sich über seine Daten. Dies erfordert eine Dateninfrastruktur für KI/ML sowie eine Dateninfrastruktur, die die Grundlage für einen modernen Datalake bildet, der Business Intelligence, Datenanalyse und Datenwissenschaft unterstützen kann. Dies gilt, wenn sie noch im Rückstand sind, gerade erst anfangen oder KI für erweiterte Erkenntnisse verwenden. In absehbarer Zukunft werden Unternehmen so wahrgenommen. Das größere Problem, wie KI im Unternehmen auf den Markt kommt, hat mehrere Dimensionen oder Phasen. Dazu gehören Datenaufnahme, Transformation, Training, Inferenz, Produktion und Archivierung, wobei die Daten in jeder Phase gemeinsam genutzt werden. Mit der Skalierung dieser Workloads steigt die Komplexität der zugrunde liegenden KI-Dateninfrastruktur. Dies schafft den Bedarf an einer Hochleistungsinfrastruktur bei gleichzeitiger Minimierung der Gesamtbetriebskosten (TCO).
MinIO hat einen umfassenden Entwurf für eine Dateninfrastruktur erstellt, um Exascale-KI und andere groß angelegte Data Lake-Workloads zu unterstützen. Er heißt MinIO DataPod. Die verwendete Maßeinheit ist 100 PiB. Warum? Weil dies heute in Unternehmen üblich ist. Hier sind einige kurze Beispiele:
Ein nordamerikanischer Automobilhersteller mit fast einem Exabyte an Autovideos
Ein deutscher Automobilhersteller mit mehr als 50 PB Fahrzeugtelemetrie
Ein Biotech-Unternehmen mit mehr als 50 PB an biologischen, chemischen und patientenbezogenen Daten
Ein Cybersicherheitsunternehmen mit mehr als 500 PB an Protokolldateien
Ein Media-Streaming-Unternehmen mit mehr als 200 PB an Video
Ein Rüstungskonzern mit über 80 PB an Geodaten, Log- und Telemetriedaten von Flugzeugen
Auch wenn sie heute noch nicht bei 100 PB sind, werden sie es in ein paar Quartalen sein. Das durchschnittliche Unternehmen wächst jährlich um 42 %, datenzentrierte Unternehmen wachsen doppelt so schnell, wenn nicht sogar noch schneller.
Die MinIO Datapod-Referenzarchitektur kann auf verschiedene Weise gestapelt werden, um nahezu jede Größenordnung zu erreichen. Tatsächlich haben wir Kunden, die auf dieser Blaupause aufgebaut haben – bis weit über ein Exabyte und mit mehreren Hardwareanbietern. Der MinIO DataPod bietet eine End-to-End-Architektur, die es Infrastrukturadministratoren ermöglicht, kosteneffiziente Lösungen für eine Vielzahl von KI- und ML-Workloads bereitzustellen. Hier ist die Begründung für unsere Architektur.
KI-Workloads, insbesondere generative KI, erfordern von Natur aus GPUs für die Berechnung. Sie sind spektakuläre Geräte mit unglaublichem Durchsatz, Speicherbandbreite und parallelen Verarbeitungsfunktionen. Um mit den immer schneller werdenden GPUs Schritt zu halten, ist Hochgeschwindigkeitsspeicher erforderlich. Dies gilt insbesondere dann, wenn Trainingsdaten nicht in den Speicher passen und Trainingsschleifen mehr Zugriffe auf den Speicher vornehmen müssen. Darüber hinaus benötigen Unternehmen mehr als nur Leistung, sie brauchen auch Sicherheit, Replikation und Ausfallsicherheit.
Die Speicheranforderungen von Unternehmen erfordern, dass die Architektur Speicher und Rechenleistung vollständig trennt. Dadurch kann der Speicher unabhängig von der Rechenleistung skaliert werden. Da das Speicherwachstum im Allgemeinen um eine oder mehrere Größenordnungen höher ist als das Rechenleistungswachstum, gewährleistet dieser Ansatz durch überlegene Kapazitätsauslastung die beste Wirtschaftlichkeit.
Die Netzwerkinfrastruktur ist für die Bereitstellung von KI-Workloads auf Bandbreitenverbindungen mit 100 Gigabit pro Sekunde (Gbit/s) standardisiert. Moderne NVMe-Laufwerke bieten durchschnittlich einen Durchsatz von 7 Gbit/s, wodurch die Netzwerkbandbreite zwischen den Speicherservern und den GPU-Rechnerservern zum Engpass für die Ausführungsleistung der KI-Pipeline wird.
Die Lösung dieses Problems mit komplexen Netzwerklösungen wie Infiniband (IB) hat echte Einschränkungen. Wir empfehlen Unternehmen, vorhandene, industrieübliche Ethernet-basierte Lösungen (z. B. HTTP über TCP) zu nutzen, die sofort einsatzbereit sind und Daten mit hohem Durchsatz für GPUs liefern, und zwar aus folgenden Gründen:
Es ist kein Zufall, dass die KI-Dateninfrastruktur in öffentlichen Clouds vollständig auf Objektspeichern aufbaut. Ebenso wenig ist es ein Zufall, dass jedes wichtige Basismodell auf einem Objektspeicher trainiert wurde. Dies liegt daran, dass POSIX zu gesprächig ist, um auf dem von der KI benötigten Datenumfang zu arbeiten – egal, was der Chor der Legacy-Filer behaupten mag.
Dieselbe Architektur, die KI in der öffentlichen Cloud bereitstellt, sollte auch auf die private Cloud und natürlich die Hybrid Cloud angewendet werden. Objektspeicher eignen sich hervorragend für die Verarbeitung verschiedener Datenformate und großer Mengen unstrukturierter Daten und können mühelos skaliert werden, um wachsende Datenmengen aufzunehmen, ohne die Leistung zu beeinträchtigen. Ihre flachen Namespace- und Metadatenfunktionen ermöglichen eine effiziente Datenverwaltung und -verarbeitung, die für KI-Aufgaben, die einen schnellen Zugriff auf große Datensätze erfordern, von entscheidender Bedeutung ist.
Angesichts der Weiterentwicklung von Hochgeschwindigkeits-GPUs und der Standardisierung der Netzwerkbandbreite auf 200/400/800 Gbit/s und mehr werden moderne Objektspeicher die einzige Lösung sein, die den Leistungs-SLAs und dem Umfang von KI-Workloads gerecht wird.
Wir wissen, dass GPUs der Star der Show sind und dass sie Hardware sind. Aber selbst Nvidia wird Ihnen sagen, dass die Geheimzutat CUDA ist. Wenn man jedoch über den Chip hinausgeht, wird die Infrastrukturwelt zunehmend softwaredefiniert. Nirgendwo trifft dies mehr zu als bei der Speicherung. Softwaredefinierte Speicherlösungen sind für Skalierbarkeit, Flexibilität und Cloud-Integration unerlässlich und übertreffen herkömmliche gerätebasierte Modelle aus den folgenden Gründen:
Cloud-Kompatibilität : Softwaredefinierter Speicher ist auf Cloud-Vorgänge ausgerichtet, im Gegensatz zu Appliances, die nicht über mehrere Clouds hinweg ausgeführt werden können.
Containerisierung : Appliances können nicht in Containern bereitgestellt werden, wodurch die Vorteile der Cloud-nativen Architektur verloren gehen und eine Kubernetes-Orchestrierung verhindert wird.
Hardwareflexibilität : Softwaredefinierter Speicher unterstützt eine breite Palette an Hardware, vom Edge bis zum Core, und passt sich unterschiedlichen IT-Umgebungen an.
Adaptive Leistung : Softwaredefinierter Speicher bietet unübertroffene Flexibilität und verwaltet effizient unterschiedliche Kapazitäten und Leistungsanforderungen über verschiedene Chipsätze hinweg.
Im Exabyte-Bereich sind Einfachheit und ein Cloud-basiertes Betriebsmodell entscheidend. Object Storage sollte als softwaredefinierte Lösung nahtlos auf handelsüblicher Hardware (COTS) und jeder Computerplattform funktionieren, sei es Bare Metal, virtuelle Maschinen oder Container.
Maßgeschneiderte Hardware-Geräte für die Objektspeicherung kompensieren schlecht konzipierte Software häufig durch teure Hardware und komplexe Lösungen, was zu hohen Gesamtbetriebskosten (TCO) führt.
Unternehmenskunden, die MinIO für KI-Initiativen verwenden, bauen Dateninfrastrukturen im Exabyte-Bereich als wiederholbare Einheiten von 100 PiB auf. Dies erleichtert Infrastrukturadministratoren den Prozess der Bereitstellung, Wartung und Skalierung, da die KI-Daten im Laufe der Zeit exponentiell wachsen. Unten finden Sie die Stückliste (BOM) zum Aufbau einer Dateninfrastruktur im 100-PiB-Bereich.
Komponente | Menge |
---|---|
Gesamtzahl der Racks | 30 |
Gesamtzahl der Speicherserver | 330 |
Gesamtzahl der Speicherserver pro Rack | 11 |
Gesamtzahl der TOR-Switches | 60 |
Gesamtzahl der Spine-Switches | 10 |
Erasure Code-Streifengröße | 10 |
Erasure Code-Parität | 4 |
Komponente | Beschreibung | Menge |
---|---|---|
Rack-Gehäuse | 42U/45U Steckplatz-Rack | 1 |
Speicherserver | 2U-Formfaktor | 11 |
Top-of-the-Rack-Switches | Layer 2-Switch | 2 |
Management-Schalter | Kombinierte Layer 2 und Layer 3 | 1 |
Netzwerkkabel | AOC-Kabel | 30-40 |
Leistung | Duale Stromversorgung mit RPDU | 17 kW – 20 kW |
Komponente | Spezifikation |
---|---|
Server | 2HE, Einzelbuchse |
CPU | 64 Kerne, 128 * PCIe 4.0-Lanes |
Erinnerung | 256 GB |
Netzwerk | Dual-Port, 200-GBit/s-NIC |
Laufwerksschächte | 24 Hot-Swap-fähige 2,5-Zoll-U.2-NVMe |
Laufwerke | 30 TB * 24 NVMe |
Leistung | Redundante 1600-W-Netzteile |
Gesamte Rohkapazität | 720 TB |
Dell : PowerEdge R7615 Rack-Server
HPE : HPE ProLiant DL345 Gen11
Supermicro : A+ Server 2114S-WN24RT
Komponente | Spezifikation | |
---|---|---|
Top of the Rack (TOR)-Schalter | 32 * 100GbE QSFP 28 Anschlüsse | |
Wirbelsäulenschalter | 64 * 100GbE QSFP 28-Anschlüsse | |
Kabel | 100G QSFP 28 AOC | |
Leistung | 500 Watt pro Schalter | |
MinIO hat diese Architektur mit mehreren Kunden validiert und erwartet, dass andere den folgenden Durchschnittspreis pro Terabyte pro Monat sehen. Dies ist ein durchschnittlicher Straßenpreis und der tatsächliche Preis kann je nach Konfiguration und Beziehung zum Hardwareanbieter variieren.
Skala | Preis für Speicherhardware **(pro TB/Monat)** | MinIO-Softwarepreis **(Pro TB/Monat)** |
---|---|---|
100 PiB | 1,50 $ | 3,54 $ |
Anbieterspezifische schlüsselfertige Hardwaregeräte für KI führen zu hohen Gesamtbetriebskosten und sind aus wirtschaftlicher Sicht für KI-Initiativen mit großen Datenmengen im Exabyte-Bereich nicht skalierbar.
Die Einrichtung einer Dateninfrastruktur im Exabyte-Bereich bei gleichzeitiger Einhaltung der TCO-Ziele für alle KI/ML-Workloads kann komplex und schwierig sein. Der DataPOD-Infrastrukturentwurf von MinIO macht es für Infrastrukturadministratoren einfach und unkompliziert, die erforderliche Standardhardware mit einem hoch skalierbaren, leistungsfähigen und kostengünstigen S3-kompatiblen MinIO-Unternehmensobjektspeicher einzurichten, was zu einer verbesserten Markteinführungszeit und einer schnelleren Wertschöpfung aus KI-Initiativen in allen Organisationen innerhalb der Unternehmenslandschaft führt.