7,527 Lesungen

Der MinIO DataPod: Eine Referenzarchitektur für Exascale-Computing

von MinIO7m2024/08/20

Zu lang; Lesen

MinIO hat einen umfassenden Entwurf für eine Dateninfrastruktur erstellt, um Exascale-KI und andere groß angelegte Data Lake-Workloads zu unterstützen. Der MinIO DataPod bietet eine End-to-End-Architektur, mit der Infrastrukturadministratoren kosteneffiziente Lösungen für eine Vielzahl von KI- und ML-Workloads bereitstellen können.

featured image - Der MinIO DataPod: Eine Referenzarchitektur für Exascale-Computing

Das moderne Unternehmen definiert sich über seine Daten. Dies erfordert eine Dateninfrastruktur für KI/ML sowie eine Dateninfrastruktur, die die Grundlage für einen modernen Datalake bildet, der Business Intelligence, Datenanalyse und Datenwissenschaft unterstützen kann. Dies gilt, wenn sie noch im Rückstand sind, gerade erst anfangen oder KI für erweiterte Erkenntnisse verwenden. In absehbarer Zukunft werden Unternehmen so wahrgenommen. Das größere Problem, wie KI im Unternehmen auf den Markt kommt, hat mehrere Dimensionen oder Phasen. Dazu gehören Datenaufnahme, Transformation, Training, Inferenz, Produktion und Archivierung, wobei die Daten in jeder Phase gemeinsam genutzt werden. Mit der Skalierung dieser Workloads steigt die Komplexität der zugrunde liegenden KI-Dateninfrastruktur. Dies schafft den Bedarf an einer Hochleistungsinfrastruktur bei gleichzeitiger Minimierung der Gesamtbetriebskosten (TCO).

MinIO hat einen umfassenden Entwurf für eine Dateninfrastruktur erstellt, um Exascale-KI und andere groß angelegte Data Lake-Workloads zu unterstützen. Er heißt MinIO DataPod. Die verwendete Maßeinheit ist 100 PiB. Warum? Weil dies heute in Unternehmen üblich ist. Hier sind einige kurze Beispiele:

Ein nordamerikanischer Automobilhersteller mit fast einem Exabyte an Autovideos
Ein deutscher Automobilhersteller mit mehr als 50 PB Fahrzeugtelemetrie
Ein Biotech-Unternehmen mit mehr als 50 PB an biologischen, chemischen und patientenbezogenen Daten
Ein Cybersicherheitsunternehmen mit mehr als 500 PB an Protokolldateien
Ein Media-Streaming-Unternehmen mit mehr als 200 PB an Video
Ein Rüstungskonzern mit über 80 PB an Geodaten, Log- und Telemetriedaten von Flugzeugen

Auch wenn sie heute noch nicht bei 100 PB sind, werden sie es in ein paar Quartalen sein. Das durchschnittliche Unternehmen wächst jährlich um 42 %, datenzentrierte Unternehmen wachsen doppelt so schnell, wenn nicht sogar noch schneller.

Die MinIO Datapod-Referenzarchitektur kann auf verschiedene Weise gestapelt werden, um nahezu jede Größenordnung zu erreichen. Tatsächlich haben wir Kunden, die auf dieser Blaupause aufgebaut haben – bis weit über ein Exabyte und mit mehreren Hardwareanbietern. Der MinIO DataPod bietet eine End-to-End-Architektur, die es Infrastrukturadministratoren ermöglicht, kosteneffiziente Lösungen für eine Vielzahl von KI- und ML-Workloads bereitzustellen. Hier ist die Begründung für unsere Architektur.

KI erfordert disaggregierte Speicherung und Berechnung

KI-Workloads, insbesondere generative KI, erfordern von Natur aus GPUs für die Berechnung. Sie sind spektakuläre Geräte mit unglaublichem Durchsatz, Speicherbandbreite und parallelen Verarbeitungsfunktionen. Um mit den immer schneller werdenden GPUs Schritt zu halten, ist Hochgeschwindigkeitsspeicher erforderlich. Dies gilt insbesondere dann, wenn Trainingsdaten nicht in den Speicher passen und Trainingsschleifen mehr Zugriffe auf den Speicher vornehmen müssen. Darüber hinaus benötigen Unternehmen mehr als nur Leistung, sie brauchen auch Sicherheit, Replikation und Ausfallsicherheit.

Die Speicheranforderungen von Unternehmen erfordern, dass die Architektur Speicher und Rechenleistung vollständig trennt. Dadurch kann der Speicher unabhängig von der Rechenleistung skaliert werden. Da das Speicherwachstum im Allgemeinen um eine oder mehrere Größenordnungen höher ist als das Rechenleistungswachstum, gewährleistet dieser Ansatz durch überlegene Kapazitätsauslastung die beste Wirtschaftlichkeit.

KI-Workloads erfordern eine andere Art der Vernetzung

Die Netzwerkinfrastruktur ist für die Bereitstellung von KI-Workloads auf Bandbreitenverbindungen mit 100 Gigabit pro Sekunde (Gbit/s) standardisiert. Moderne NVMe-Laufwerke bieten durchschnittlich einen Durchsatz von 7 Gbit/s, wodurch die Netzwerkbandbreite zwischen den Speicherservern und den GPU-Rechnerservern zum Engpass für die Ausführungsleistung der KI-Pipeline wird.

Die Lösung dieses Problems mit komplexen Netzwerklösungen wie Infiniband (IB) hat echte Einschränkungen. Wir empfehlen Unternehmen, vorhandene, industrieübliche Ethernet-basierte Lösungen (z. B. HTTP über TCP) zu nutzen, die sofort einsatzbereit sind und Daten mit hohem Durchsatz für GPUs liefern, und zwar aus folgenden Gründen:

Viel größeres und offeneres Ökosystem
Reduzierte Kosten für die Netzwerkinfrastruktur
Hohe Verbindungsgeschwindigkeiten (800 GbE und mehr) mit RDMA-over-Ethernet-Unterstützung (z. B. RoCEv2)
Nutzen Sie vorhandenes Fachwissen und vorhandene Tools für die Bereitstellung, Verwaltung und Überwachung von Ethernet wieder.
Innovationen im Bereich der Kommunikation zwischen GPUs und Storage-Servern erfolgen über Ethernet-basierte Lösungen

Die Anforderungen der KI erfordern Object Storage

Es ist kein Zufall, dass die KI-Dateninfrastruktur in öffentlichen Clouds vollständig auf Objektspeichern aufbaut. Ebenso wenig ist es ein Zufall, dass jedes wichtige Basismodell auf einem Objektspeicher trainiert wurde. Dies liegt daran, dass POSIX zu gesprächig ist, um auf dem von der KI benötigten Datenumfang zu arbeiten – egal, was der Chor der Legacy-Filer behaupten mag.

Dieselbe Architektur, die KI in der öffentlichen Cloud bereitstellt, sollte auch auf die private Cloud und natürlich die Hybrid Cloud angewendet werden. Objektspeicher eignen sich hervorragend für die Verarbeitung verschiedener Datenformate und großer Mengen unstrukturierter Daten und können mühelos skaliert werden, um wachsende Datenmengen aufzunehmen, ohne die Leistung zu beeinträchtigen. Ihre flachen Namespace- und Metadatenfunktionen ermöglichen eine effiziente Datenverwaltung und -verarbeitung, die für KI-Aufgaben, die einen schnellen Zugriff auf große Datensätze erfordern, von entscheidender Bedeutung ist.

Angesichts der Weiterentwicklung von Hochgeschwindigkeits-GPUs und der Standardisierung der Netzwerkbandbreite auf 200/400/800 Gbit/s und mehr werden moderne Objektspeicher die einzige Lösung sein, die den Leistungs-SLAs und dem Umfang von KI-Workloads gerecht wird.

Softwaredefiniertes Alles

Wir wissen, dass GPUs der Star der Show sind und dass sie Hardware sind. Aber selbst Nvidia wird Ihnen sagen, dass die Geheimzutat CUDA ist. Wenn man jedoch über den Chip hinausgeht, wird die Infrastrukturwelt zunehmend softwaredefiniert. Nirgendwo trifft dies mehr zu als bei der Speicherung. Softwaredefinierte Speicherlösungen sind für Skalierbarkeit, Flexibilität und Cloud-Integration unerlässlich und übertreffen herkömmliche gerätebasierte Modelle aus den folgenden Gründen:

Cloud-Kompatibilität : Softwaredefinierter Speicher ist auf Cloud-Vorgänge ausgerichtet, im Gegensatz zu Appliances, die nicht über mehrere Clouds hinweg ausgeführt werden können.
Containerisierung : Appliances können nicht in Containern bereitgestellt werden, wodurch die Vorteile der Cloud-nativen Architektur verloren gehen und eine Kubernetes-Orchestrierung verhindert wird.
Hardwareflexibilität : Softwaredefinierter Speicher unterstützt eine breite Palette an Hardware, vom Edge bis zum Core, und passt sich unterschiedlichen IT-Umgebungen an.
Adaptive Leistung : Softwaredefinierter Speicher bietet unübertroffene Flexibilität und verwaltet effizient unterschiedliche Kapazitäten und Leistungsanforderungen über verschiedene Chipsätze hinweg.

Im Exabyte-Bereich sind Einfachheit und ein Cloud-basiertes Betriebsmodell entscheidend. Object Storage sollte als softwaredefinierte Lösung nahtlos auf handelsüblicher Hardware (COTS) und jeder Computerplattform funktionieren, sei es Bare Metal, virtuelle Maschinen oder Container.

Maßgeschneiderte Hardware-Geräte für die Objektspeicherung kompensieren schlecht konzipierte Software häufig durch teure Hardware und komplexe Lösungen, was zu hohen Gesamtbetriebskosten (TCO) führt.

MinIO DataPOD-Hardwarespezifikation für KI:

Unternehmenskunden, die MinIO für KI-Initiativen verwenden, bauen Dateninfrastrukturen im Exabyte-Bereich als wiederholbare Einheiten von 100 PiB auf. Dies erleichtert Infrastrukturadministratoren den Prozess der Bereitstellung, Wartung und Skalierung, da die KI-Daten im Laufe der Zeit exponentiell wachsen. Unten finden Sie die Stückliste (BOM) zum Aufbau einer Dateninfrastruktur im 100-PiB-Bereich.

Cluster-Spezifikation

Komponente	Menge
Gesamtzahl der Racks	30
Gesamtzahl der Speicherserver	330
Gesamtzahl der Speicherserver pro Rack	11
Gesamtzahl der TOR-Switches	60
Gesamtzahl der Spine-Switches	10
Erasure Code-Streifengröße	10
Erasure Code-Parität	4

Einzel-Rack-Spezifikation

Komponente	Beschreibung	Menge
Rack-Gehäuse	42U/45U Steckplatz-Rack	1
Speicherserver	2U-Formfaktor	11
Top-of-the-Rack-Switches	Layer 2-Switch	2
Management-Schalter	Kombinierte Layer 2 und Layer 3	1
Netzwerkkabel	AOC-Kabel	30-40
Leistung	Duale Stromversorgung mit RPDU	17 kW – 20 kW

Speicherserverspezifikation

Komponente	Spezifikation
Server	2HE, Einzelbuchse
CPU	64 Kerne, 128 * PCIe 4.0-Lanes
Erinnerung	256 GB
Netzwerk	Dual-Port, 200-GBit/s-NIC
Laufwerksschächte	24 Hot-Swap-fähige 2,5-Zoll-U.2-NVMe
Laufwerke	30 TB * 24 NVMe
Leistung	Redundante 1600-W-Netzteile
Gesamte Rohkapazität	720 TB

Speicherserverreferenz

Dell : PowerEdge R7615 Rack-Server

HPE : HPE ProLiant DL345 Gen11

Supermicro : A+ Server 2114S-WN24RT

Netzwerk-Switch-Spezifikation

Komponente	Spezifikation
Top of the Rack (TOR)-Schalter	32 * 100GbE QSFP 28 Anschlüsse
Wirbelsäulenschalter	64 * 100GbE QSFP 28-Anschlüsse
Kabel	100G QSFP 28 AOC
Leistung	500 Watt pro Schalter

Preis

MinIO hat diese Architektur mit mehreren Kunden validiert und erwartet, dass andere den folgenden Durchschnittspreis pro Terabyte pro Monat sehen. Dies ist ein durchschnittlicher Straßenpreis und der tatsächliche Preis kann je nach Konfiguration und Beziehung zum Hardwareanbieter variieren.

Skala	Preis für Speicherhardware (pro TB/Monat)	MinIO-Softwarepreis (Pro TB/Monat)
100 PiB	1,50 $	3,54 $

Anbieterspezifische schlüsselfertige Hardwaregeräte für KI führen zu hohen Gesamtbetriebskosten und sind aus wirtschaftlicher Sicht für KI-Initiativen mit großen Datenmengen im Exabyte-Bereich nicht skalierbar.

Abschluss

Die Einrichtung einer Dateninfrastruktur im Exabyte-Bereich bei gleichzeitiger Einhaltung der TCO-Ziele für alle KI/ML-Workloads kann komplex und schwierig sein. Der DataPOD-Infrastrukturentwurf von MinIO macht es für Infrastrukturadministratoren einfach und unkompliziert, die erforderliche Standardhardware mit einem hoch skalierbaren, leistungsfähigen und kostengünstigen S3-kompatiblen MinIO-Unternehmensobjektspeicher einzurichten, was zu einer verbesserten Markteinführungszeit und einer schnelleren Wertschöpfung aus KI-Initiativen in allen Organisationen innerhalb der Unternehmenslandschaft führt.