Die Grundsätze, die Sie beim Aufbau eines modernen Datalake für Ihre KI-Infrastruktur beachten sollten

MinIO5m2024/02/06

Beim KI-Spiel geht es um maßstabsgetreue Leistung, und dafür ist die richtige Grundlage erforderlich. Hier erfahren Sie, wie Sie beim Aufbau eines modernen Datensees intelligent vorgehen und die richtige Grundlage schaffen.

People Mentioned

featured image - Die Grundsätze, die Sie beim Aufbau eines modernen Datalake für Ihre KI-Infrastruktur beachten sollten

Inmitten des Eifers, KI einzuführen, ist eine entscheidende und oft übersehene Wahrheit: Der Erfolg jeder KI-Initiative hängt untrennbar mit der Qualität, Zuverlässigkeit und Leistung der zugrunde liegenden Dateninfrastruktur zusammen. Wenn Sie nicht über die richtige Grundlage verfügen, sind Sie in dem, was Sie aufbauen können, und damit auch in dem, was Sie erreichen können, begrenzt.

Ihre Dateninfrastruktur ist das Fundament, auf dem Ihre gesamte KI-Infrastruktur aufbaut. Hier werden Daten gesammelt, gespeichert, verarbeitet und transformiert. Trainingsmodelle mit überwachtem, unüberwachtem und verstärkendem Lernen erfordern Speicherlösungen, die strukturierte Daten verarbeiten können – wie ein Data Warehouse. Wenn Sie andererseits Large Language Models (LLMs) trainieren, müssen Sie unstrukturierte Daten verwalten – Dokumente in ihrer rohen und verarbeiteten Form.

Ein moderner Datalake oder Lakehouse ist die Grundlage für diese beiden unterschiedlichen Arten von KI. Ein moderner Datalake besteht zur Hälfte aus Data Warehouse und zur Hälfte aus Data Lake und nutzt Objektspeicher für alles. In jüngerer Zeit haben wir den Aufstieg offener Tischformate erlebt. Offene Tabellenformate (OTFs) wie Apache Iceberg, Apache Hudi und Delta Lake ermöglichen die nahtlose Verwendung von Objektspeicher in einem Data Warehouse.

Im Rest dieses Artikels wird untersucht, wie die Eigenschaften des Modern Datalake genutzt werden können, die ihn von herkömmlichen Lösungen wie proprietären Data Warehouses und Appliances unterscheiden. Um eine Grundlage für die KI-Infrastruktur zu schaffen, benötigen Sie Folgendes:

Aufteilung von Rechenleistung und Speicher
Scale-Out (nicht Up)
Softwaredefiniert
Cloud-nativ
Standardhardware

Wenn wir dem oben Gesagten zustimmen, entsteht eine Reihe von Best Practices, die sich auf zwei Leistungsbereiche konzentrieren. Bei der Integration wird der moderne Datalake sowohl schnell als auch skalierbar sein. Zu diesen Best Practices gehören:

Optimierung von Antriebspreis und -leistung
Integrieren Sie ein Hochgeschwindigkeitsnetzwerk

Rechen- und Speicherdisaggregation

Die Aufteilung von Rechenleistung und Speicher innerhalb Ihrer Dateninfrastruktur bedeutet, dass separate Ressourcen für Rechenleistung und Speicherung verwendet werden. Dies steht im Gegensatz zu herkömmlichen Speicherlösungen, bei denen alles in einem einzigen Server oder, noch schlimmer, einer Appliance verpackt ist. Moderne Datalakes bringen die Disaggregation jedoch auf eine andere Ebene. Wenn der Data Lake und das Data Warehouse völlig unterschiedliche Speicheranforderungen hätten, könnten wir zwei separate Instanzen eines Objektspeichers verwenden, wie unten gezeigt.

Wenn das Data Warehouse außerdem Arbeitslasten unterstützen muss, die widersprüchliche Konfigurationen erfordern, können Sie mehr als eine Verarbeitungs-Engine verwenden. Dies wird unten gezeigt.

Mit einer zusammensetzbaren Infrastruktur können Sie Ihre Rechen- und Speicherressourcen unabhängig voneinander skalieren. Dies bedeutet, dass Sie dem Teil Ihrer Infrastruktur, der sie am meisten benötigt, mehr Ressourcen zuweisen können, anstatt sowohl Rechenleistung als auch Speicher gleichzeitig zu aktualisieren. Dies führt zu einer kostengünstigen Skalierung, da Sie nur in die erforderlichen Ressourcen investieren.

Scale-Out nicht möglich

KI-Arbeitslasten sind datenintensiv, oft auf mehrere CPUs oder GPUs verteilt, verbrauchen viel Rechenleistung für das Training und erfordern Echtzeit-Inferenz. Die Skalierung nach außen und nicht nach oben trägt dazu bei, die Leistung zu optimieren und Hochgeschwindigkeitsnetzwerke zu unterstützen.

Scale-Out und Scale-Up sind zwei unterschiedliche Ansätze zur Steigerung der Kapazität und Leistung Ihrer Dateninfrastruktur. Allerdings erweist sich die horizontale Skalierung als praktikablerer Ansatz, da bei Clustering-Plattformen wie Kubernetes Fortschritte gemacht werden und immer mehr Lösungen eine Cloud-Native anstreben. Die Skalierung in einer disaggregierten Infrastruktur bietet:

Hohe Verfügbarkeit und Fehlertoleranz – Wenn ein Knoten ausgelastet ist, kann ein anderer Knoten eine neue Anfrage annehmen, wodurch Wartezeiten verkürzt und der Durchsatz erhöht werden. Wenn ein Knoten ausfällt, kann die Arbeitslast auf andere Knoten verlagert werden, wodurch Ausfallzeiten reduziert und Kontinuität sichergestellt werden.

Leistung und Flexibilität – Skalierung kann eine bessere Leistung bieten, indem Arbeitslasten auf mehrere Knoten oder Server verteilt werden, um größere Datenmengen und mehr gleichzeitige Anforderungen zu verarbeiten. Die Skalierung ist außerdem flexibler, da Sie nach Bedarf Knoten hinzufügen oder entfernen können, was die Anpassung an schwankende Arbeitslasten oder die Anpassung an saisonale Schwankungen erleichtert.

Betriebs- und ressourceneffizient – Wartung und Upgrades werden durch Skalierung vereinfacht. Anstatt ein kritisches System für Upgrades offline zu schalten, können Sie Wartungsarbeiten an einzelnen Speicher- oder Rechenknoten durchführen, ohne die gesamte Infrastruktur zu beeinträchtigen.

Cloud Native + Software Defined

Die letzte Komponente der Nutzung des Modern Datalake zum Aufbau einer starken Grundlage für KI ist die Verfolgung eines Cloud-nativen, softwaredefinierten Ansatzes.

Container wie Docker und Container-Orchestrierungstools wie Kubernetes ermöglichen Cloud-native Architekturen. Alle Komponenten eines Modern Datalake laufen in Containern, die in Kubernetes laufen. Daher ist ein moderner Datalake Cloud-nativ.

„Softwaredefiniert“ bezieht sich auf einen Ansatz, bei dem Software die Konfiguration, Funktionalität und das Verhalten von Hardwarekomponenten steuert und verwaltet, häufig im Kontext von Computersystemen und Netzwerken. Dies ist der Baustein der Infrastructure-as-Code-Bewegung, bei der der Schwerpunkt auf intelligenter Software und extrem schneller Hardware liegt. Softwaredefinierter Speicher abstrahiert und verwaltet die Speicherressourcen durch Software und erleichtert so die Zuweisung und Verwaltung von Speicherkapazität über verschiedene Geräte und Speichermedien hinweg.

Auf Geschwindigkeit ausgelegt: NVMe und 100 GbE

Um die Vorteile Ihrer handelsüblichen Hardware- und Software-definierten Architektur voll auszuschöpfen, benötigen Sie zwei weitere Schlüsselelemente. Das erste sind NVMe-Laufwerke. Moderne, leistungsorientierte Workloads, die zufällige Natur des Lesens/Schreibens, die Zunahme kleiner Objekte und sinkende SSD-Preise sprechen für a NVMe-zentrierte Architektur . Rechnen Sie einmal nach: Wenn die Vorabzahlung höher ist, fallen die Gesamtbetriebskosten niedriger aus.

Die zweite Komponente ist das 100-GbE-Netzwerk. In einer softwaredefinierten Welt erweist sich das Netzwerk in vielen Setups selbst bei 100 GbE als Flaschenhals. Hier sind einige dieser Szenarien:

Datenintensiv – KI-Workloads verarbeiten häufig riesige Datensätze wie Bilder, Videos, Text in natürlicher Sprache und Sensordaten. Hochgeschwindigkeitsnetzwerke können diese großen Datensätze schnell zwischen Speicher- und Verarbeitungseinheiten übertragen und so Engpässe bei der Datenübertragung reduzieren.

Verteiltes Rechnen – Viele KI-Aufgaben beinhalten verteiltes Rechnen über mehrere CPUs oder GPUs. Hochgeschwindigkeitsnetzwerke ermöglichen eine effiziente Kommunikation und einen effizienten Datenaustausch zwischen diesen Geräten und stellen so sicher, dass die Rechencluster effektiv parallel arbeiten.

Modelltraining – Das Training von Deep-Learning-Modellen, insbesondere von LLMs wie Transformern oder Faltungs-Neuronalen Netzen, erfordert viele Daten und Rechenleistung. Ein Hochgeschwindigkeitsnetzwerk ermöglicht ein schnelleres Laden von Daten und eine schnellere Synchronisierung zwischen verteilten GPUs, was die Trainingszeiten erheblich verkürzen kann.

Echtzeit-Inferenz – Netzwerke mit geringer Latenz und hohem Durchsatz sind für reaktionsfähige Anwendungen, die KI integrieren, unerlässlich. Ein Hochgeschwindigkeitsnetzwerk gewährleistet eine minimale Verzögerung zwischen einer Benutzeranfrage und einer Antwort eines Modells.

Grundlegende Konzepte

Durch die Einhaltung dieser Prinzipien: Trennung von Rechenleistung und Speicher, Scale-out statt Up, dumme, schnelle Hardware und intelligente Cloud-native Software kann das Unternehmen einen modernen Datalake aufbauen, der die richtige Grundlage hat, um diese Anforderungen zu erfüllen und Ihre KI-Initiativen voranzutreiben nach vorne.

Man kann kein Gebäude auf einem schlechten Fundament errichten, fragen Sie einfach die alten Ägypter. Beim KI-Spiel geht es um maßstabsgetreue Leistung, und dafür ist die richtige Grundlage erforderlich. Wenn Sie beim Fundament sparen, häufen Sie technische Schulden an, die Ihren Jenga-Turm nach ein paar Minuten zum Einsturz bringen. Bauen Sie intelligent und legen Sie das Fundament.

L O A D I N G
. . . comments & more!

About Author

MinIO@minio

MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

Read my stories