Inmitten des Eifers, KI einzuführen, ist eine entscheidende und oft übersehene Wahrheit: Der Erfolg jeder KI-Initiative hängt untrennbar mit der Qualität, Zuverlässigkeit und Leistung der zugrunde liegenden Dateninfrastruktur zusammen. Wenn Sie nicht über die richtige Grundlage verfügen, sind Sie in dem, was Sie aufbauen können, und damit auch in dem, was Sie erreichen können, begrenzt.  Ihre Dateninfrastruktur ist das Fundament, auf dem Ihre gesamte KI-Infrastruktur aufbaut. Hier werden Daten gesammelt, gespeichert, verarbeitet und transformiert. Trainingsmodelle mit überwachtem, unüberwachtem und verstärkendem Lernen erfordern Speicherlösungen, die strukturierte Daten verarbeiten können – wie ein Data Warehouse. Wenn Sie andererseits Large Language Models (LLMs) trainieren, müssen Sie unstrukturierte Daten verwalten – Dokumente in ihrer rohen und verarbeiteten Form.  Ein moderner Datalake oder Lakehouse ist die Grundlage für diese beiden unterschiedlichen Arten von KI. Ein moderner Datalake besteht zur Hälfte aus Data Warehouse und zur Hälfte aus Data Lake und nutzt Objektspeicher für alles. In jüngerer Zeit haben wir den Aufstieg offener Tischformate erlebt. Offene Tabellenformate (OTFs) wie Apache Iceberg, Apache Hudi und Delta Lake ermöglichen die nahtlose Verwendung von Objektspeicher in einem Data Warehouse.   Im Rest dieses Artikels wird untersucht, wie die Eigenschaften des Modern Datalake genutzt werden können, die ihn von herkömmlichen Lösungen wie proprietären Data Warehouses und Appliances unterscheiden. Um eine Grundlage für die KI-Infrastruktur zu schaffen, benötigen Sie Folgendes:  Aufteilung von Rechenleistung und Speicher  Scale-Out (nicht Up)  Softwaredefiniert  Cloud-nativ  Standardhardware  Wenn wir dem oben Gesagten zustimmen, entsteht eine Reihe von Best Practices, die sich auf zwei Leistungsbereiche konzentrieren. Bei der Integration wird der moderne Datalake sowohl schnell als auch skalierbar sein. Zu diesen Best Practices gehören:  Optimierung von Antriebspreis und -leistung  Integrieren Sie ein Hochgeschwindigkeitsnetzwerk  Rechen- und Speicherdisaggregation  Die Aufteilung von Rechenleistung und Speicher innerhalb Ihrer Dateninfrastruktur bedeutet, dass separate Ressourcen für Rechenleistung und Speicherung verwendet werden. Dies steht im Gegensatz zu herkömmlichen Speicherlösungen, bei denen alles in einem einzigen Server oder, noch schlimmer, einer Appliance verpackt ist. Moderne Datalakes bringen die Disaggregation jedoch auf eine andere Ebene. Wenn der Data Lake und das Data Warehouse völlig unterschiedliche Speicheranforderungen hätten, könnten wir zwei separate Instanzen eines Objektspeichers verwenden, wie unten gezeigt.   Wenn das Data Warehouse außerdem Arbeitslasten unterstützen muss, die widersprüchliche Konfigurationen erfordern, können Sie mehr als eine Verarbeitungs-Engine verwenden. Dies wird unten gezeigt.   Mit einer zusammensetzbaren Infrastruktur können Sie Ihre Rechen- und Speicherressourcen unabhängig voneinander skalieren. Dies bedeutet, dass Sie dem Teil Ihrer Infrastruktur, der sie am meisten benötigt, mehr Ressourcen zuweisen können, anstatt sowohl Rechenleistung als auch Speicher gleichzeitig zu aktualisieren. Dies führt zu einer kostengünstigen Skalierung, da Sie nur in die erforderlichen Ressourcen investieren.  Scale-Out nicht möglich  KI-Arbeitslasten sind datenintensiv, oft auf mehrere CPUs oder GPUs verteilt, verbrauchen viel Rechenleistung für das Training und erfordern Echtzeit-Inferenz. Die Skalierung nach außen und nicht nach oben trägt dazu bei, die Leistung zu optimieren und Hochgeschwindigkeitsnetzwerke zu unterstützen.  Scale-Out und Scale-Up sind zwei unterschiedliche Ansätze zur Steigerung der Kapazität und Leistung Ihrer Dateninfrastruktur. Allerdings erweist sich die horizontale Skalierung als praktikablerer Ansatz, da bei Clustering-Plattformen wie Kubernetes Fortschritte gemacht werden und immer mehr Lösungen eine Cloud-Native anstreben. Die Skalierung in einer disaggregierten Infrastruktur bietet:    – Wenn ein Knoten ausgelastet ist, kann ein anderer Knoten eine neue Anfrage annehmen, wodurch Wartezeiten verkürzt und der Durchsatz erhöht werden. Wenn ein Knoten ausfällt, kann die Arbeitslast auf andere Knoten verlagert werden, wodurch Ausfallzeiten reduziert und Kontinuität sichergestellt werden. Hohe Verfügbarkeit und Fehlertoleranz    – Skalierung kann eine bessere Leistung bieten, indem Arbeitslasten auf mehrere Knoten oder Server verteilt werden, um größere Datenmengen und mehr gleichzeitige Anforderungen zu verarbeiten. Die Skalierung ist außerdem flexibler, da Sie nach Bedarf Knoten hinzufügen oder entfernen können, was die Anpassung an schwankende Arbeitslasten oder die Anpassung an saisonale Schwankungen erleichtert. Leistung und Flexibilität    – Wartung und Upgrades werden durch Skalierung vereinfacht. Anstatt ein kritisches System für Upgrades offline zu schalten, können Sie Wartungsarbeiten an einzelnen Speicher- oder Rechenknoten durchführen, ohne die gesamte Infrastruktur zu beeinträchtigen. Betriebs- und ressourceneffizient  Cloud Native + Software Defined  Die letzte Komponente der Nutzung des Modern Datalake zum Aufbau einer starken Grundlage für KI ist die Verfolgung eines Cloud-nativen, softwaredefinierten Ansatzes.  Container wie Docker und Container-Orchestrierungstools wie Kubernetes ermöglichen Cloud-native Architekturen. Alle Komponenten eines Modern Datalake laufen in Containern, die in Kubernetes laufen. Daher ist ein moderner Datalake Cloud-nativ.  „Softwaredefiniert“ bezieht sich auf einen Ansatz, bei dem Software die Konfiguration, Funktionalität und das Verhalten von Hardwarekomponenten steuert und verwaltet, häufig im Kontext von Computersystemen und Netzwerken. Dies ist der Baustein der Infrastructure-as-Code-Bewegung, bei der der Schwerpunkt auf intelligenter Software und extrem schneller Hardware liegt. Softwaredefinierter Speicher abstrahiert und verwaltet die Speicherressourcen durch Software und erleichtert so die Zuweisung und Verwaltung von Speicherkapazität über verschiedene Geräte und Speichermedien hinweg.  Auf Geschwindigkeit ausgelegt: NVMe und 100 GbE  Um die Vorteile Ihrer handelsüblichen Hardware- und Software-definierten Architektur voll auszuschöpfen, benötigen Sie zwei weitere Schlüsselelemente. Das erste sind NVMe-Laufwerke. Moderne, leistungsorientierte Workloads, die zufällige Natur des Lesens/Schreibens, die Zunahme kleiner Objekte und sinkende SSD-Preise sprechen für a  . Rechnen Sie einmal nach: Wenn die Vorabzahlung höher ist, fallen die Gesamtbetriebskosten niedriger aus.   NVMe-zentrierte Architektur  Die zweite Komponente ist das 100-GbE-Netzwerk. In einer softwaredefinierten Welt erweist sich das Netzwerk in vielen Setups selbst bei 100 GbE als Flaschenhals. Hier sind einige dieser Szenarien:    – KI-Workloads verarbeiten häufig riesige Datensätze wie Bilder, Videos, Text in natürlicher Sprache und Sensordaten. Hochgeschwindigkeitsnetzwerke können diese großen Datensätze schnell zwischen Speicher- und Verarbeitungseinheiten übertragen und so Engpässe bei der Datenübertragung reduzieren. Datenintensiv    – Viele KI-Aufgaben beinhalten verteiltes Rechnen über mehrere CPUs oder GPUs. Hochgeschwindigkeitsnetzwerke ermöglichen eine effiziente Kommunikation und einen effizienten Datenaustausch zwischen diesen Geräten und stellen so sicher, dass die Rechencluster effektiv parallel arbeiten. Verteiltes Rechnen    – Das Training von Deep-Learning-Modellen, insbesondere von LLMs wie Transformern oder Faltungs-Neuronalen Netzen, erfordert viele Daten und Rechenleistung. Ein Hochgeschwindigkeitsnetzwerk ermöglicht ein schnelleres Laden von Daten und eine schnellere Synchronisierung zwischen verteilten GPUs, was die Trainingszeiten erheblich verkürzen kann. Modelltraining    – Netzwerke mit geringer Latenz und hohem Durchsatz sind für reaktionsfähige Anwendungen, die KI integrieren, unerlässlich. Ein Hochgeschwindigkeitsnetzwerk gewährleistet eine minimale Verzögerung zwischen einer Benutzeranfrage und einer Antwort eines Modells. Echtzeit-Inferenz  Grundlegende Konzepte  Durch die Einhaltung dieser Prinzipien: Trennung von Rechenleistung und Speicher, Scale-out statt Up, dumme, schnelle Hardware und intelligente Cloud-native Software kann das Unternehmen einen modernen Datalake aufbauen, der die richtige Grundlage hat, um diese Anforderungen zu erfüllen und Ihre KI-Initiativen voranzutreiben nach vorne.  Man kann kein Gebäude auf einem schlechten Fundament errichten, fragen Sie einfach die alten Ägypter. Beim KI-Spiel geht es um maßstabsgetreue Leistung, und dafür ist die richtige Grundlage erforderlich. Wenn Sie beim Fundament sparen, häufen Sie technische Schulden an, die Ihren Jenga-Turm nach ein paar Minuten zum Einsturz bringen. Bauen Sie intelligent und legen Sie das Fundament.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Developers do. Download MinIO and see for yourself. 

MinIO

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Die Grundsätze, die Sie beim Aufbau eines modernen Datalake für Ihre KI-Infrastruktur beachten sollten

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps