Ich schrieb zuvor über die  , um die Herausforderungen in jedem Unternehmen anzugehen – mehr Daten, veraltete Hadoop-Tools (insbesondere HDFS) und höhere Anforderungen an RESTful APIs (S3) und Leistung –, aber ich möchte einige Lücken schließen.   moderne Data Lake-Referenzarchitektur  Der moderne Data Lake, manchmal auch Data Lakehouse genannt, ist zur Hälfte ein Data Lake und zur Hälfte ein auf der Open Table Format Specification (OTF) basierendes Data Warehouse. Beide basieren auf modernem Objektspeicher.  Gleichzeitig haben wir uns intensiv Gedanken darüber gemacht, wie Unternehmen eine KI-Dateninfrastruktur aufbauen können, die alle ihre KI-/ML-Anforderungen erfüllen kann – nicht nur die Rohspeicherung ihrer Trainings-, Validierungs- und Test-Sets. Mit anderen Worten: Sie sollte die Rechenleistung enthalten, die zum Trainieren großer Sprachmodelle, MLOps-Tools, verteiltes Training und mehr erforderlich ist. Als Ergebnis dieser Überlegungen haben wir ein weiteres Dokument zur Verwendung des modernen Data Lake zusammengestellt.  Bedürfnisse. Die folgende Grafik veranschaulicht die  wobei die für generative KI erforderlichen Fähigkeiten hervorgehoben werden.    Referenzarchitektur zur Unterstützung Ihrer KI/ML   moderne Data Lake-Referenzarchitektur Quelle:   KI/ML in einem modernen Datensee  In beiden Dokumenten werden keine spezifischen Anbieter oder Tools erwähnt. Ich möchte nun die Anbieter und Tools besprechen, die zum Aufbau des modernen Data Lake erforderlich sind. In dieser Top-10-Liste ist jeder Eintrag eine Funktion, die zur Unterstützung generativer KI erforderlich ist.  1.Datensee  Enterprise Data Lakes basieren auf Objektspeichern. Nicht auf den altmodischen, gerätebasierten Objektspeichern, die für kostengünstige und tiefgehende Archivierungsanwendungen verwendet wurden, sondern auf modernen, leistungsstarken, softwaredefinierten und Kubernetes-nativen Objektspeichern, den Eckpfeilern des modernen GenAI-Stacks. Sie sind als Service (AWS, GCP, Azure) oder vor Ort oder als Hybrid/beides verfügbar, wie beispielsweise MinIO. Diese Data Lakes müssen Streaming-Workloads unterstützen, über hocheffiziente Verschlüsselung und Erasure Coding verfügen, Metadaten atomar mit dem Objekt speichern und Technologien wie Lambda Compute unterstützen. Da diese modernen Alternativen Cloud-nativ sind, lassen sie sich sofort in den gesamten Stack anderer Cloud-nativer Technologien integrieren – von Firewalls über Observability bis hin zu Benutzer- und Zugriffsverwaltung.  2.OTF-basiertes Data Warehouse  Objektspeicher ist auch die zugrunde liegende Speicherlösung für ein OTP-basiertes Data Warehouse. Die Verwendung von Objektspeicher für ein Data Warehouse mag seltsam klingen, aber ein auf diese Weise erstelltes Data Warehouse stellt die nächste Generation von Data Warehouses dar. Möglich wird dies durch die von Netflix, Uber und Databricks verfassten OTF-Spezifikationen, die den nahtlosen Einsatz von Objektspeicher in einem Data Warehouse ermöglichen.  Die OTFs – Apache Iceberg, Apache Hudi und Delta Lake – wurden geschrieben, weil es auf dem Markt keine Produkte gab, die den Datenbedarf der Entwickler decken konnten. Im Wesentlichen definieren sie alle (auf unterschiedliche Weise) ein Data Warehouse, das auf Object Storage aufgebaut werden kann. Object Storage bietet die Kombination aus skalierbarer Kapazität und hoher Leistung, die andere Speicherlösungen nicht bieten können. Da es sich um moderne Spezifikationen handelt, verfügen sie über erweiterte Funktionen, die altmodische Data Warehouses nicht haben, wie Partitionsentwicklung, Schemaentwicklung und Zero-Copy-Branching.  Zwei MinIO-Partner, die ihr OTF-basiertes Data Warehouse auf MinIO ausführen können, sind Dremio und Starburst.   Dremio Sonar (Data Warehouse-Verarbeitungs-Engine)   Dremio Arctic (Data Warehouse-Katalog)   Open Data Lakehouse | Starburst (Katalog- und Verarbeitungs-Engine)  3.Machine Learning-Operationen (MLOps)  MLOps ist für maschinelles Lernen das, was DevOps für die traditionelle Softwareentwicklung ist. Beide sind eine Reihe von Praktiken und Prinzipien, die darauf abzielen, die Zusammenarbeit zwischen Entwicklungsteams (Dev oder ML) und IT-Betriebsteams (Ops) zu verbessern. Das Ziel besteht darin, den Entwicklungslebenszyklus durch Automatisierung zu optimieren, von der Planung und Entwicklung bis hin zur Bereitstellung und zum Betrieb. Einer der Hauptvorteile dieser Ansätze ist die kontinuierliche Verbesserung.  MLOps-Techniken und -Funktionen entwickeln sich ständig weiter. Sie möchten ein Tool, das von einem großen Player unterstützt wird, der sicherstellt, dass das Tool ständig weiterentwickelt und verbessert wird und langfristigen Support bietet. Jedes dieser Tools verwendet MinIO im Hintergrund, um Artefakte zu speichern, die während des Lebenszyklus eines Modells verwendet werden.   MLRun (Iguazio, übernommen von McKinsey & Company)   MLflow (Databricks)   Kubeflow (Google)  4. Rahmenwerk für maschinelles Lernen  Ihr Machine-Learning-Framework ist die Bibliothek (normalerweise für Python), die Sie zum Erstellen Ihrer Modelle und zum Schreiben des Codes zum Trainieren dieser Modelle verwenden. Diese Bibliotheken sind reich an Funktionen, da sie eine Sammlung verschiedener Verlustfunktionen, Optimierer, Datentransformationstools und vorgefertigter Ebenen für neuronale Netzwerke bieten. Die wichtigste Funktion dieser beiden Bibliotheken ist ein Tensor. Tensoren sind mehrdimensionale Arrays, die auf die GPU verschoben werden können. Sie verfügen außerdem über eine automatische Differenzierung, die beim Modelltraining verwendet wird.  Die beiden derzeit beliebtesten Frameworks für maschinelles Lernen sind PyTorch (von Facebook) und Tensorflow (von Google).   PyTorch   TensorFlow  5. Verteiltes Training  Beim verteilten Modelltraining werden Machine-Learning-Modelle gleichzeitig auf mehreren Computergeräten oder Knoten trainiert. Dieser Ansatz beschleunigt den Trainingsprozess, insbesondere wenn zum Trainieren komplexer Modelle große Datensätze erforderlich sind.  Beim verteilten Modelltraining wird der Datensatz in kleinere Teilmengen aufgeteilt und jede Teilmenge wird parallel von verschiedenen Knoten verarbeitet. Diese Knoten können einzelne Maschinen innerhalb eines Clusters, einzelne Prozesse oder einzelne Pods innerhalb eines Kubernetes-Clusters sein. Sie können Zugriff auf GPUs haben. Jeder Knoten verarbeitet unabhängig seine Teilmenge an Daten und aktualisiert die Modellparameter entsprechend. Die fünf folgenden Bibliotheken entlasten Entwickler von den meisten Komplexitäten des verteilten Trainings. Sie können sie lokal ausführen, wenn Sie keinen Cluster haben, aber Sie benötigen einen Cluster, um eine spürbare Verkürzung der Trainingszeit zu erreichen.   DeepSpeed (von Microsoft)   Horovod (von Uber)   Ray (von Anyscale)   Spark PyTorch-Distributor (von Databricks)   Spark TensorFlow-Verteiler (von Databricks)  6. Modell-Hub  Ein Modell-Hub ist eigentlich kein Teil der modernen Data-Lake-Referenzarchitektur, aber ich füge ihn trotzdem hinzu, weil er wichtig ist, um schnell mit generativer KI zu beginnen. Hugging Face ist die Anlaufstelle für große Sprachmodelle geworden. Hugging Face hostet einen Modell-Hub, wo Ingenieure vorab trainierte Modelle herunterladen und selbst erstellte Modelle teilen können. Hugging Face ist auch der Autor der Transformers- und Datasets-Bibliotheken, die mit großen Sprachmodellen (LLMs) und den Daten arbeiten, die zum Trainieren und Optimieren dieser Modelle verwendet werden.  Es gibt noch andere Modell-Hubs. Alle großen Cloud-Anbieter bieten eine Möglichkeit, Modelle hochzuladen und freizugeben, aber Hugging Face ist mit seiner Sammlung von Modellen und Bibliotheken in diesem Bereich zum Marktführer geworden.   Umarmendes Gesicht  7. Anwendungsrahmen  Ein Anwendungsframework hilft dabei, ein LLM in eine Anwendung zu integrieren. Die Verwendung eines LLM unterscheidet sich von der Verwendung einer Standard-API. Es muss viel Arbeit geleistet werden, um eine Benutzeranforderung in etwas umzuwandeln, das das LLM verstehen und verarbeiten kann. Wenn Sie beispielsweise eine Chat-Anwendung erstellen und Retrieval Augmented Generation (RAG) verwenden möchten, müssen Sie die Anforderung tokenisieren, die Token in einen Vektor umwandeln, in eine Vektordatenbank (siehe unten) integrieren, eine Eingabeaufforderung erstellen und dann Ihr LLM aufrufen. Ein Anwendungsframework für generative KI ermöglicht es Ihnen, diese Aktionen miteinander zu verketten. Das heute am weitesten verbreitete Anwendungsframework ist LangChain. Es verfügt über Integrationen mit anderen Technologien, beispielsweise der Hugging Face Transformer-Bibliothek und der Bibliothek von Unstructured zur Dokumentenverarbeitung. Es ist reich an Funktionen und kann etwas kompliziert in der Verwendung sein. Nachfolgend sind daher einige Alternativen für diejenigen aufgeführt, die keine komplexen Anforderungen haben und etwas Einfacheres als LangChain möchten.   LangChain   AgentGPT   Auto-GPT   BabyAGI   Flowise   FarbverlaufJ   LamaIndex   Langdock   TensorFlow (Keras-API)  8. Dokumentenverarbeitung  Die meisten Organisationen verfügen nicht über ein einziges Repository mit sauberen und genauen Dokumenten. Vielmehr sind die Dokumente in verschiedenen Teamportalen in vielen Formaten über die gesamte Organisation verteilt. Der erste Schritt bei der Vorbereitung auf generative KI besteht darin, eine Pipeline aufzubauen, die nur Dokumente, die für die Verwendung mit generativer KI freigegeben wurden, in Ihre Vektordatenbank einfügt. Dies könnte möglicherweise die schwierigste Aufgabe einer generativen KI-Lösung für große globale Organisationen sein.   Eine Dokumentpipeline sollte die Dokumente in Text umwandeln, das Dokument in Blöcke aufteilen und den aufgeteilten Text durch ein Einbettungsmodell laufen lassen, damit seine Vektordarstellung in einer Vektordatenbank gespeichert werden kann. Glücklicherweise können einige Open-Source-Bibliotheken dies für viele der gängigen Dokumentformate tun. Einige Bibliotheken sind unten aufgeführt. Diese Bibliotheken könnten mit LangChain verwendet werden, um eine vollständige Dokumentverarbeitungspipeline aufzubauen.   Unstrukturiert   Öffnen-Parsen  9. Vektordatenbanken  Vektordatenbanken ermöglichen die semantische Suche. Um zu verstehen, wie dies funktioniert, sind umfangreiche mathematische Kenntnisse erforderlich und es ist kompliziert. Konzeptionell ist die semantische Suche jedoch leicht zu verstehen. Angenommen, Sie möchten alle Dokumente finden, die sich mit dem Thema „künstliche Intelligenz“ befassen. Um dies in einer herkömmlichen Datenbank zu tun, müssten Sie nach jeder möglichen Abkürzung, jedem Synonym und jedem verwandten Begriff für „künstliche Intelligenz“ suchen. Ihre Abfrage würde ungefähr so aussehen:   SELECT snippet FROM MyCorpusTable WHERE (text like '%artificial intelligence%' OR text like '%ai%' OR text like '%machine learning%' OR text like '%ml%' OR ... and on and on ...  Diese manuelle Ähnlichkeitssuche ist nicht nur mühsam und fehleranfällig, sondern die Suche selbst ist auch sehr langsam. Eine Vektordatenbank kann eine Anfrage wie die folgende annehmen und die Abfrage schneller und mit größerer Genauigkeit ausführen. Die Fähigkeit, semantische Abfragen schnell und genau auszuführen, ist wichtig, wenn Sie Retrieval Augmented Generation verwenden möchten.   { Get { MyCorpusTable(nearText: {concepts: ["artificial intelligence"]}) {snippet} } }  Nachfolgend sind vier beliebte Vektordatenbanken aufgeführt.   Milvus   PgVektor   Tannenzapfen   Weben  10. Datenexploration und -visualisierung  Es ist immer eine gute Idee, Tools zu haben, mit denen Sie Ihre Daten bearbeiten und auf verschiedene Weise visualisieren können. Die unten aufgeführten Python-Bibliotheken bieten Funktionen zur Datenmanipulation und -visualisierung. Dies scheinen Tools zu sein, die Sie nur für traditionelle KI benötigen, aber sie sind auch bei generativer KI nützlich. Wenn Sie beispielsweise Stimmungsanalysen oder Emotionserkennung durchführen, sollten Sie Ihre Trainings-, Validierungs- und Testsätze überprüfen, um sicherzustellen, dass Sie eine angemessene Verteilung auf alle Ihre Klassen haben.   Pandas   Matplotlib   Seeborn   Streamlit  Abschluss  Da haben Sie es: 10 Funktionen, die in der modernen Data Lake-Referenzarchitektur zu finden sind, zusammen mit konkreten Anbieterprodukten und Bibliotheken für jede Funktion. Unten finden Sie eine Tabelle mit einer Zusammenfassung dieser Tools.  Datensee -  , AWS, GCP, Azure   MinIO  OTF-basiertes Data Warehouse -    ,   ,   ,   ,  Dremio Dremio Sonar Dremio Arctic Starburst Open Data Lakehouse | Starburst  Framework für maschinelles Lernen -    ,  PyTorch TensorFlow  Maschinelle Lernvorgänge -    ),   ,  MLRun (McKinsey & Company MLflow (Databricks) Kubeflow (Google)  Verteiltes Training -    ,   ,   ,   ,  DeepSpeed (von Microsoft) Horovod (von Uber) Ray (von Anyscale) Spark PyTorch Distributor (von Databricks) Spark Tensoflow Distributor (von Databricks)  Modellnabe -   Umarmendes Gesicht  Anwendungsrahmen -    ,   ,   ,   ,   ,   ,   ,   ,  LangChain AgentGPT Auto-GPT BabyAGI Flowise GradientJ LlamaIndex Langdock TensorFlow (Keras-API)  Dokumentenverarbeitung -    ,  Unstrukturiert Open-Parse  Vektordatenbank -    ,   ,   ,  Milvus Pgvector Tannenzapfen Weaviate  Datenexploration und -visualisierung -    ,   ,   ,  Pandas Matplotlib Seaborn Streamlit

Developers do. Download MinIO and see for yourself. 

MinIO

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Ein Architektenhandbuch zu den 10 wichtigsten Tools zum Aufbau eines modernen Data Lake

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Management Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Writing Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Writing Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps