Generative KI stellt die neueste Technik dar, mit der ein Unternehmen die innerhalb seiner Grenzen eingeschlossenen Daten entschlüsseln kann. Der einfachste Weg, sich vorzustellen, was mit generativer KI möglich ist, besteht darin, sich ein angepasstes großes Sprachmodell vorzustellen – ähnlich dem, das ChatGPT antreibt –, das in Ihrer Firewall läuft. Nun ist dieses benutzerdefinierte LLM nicht dasselbe wie das, das OpenAI im öffentlichen Internet hostet. Stattdessen hat es eine „fortgeschrittene Ausbildung“ für Ihr Unternehmen erworben. Dies geschieht, indem ihm Zugriff auf einen für die Außenwelt unzugänglichen Dokumentenbestand gewährt wird. Allerdings handelt es sich bei diesem neuen Tool nicht um eine herkömmliche Suchmaschine, die eine Liste von Links bereitstellt, deren Durchsicht und weitere Filterung stundenlang dauert. Vielmehr handelt es sich um eine Lösung, die die von Ihnen benötigten Inhalte generieren kann. Mit der Zeit werden Sie feststellen, dass Sie ihm sowohl Befehle erteilen als auch Fragen stellen. Nachfolgend finden Sie einige Beispiele, um Ihnen einen Eindruck davon zu vermitteln, was möglich ist:
„Finden Sie unsere neuesten Erkenntnisse zum europäischen Aktienmarkt.“
„Erstellen Sie eine Zusammenfassung für meinen Vortrag über generative KI.“
„Hier finden Sie alles, was wir in diesem Quartal veröffentlicht haben.“
Bei den obigen Beispielen handelt es sich um Forschungsszenarien, aber ein gut aufgebautes Large Language Model (LLM) kann auch für Kundensupport (Chatbot), Zusammenfassung, Recherche, Übersetzung und Dokumentenerstellung verwendet werden, um nur einige zu nennen.
Diese einfachen Beispiele verdeutlichen die Leistungsfähigkeit der generativen KI – sie ist ein Werkzeug, mit dem Sie Ihre Arbeit effizienter erledigen können, als eine Leseliste zu erstellen.
Ein solches Tool kann nicht durch Willenskraft ins Leben gerufen werden, und es kann sehr schief gehen, wenn Bedenken wie Sicherheit und Datenqualität nicht berücksichtigt werden. Darüber hinaus können die Modelle, die generative KI unterstützen, nicht in einem herkömmlichen Rechenzentrum ausgeführt werden. Sie benötigen eine moderne Umgebung mit modernen Tools für die Verwaltung unstrukturierter Daten (Data Lake), die Erstellung von AI/ML-Pipelines für Ihre LLMs (MLOPs-Tooling) und neue Tools, die es LLMs ermöglichen, die erforderliche Schulung zu Ihrem benutzerdefinierten Korpus zu erhalten. (Ich spreche von Vektordatenbanken zur Implementierung von Retrieval Augmented Generation – ich werde später in diesem Beitrag näher darauf eingehen.)
In diesem Beitrag möchte ich auf konzeptioneller Ebene erläutern, was ein Unternehmen beachten sollte, um generative KI erfolgreich umzusetzen.
Beginnen wir mit einem Gespräch über Daten.
Ein wichtiger Unterschied besteht darin, dass die für generative KI benötigten Daten nicht mit den für konventionelle KI verwendeten Daten identisch sind. Die Daten werden unstrukturiert sein – insbesondere handelt es sich bei den Daten, die Sie benötigen, um Dokumente, die in Tools wie SharePoint, Confluence und Netzwerkdateifreigaben gesperrt sind. Eine gute generative KI-Lösung kann auch mit nicht-textuellen Inhalten wie Audio- und Videodateien umgehen. Sie benötigen eine Datenpipeline, die alle diese Daten sammelt und unter einem Dach zusammenfasst.
Dies ist möglicherweise die anspruchsvollste Aufgabe einer generativen KI-Initiative. Wir alle wissen, wie schnell Confluence-Sites und Sharepoint-Sites innerhalb einer Organisation auftauchen. Es besteht keine Garantie dafür, dass die darin enthaltenen Dokumente vollständig, wahrheitsgetreu und richtig sind. Weitere Bedenken betreffen Sicherheit, persönlich identifizierbare Informationen und Lizenzbedingungen, wenn die Dokumente von einer externen Quelle stammen.
Sobald Sie die Dokumente identifiziert haben, die echte Informationen enthalten, benötigen Sie einen Ort, an dem sie abgelegt werden können. Leider können sie nicht an ihrem ursprünglichen Standort bleiben. SharePoint, Confluence und Netzwerkdateifreigaben sind Tools, die nicht darauf ausgelegt sind, Dokumente schnell für Schulungen und Rückschlüsse bereitzustellen. Hier kommt MinIO ins Spiel. Sie möchten Ihre Dokumente in einer Speicherlösung speichern, die über alle Funktionen verfügt, die Sie gewohnt sind: Skalierung nach Ihren Anforderungen , skalierbare Leistung , Zuverlässigkeit , Fehlertoleranz und eine Cloud-native Schnittstelle . Die Quintessenz ist, dass Sie eine Datenpipeline aufbauen müssen, die Rohdaten aus mehreren Quellen aggregiert und sie dann für die Nutzung durch ein LLM umwandelt. Das folgende Diagramm zeigt die Vielfalt der Quellen, die innerhalb einer Organisation vorhanden sein können, und die hochrangigen Prüfungen, die durchgeführt werden sollten.
Werfen wir einen genaueren Blick auf die Datenpipeline, indem wir uns mit den Sicherheits- und Qualitätsprüfungen befassen, die erforderlich sind, um Rohdaten in Qualitätsdaten umzuwandeln.
Organisationen sollten mit einer Bestandsaufnahme aller Dokumentenquellen beginnen. Für jede Dokumentquelle sollten alle gefundenen Dokumente katalogisiert werden. Dokumente sollten hinsichtlich Lizenzierung und Sicherheit überprüft werden. Einige Dokumente müssen möglicherweise von Ihrer Lösung ausgeschlossen werden. Ein wichtiger Teil dieses Prozesses besteht darin, eingeschränkte Daten zu identifizieren, die geändert werden müssen, bevor sie in Ihre generative KI-Lösung aufgenommen werden.
Nachdem Sie Ihre Dokumente auf Sicherheit und Lizenzierung überprüft haben, stehen als nächstes die Qualitätskontrollen an. Zum Beispiel Wahrhaftigkeit, Vielfalt (wenn es um Menschen geht) und Redundanz. Ohne qualitativ hochwertige Daten können keine genauen Modelle erstellt werden. Dies gilt für konventionelle KI (überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen) – und insbesondere für generative KI. Dokumente von geringerer Qualität, redundante Dokumente und Dokumente, die ungenaue Daten enthalten, verwässern die Antworten eines LLM oder erzeugen sogar Halluzinationen.
Eine Visualisierung einer detaillierteren Pipeline sieht folgendermaßen aus:
Ein paar Gedanken zur Bedeutung einer Speicherlösung: Ihre Qualitätsdokumente müssen sich in einer Speicherlösung befinden, die Ihre Daten schnell für Training, Feinabstimmung und Schlussfolgerungen bereitstellen kann. Je mehr Experimente Ihre Ingenieure durchführen können, desto besser werden Ihre Modelle letztendlich funktionieren. Sie möchten außerdem den Überblick über Experimente behalten, verarbeitete Daten speichern und Ihre Modelle versionieren. Dies kann manuell erfolgen, indem Sie diese Informationen direkt in MinIO speichern oder das MLOP-Tool Ihrer Wahl verwenden. Viele MLOP-Tools verwenden Objektspeicher unter der Haube. Beispielsweise verwenden MLFlow von DataBricks und KubeFlow von Google beide MinIO. Darüber hinaus sollte die in den obigen Diagrammen dargestellte MinIO-Instanz aus einer Implementierung eines modernen Datensees stammen. Ein moderner Data Lake ist das Zentrum einer Systemarchitektur, die KI unterstützen kann.
Lassen Sie uns fortfahren und besprechen, wie LLMs den Objektspeicher mit Ihren Qualitätsdokumenten nutzen können.
In diesem Abschnitt betrachten wir zwei Möglichkeiten, Open-Source-LLMs und Ihre Qualitätsdokumente zu nutzen, um domänenspezifische Inhalte zu generieren. Bei diesen beiden Techniken handelt es sich um Fine-Tuning und Retrieval Augmented Generation (RAG).
Wenn wir ein Modell verfeinern, trainieren wir es noch ein wenig mit benutzerdefinierten Informationen. Dies könnte eine gute Möglichkeit sein, ein domänenspezifisches LLM zu erhalten. Diese Option erfordert zwar Rechenleistung, um die Feinabstimmung anhand Ihres benutzerdefinierten Korpus durchzuführen, sie ist jedoch nicht so aufwändig wie das Training eines Modells von Grund auf und kann in einem bescheidenen Zeitrahmen abgeschlossen werden.
Wenn Ihre Domain Begriffe enthält, die im alltäglichen Gebrauch nicht vorkommen, kann eine Feinabstimmung die Qualität der LLM-Antworten verbessern. Beispielsweise profitieren Projekte, die Dokumente aus der medizinischen Forschung, der Umweltforschung und allen naturwissenschaftlichen Bereichen verwenden, von einer Feinabstimmung. Bei der Feinabstimmung wird die hochspezifische Umgangssprache aus Ihren Dokumenten übernommen und in die parametrischen Parameter des Modells integriert.
Nachteile
Für die Feinabstimmung sind Rechenressourcen erforderlich.
Erklärbarkeit ist nicht möglich.
Während sich Ihr Korpus weiterentwickelt, müssen Sie regelmäßig eine Feinabstimmung mit neuen Daten vornehmen.
Halluzinationen geben Anlass zur Sorge.
Vorteile
Durch Feinabstimmung erhält der LLM Erkenntnisse aus Ihrem individuellen Korpus.
Bessere Time-to-Value im Vergleich zu RAG.
Während die Feinabstimmung eine gute Möglichkeit ist, einem LLM die Sprache Ihres Unternehmens beizubringen, verwässert sie die Daten, da die meisten LLMs Milliarden von Parametern enthalten und Ihre Daten über alle diese Parameter verteilt sind.
Schauen wir uns eine Technik an, die Ihre benutzerdefinierten Daten und parametrischen Daten zum Zeitpunkt der Inferenz kombiniert.
Retrieval Augmented Generation (RAG) ist eine Technik, die mit der gestellten Frage beginnt, diese mit zusätzlichen Daten verbindet und dann die Frage und die Daten zur Inhaltserstellung an ein LLM und eine Vektordatenbank weitergibt. Bei RAG ist keine Schulung erforderlich, da wir den LLM schulen, indem wir ihm relevante Textausschnitte aus unserem Korpus an Qualitätsdokumenten senden.
Mit einer Frage-Antwort-Aufgabe funktioniert das so: Ein Benutzer stellt eine Frage in der Benutzeroberfläche Ihrer Anwendung. Ihre Anwendung nimmt die Frage – insbesondere die darin enthaltenen Wörter – auf und durchsucht mithilfe einer Vektordatenbank Ihren Korpus hochwertiger Dokumente nach Textausschnitten, die kontextuell relevant sind. Diese Snippets werden zusammen mit der ursprünglichen Frage an das LLM gesendet. Dieses gesamte Paket – Frage plus Snippets (Kontext) – wird als Eingabeaufforderung bezeichnet. Das LLM verwendet diese Informationen, um Ihre Antwort zu generieren. Das mag wie eine alberne Sache erscheinen – wenn Sie die Antwort (die Auszüge) bereits kennen, warum sollten Sie sich dann mit dem LLM beschäftigen? Denken Sie daran: Dies geschieht in Echtzeit und das Ziel ist der generierte Text – etwas, das Sie kopieren und in Ihre Recherche einfügen können. Sie benötigen das LLM, um den Text zu erstellen, der die Informationen aus Ihrem benutzerdefinierten Korpus enthält.
Das ist komplizierter als die Feinabstimmung. Sie haben vielleicht schon von Vektordatenbanken gehört – sie sind eine Schlüsselkomponente bei der Suche nach dem besten Kontext für eine Frage. Das Einrichten von Vektordatenbanken kann schwierig sein. Wenn Sie eine einfache Zwischenlösung benötigen, können Sie ein Textsuchtool wie Elastic Search verwenden. Vektordatenbanken sind jedoch besser, da sie die semantische Bedeutung von Wörtern lernen und einen Kontext einbeziehen können, in dem verschiedene Wörter mit derselben oder einer ähnlichen Bedeutung verwendet werden.
Nachteile
Erfordert eine Vektordatenbank.
Längere Zeit bis zur Wertschöpfung im Vergleich zur Feinabstimmung. (Aufgrund der Vektordatenbank und der Vorverarbeitung, die vor dem Senden einer Anfrage an das LLM erforderlich ist.)
Vorteile
Die erfolgreiche Implementierung generativer KI ist für jedes unternehmen, das bereit ist, angemessen zu planen, erreichbar.
Wie alles, was mit KI zu tun hat, beginnt auch die generative KI mit Daten. Die von den großen Sprachmodellen benötigten Daten, die die generative KI antreiben, sind der benutzerdefinierte Korpus, der das einzigartige Wissen innerhalb Ihrer Firewalls definiert. Beschränken Sie sich nicht auf textbasierte Dokumente. Es können Schulungsvideos, aufgezeichnete Besprechungen und aufgezeichnete Ereignisse sowohl im Audio- als auch im Videoformat verwendet werden. Der Aufbau einer Datenpipeline wird nicht einfach sein. Es muss darauf geachtet werden, Sicherheit und Lizenzierung zu gewährleisten und gleichzeitig die Qualität sicherzustellen.
Open-Source-Modelle reduzieren die Komplexität beim Entwerfen von Modellen und da die meisten vorab trainiert sind, entfallen auch die hohen Kosten für die anfängliche Schulung. Unternehmen sollten mit Feinabstimmungen experimentieren, um zu sehen, ob sie die Qualität der generierten Inhalte verbessern.
Schließlich ist Retrieval Augmented Generation (RAG) eine leistungsstarke Technik, mit der Sie das Wissen im benutzerdefinierten Dokumentenkorpus Ihres Unternehmens mit dem parametrischen Wissen eines LLM kombinieren können. Anders als bei der Feinabstimmung werden die Informationen aus Ihrem Korpus nicht in die parametrischen Parameter des Modells eingelernt. Vielmehr werden relevante Snippets zum Zeitpunkt der Inferenz lokalisiert und als Kontext an das Modell übergeben.
Generative KI ist eine neue Technologie und neue Technologien erfordern Infrastrukturaktualisierungen. Für Unternehmen, die generative KI ernst nehmen, besteht der nächste Schritt darin, eine Systemarchitektur zu erstellen, die eine KI/ML-Pipeline, eine Datenpipeline, einen Modern Data Lake und eine Vektordatenbank (sofern RAG verwendet werden soll) umfasst. In diesem Beitrag habe ich diese Technologien ausführlich behandelt.
Bleiben Sie auf dem Laufenden in diesem Blog, um eine detailliertere Erklärung der generativen KI-Systemarchitektur zu erhalten. Wenn Sie Fragen haben, schreiben Sie uns eine E-Mail an [email protected] oder treten Sie der Slack-Community bei.
Erscheint auch hier .