In letzter Zeit wurde viel über die Wunder der Large Language Models (LLMs) gesagt. Die meisten dieser Auszeichnungen sind verdient. Bitten Sie ChatGPT, die Allgemeine Relativitätstheorie zu beschreiben, und Sie erhalten eine sehr gute (und genaue) Antwort. Letztlich ist ChatGPT jedoch immer noch ein Computerprogramm (wie alle anderen LLMs), das seinen Befehlssatz blind ausführt. Es versteht die Allgemeine Relativitätstheorie nicht besser als Ihr Lieblingshaustier. Leider verwenden wir „menschenähnliche“ Wörter, um die Techniken zu beschreiben, mit denen Ingenieure sie erstellen – zum Beispiel „maschinelles Lernen“ und „Training“. Das ist irreführend, denn ein LLM hat keinen Verstand wie ein Mensch.
Hier liegt eine gewisse Ironie – wie kann ein nicht denkender Chatbot die Erkenntnisse des klügsten Mannes aller Zeiten richtig zusammenfassen? Um diese widersprüchliche Natur von LLMs zu verstehen, untersuchen wir sie weiter im Hinblick auf Stärken, Schwächen und Gefahren, um zu sehen, wie wir Daten und eine Speicherlösung wie MinIO nutzen können, um die ersten zu nutzen und die anderen beiden abzuschwächen. Dies sind Techniken, die jeder Ingenieur im Hinterkopf haben sollte, wenn er LLMs für sein Unternehmen trainiert, testet und einsetzt.
Die Stärke von LLMs besteht darin, dass sie darauf trainiert werden, die Wahrscheinlichkeitsverteilung von Wörtern im Trainingssatz zu verstehen, der zu ihrer Erstellung verwendet wird. Wenn der Trainingssatz ausreichend groß ist (z. B. ein Korpus von Wikipedia-Artikeln oder öffentlicher Code auf GitHub), verfügen die Modelle über ein Vokabular und eine entsprechende Wahrscheinlichkeitsverteilung, die ihre Ergebnisse so aussehen lassen, als hätten sie ein reales Verständnis davon Text, den sie ausgeben. Schauen wir uns ein weiteres Beispiel genauer an – dieses Mal aus der Philosophie. Stellen Sie ChatGPT die Frage: „Was bedeutet ‚cogito, ergo sum‘ und wer hat es geschrieben?“ und Sie erhalten etwas Ähnliches wie den folgenden Text.
„Cogito, ergo sum“ ist ein lateinischer philosophischer Satz, der auf Englisch mit „Ich denke, also bin ich“ übersetzt wird. Diese Aussage wird bekanntlich mit René Descartes in Verbindung gebracht, einem französischen Philosophen, Mathematiker und Wissenschaftler. Descartes brachte diese Idee in seinem 1637 veröffentlichten Werk „Diskurs über die Methode“ zum Ausdruck. Der Satz spiegelt Descartes‘ Versuch wider, eine grundlegende Wahrheit zu begründen, die nicht angezweifelt werden kann – die Gewissheit der eigenen Existenz als denkendes Wesen.
LLMs erzeugen solche Ergebnisse mithilfe von Wahrscheinlichkeitsverteilungen. Das funktioniert ungefähr so: Sie schauen sich zunächst den Text in der Frage an und stellen fest, dass das Wort „Cogito“ mit der höchsten Wahrscheinlichkeit das erste Wort der Antwort ist. Von dort aus betrachten sie die Frage und das erste Wort der Antwort, um das Wort zu bestimmen, das mit der höchsten Wahrscheinlichkeit als nächstes kommt. Dies geht so lange weiter, bis festgestellt wird, dass ein spezielles „Ende der Antwort“-Zeichen die höchste Wahrscheinlichkeit aufweist.
Diese Fähigkeit, eine Antwort in natürlicher Sprache auf der Grundlage von Milliarden von Wahrscheinlichkeiten zu generieren, ist nicht zu befürchten – vielmehr sollte sie für den geschäftlichen Nutzen genutzt werden. Die Ergebnisse werden noch besser, wenn Sie moderne Techniken anwenden. Mithilfe von Techniken wie Retrieval Augmented Generation (RAG) und Fine-Tuning können Sie beispielsweise einem LLM Ihr spezifisches Unternehmen näherbringen. Um diese menschenähnlichen Ergebnisse zu erzielen, sind Daten erforderlich, und Ihre Infrastruktur benötigt eine leistungsstarke Datenspeicherlösung.
Mit diesen Next-Token-Vorhersagefunktionen können Sie nicht nur großartige Texte für Ihren Chatbot oder Ihre Marketingtexte generieren, sondern auch die automatisierte Entscheidungsfindung innerhalb Ihrer Anwendung ermöglichen. Bei geschickt konstruierten Eingabeaufforderungen, die eine Problemstellung und Informationen über aufrufbare APIs („Funktionen“) enthalten, kann ein LLM aufgrund seines Sprachverständnisses eine Antwort generieren, die erklärt, welche „Funktion“ aufgerufen werden soll. In einer interaktiven Wetter-App könnte ein Benutzer beispielsweise fragen: „Brauche ich eine Regenjacke, wenn ich heute Abend in den Fenway Park gehe?“ Mit einer cleveren Eingabeaufforderung könnte ein LLM die Standortdaten aus der Abfrage extrahieren (Boston, MA) und bestimmen, wie eine Anfrage an die Weather.com Precipitation API formuliert werden könnte.
Der schwierigste Teil beim Erstellen von Software war lange Zeit die Schnittstelle zwischen natürlicher Sprache und syntaktischen Systemen wie API-Aufrufen. Ironischerweise könnte das einer der einfachsten Teile sein. Ähnlich wie bei der Textgenerierung kann die Qualität und Zuverlässigkeit des LLM-Funktionsaufrufverhaltens durch den Einsatz von Feinabstimmung und Verstärkungslernen mit menschlichem Feedback (RLHF) verbessert werden.
Nachdem wir nun verstanden haben, worin LLMs gut sind und warum, wollen wir untersuchen, was LLMs nicht können.
LLMs können nicht denken, verstehen oder argumentieren. Dies ist die grundlegende Einschränkung von LLMs. Sprachmodellen fehlt die Fähigkeit, über die Frage eines Benutzers nachzudenken. Dabei handelt es sich um Wahrscheinlichkeitsmaschinen, die eine wirklich gute Antwort auf die Frage eines Benutzers liefern. Ganz gleich, wie gut eine Vermutung auch sein mag, es ist immer noch eine Vermutung, und was auch immer diese Vermutungen hervorbringt, wird letztendlich etwas hervorbringen, das nicht wahr ist. In der generativen KI wird dies als „Halluzination“ bezeichnet.
Bei richtigem Training können Halluzinationen auf ein Minimum reduziert werden. Feinabstimmung und RAG reduzieren auch Halluzinationen erheblich. Das Fazit: Um ein Modell richtig zu trainieren, zu verfeinern und ihm einen relevanten Kontext (RAG) zu geben, sind Daten und die Infrastruktur erforderlich, um es in großem Maßstab zu speichern und auf performante Weise bereitzustellen.
Schauen wir uns einen weiteren Aspekt von LLMs an, den ich als Gefahr einstufen werde, weil er unsere Fähigkeit, sie zu testen, beeinträchtigt.
Der beliebteste Einsatz von LLMs ist die generative KI. Generative KI liefert keine spezifische Antwort, die mit einem bekannten Ergebnis verglichen werden kann. Dies steht im Gegensatz zu anderen KI-Anwendungsfällen, die eine spezifische Vorhersage treffen, die leicht getestet werden kann. Es ist einfach, Modelle zur Bilderkennung, Kategorisierung und Regression zu testen. Doch wie testet man LLMs für generative KI unvoreingenommen, faktengetreu und skalierbar? Wie können Sie sicher sein, dass die komplexen Antworten, die LLMs generieren, korrekt sind, wenn Sie selbst kein Experte sind? Selbst wenn Sie ein Experte sind, können menschliche Prüfer nicht an den automatisierten Tests teilnehmen, die in einer CI/CD-Pipeline stattfinden.
Es gibt ein paar Benchmarks in der Branche, die helfen können. GLUE (General Language Understanding Evaluation) wird zur Bewertung und Messung der Leistung von LLMs verwendet. Es besteht aus einer Reihe von Aufgaben, die die Fähigkeit von Modellen bewerten, menschliche Sprache zu verarbeiten. SuperGLUE ist eine Erweiterung des GLUE-Benchmarks, die anspruchsvollere Sprachaufgaben einführt. Diese Aufgaben umfassen die Auflösung von Koreferenzen, die Beantwortung von Fragen und komplexere sprachliche Phänomene.
Obwohl die oben genannten Benchmarks hilfreich sind, sollte ein großer Teil der Lösung Ihre eigene Datenerfassung sein. Erwägen Sie, alle Fragen und Antworten zu protokollieren und Ihre eigenen Tests basierend auf benutzerdefinierten Ergebnissen zu erstellen. Dies erfordert auch eine Dateninfrastruktur, die skalierbar und leistungsfähig ist.
Hier hast du es. Die Stärken, Schwächen und Gefahren von LLMs. Wenn Sie das erste ausnutzen und die anderen beiden abschwächen möchten, benötigen Sie Daten und eine Speicherlösung, die viele Daten verarbeiten kann.