Warum kann eine KI die Anzahl der „R“ im Wort „Erdbeere“ nicht zählen?
Große Sprachmodelle, insbesondere ChatGPT von OpenAI, revolutionierten die Art und Weise, wie wir mit Maschinen interagieren, die menschenähnliche Texte verstehen und generieren können. Aber diese Modelle selbst hatten ihre eigenen, seltsamen Charaktere. Die nervigste Merkwürdigkeit, die in letzter Zeit in allen sozialen Medien die Runde gemacht hat, ist das Versagen dieses großen Sprachmodells, die Anzahl eines bestimmten Buchstabens in einem Wort richtig zu zählen. Ein sehr beliebtes Beispiel ist das Wort „Erdbeere“, bei dem die KI sehr oft nicht richtig zählt, wie oft „r“ vorkommt. Aber warum tut sie das? Die Antwort liegt tief im Kern der Art und Weise, wie diese Modelle Sprache verarbeiten und generieren.
Einer der Hauptgründe, warum KI bei Fragen wie dem Zählen von Buchstaben stolpert, ist die Art und Weise, wie sie Wörter tatsächlich verarbeitet. Sprachmodelle wie GPT-3 und GPT-4 behandeln Wörter nicht als Abfolge einzelner Buchstaben. Stattdessen zerlegen sie Text in kleinere Einheiten, sogenannte „Token“. Token können so kurz wie ein Buchstabe oder so lang wie ein ganzes Wort sein, je nach Design des betreffenden Modells und des jeweiligen Wortes.
Beispielsweise würde das Wort „Erdbeere“ höchstwahrscheinlich in zwei Token aufgeteilt werden, Darstellungen von teilweisen Wortfragmenten, die das Modell aus dem Training kennt. Der Punkt ist, dass diese normalerweise nicht den Buchstaben im Wort entsprechen. Dies liegt daran, dass die KI in Beispielen wie „Erdbeere“ möglicherweise nicht die Aufschlüsselung des Wortes in vollständige, einzelne Buchstaben sieht, sondern zwei Token, beispielsweise die Token-IDs 496 und 675. Wenn sie später aufgefordert wird, bestimmte Buchstaben zu zählen, wird dieses Modell keine einfache Möglichkeit finden, die Token wieder der Anzahl der Vorkommen eines bestimmten Buchstabens zuzuordnen.
Grundsätzlich sagen Sprachmodelle voraus, was das nächste Wort oder Token in einer Sequenz sein wird, basierend auf dem Kontext, der durch die vorherigen Wörter oder Token gegeben ist. Dies funktioniert insbesondere bei der Generierung von Text, der nicht nur kohärent ist, sondern auch seinen Kontext kennt. Es eignet sich jedoch nicht wirklich für Zwecke, für die Sie etwas genau zählen oder über einzelne Zeichen nachdenken müssen.
Wenn Sie die KI bitten würden, die Anzahl der Vorkommen des Buchstabens „r“ im Wort „Strawberry“ zu zählen, hätte sie keine so genaue Darstellung des Wortes, aus der die Anzahl und Position jedes Vorkommens dieses Buchstabens abgeleitet werden könnte. Stattdessen antwortet sie auf der Grundlage dessen, was sie über das Bilden von Vorhersagen aus der Struktur der Anfrage gelernt hat. Natürlich kann dies ungenau sein, da die Daten, aus denen sie gelernt hat, nichts mit dem Zählen von Buchstaben zu tun haben und möglicherweise nicht einmal die Art von Material enthalten, das zum Nachzeichnen des „r“ in unserem Beispielwort erforderlich wäre.
Ein weiterer wichtiger Punkt ist, dass Sprachmodelle, die in den meisten Chatbots verwendet werden, per se für explizites Zählen oder Rechnen ungeeignet sind. Reine Sprachmodelle sind kaum mehr als fortgeschrittene Wörterbücher oder Algorithmen zur Textvorhersage, die Aufgaben mit Wahrscheinlichkeitsgewichtung auf der Grundlage der Muster ausführen, die sie lernen, aber bei Aufgaben, die strenges logisches Denken erfordern, wie Zählen, Probleme haben. Wenn die KI aufgefordert wird, ein Wort zu buchstabieren oder in einzelne Buchstaben zu zerlegen, kann sie dies häufiger richtig machen, da dies eher der Aufgabe entspricht, für die sie trainiert wurde: Textgenerierung.
Trotz dieser Einschränkungen sind Leistungsverbesserungen der KI bei solchen Aufgaben möglich. Sie können verbessert werden, indem man die KI auffordert, alle möglichen Programmiersprachen wie Python zum Zählen zu verwenden. Sie können beispielsweise versuchen, der KI die Anweisung zu geben, eine Python-Funktion zu schreiben, die die Anzahl der „r“ in „Erdbeere“ zählt, und sie würde es wahrscheinlich richtig machen. Wir verwenden diesen Ansatz, weil er die Fähigkeit der KI nutzt, Code zu verstehen und zu generieren, der ausgeführt werden kann, um die Aufgabe korrekt auszuführen.
Darüber hinaus werden Sprachmodelle neuerer Generationen mit anderen Werkzeugen und Algorithmen kombiniert, die diese Modelle für strukturiertere Aufgaben, zu denen auch Zählen und Rechnen gehören, leistungsfähiger machen.
Durch die Einbettung symbolischen Denkens oder die Kombination der LLMs mit externen Denkmaschinen könnte ein KI-System geschaffen werden, das diese Mängel überwinden könnte.
Das Problem der Buchstabenzählung in Wörtern wie „Erdbeere“ weist in diesem Zusammenhang auf ein viel größeres und allgemeineres Problem hin: die „kollektive Dummheit“ dieser trainierten Modelle. Obwohl diese Modelle an sehr großen Datensätzen trainiert wurden und daher Text auf sehr hohem Niveau generieren können, machen sie manchmal sehr dumme Fehler, die ein kleines Kind leicht vermeiden könnte. Dies liegt daran, dass das „Wissen“ des Modells auf Mustererkennung und statistischen Assoziationen beruhen muss und nicht auf seinem Verständnis der realen Welt oder logischen Schlussfolgerungen.
Selbst wenn sie ausführlich instruiert wird oder sogar in eine Situation gebracht wird, in der sich mehrere Modelle gegenseitig überprüfen, kann die KI immer noch hartnäckig an falschen Antworten festhalten. Dieses Verhalten zeigt sehr deutlich, wie wichtig es ist, KI-Systeme nicht für Fähigkeiten zu überschätzen, die über ihre Stärken hinausgehen, sondern voll und ganz zu verstehen, was sie können und was nicht.
Die Unfähigkeit der KI, die Anzahl der „r“ in einer „Erdbeere“ zu zählen, ist alles andere als ein trivialer Fehler; vielmehr ist es ein Spiegelbild der zugrunde liegenden Architektur und Designphilosophie von Sprachmodellen. Diese Modelle sind sehr leistungsfähig bei der Generierung menschenähnlicher Texte, dem Verstehen von Kontexten und der Nachahmung von Konversationen, sind aber nicht direkt für Aufgaben gedacht, die speziell Detailgenauigkeit auf Zeichenebene erfordern.
Da sich die KI kontinuierlich verbessert, werden zukünftige Modelle durch verbesserte Tokenisierungsprozesse, die Integration zusätzlicher Argumentationswerkzeuge oder sogar völlig andere Methoden zum Verstehen und Manipulieren von Sprache wahrscheinlich besser zu solchen Aufgaben fähig sein. Bis dahin sollte man sich der KI mit einem Verständnis ihrer Grenzen nähern, geeignete Workarounds verwenden und sich darüber im Klaren sein, dass sie zwar Verständnis simulieren kann, aber noch nicht wirklich so „versteht“, wie es Menschen tun.