1,434 Lesungen

KI vs Mensch – Ist die Maschine schon überlegen?

von Vitalii Chukhlantcev3m2024/10/31

Zu lang; Lesen

Wenn man den Benchmarks vertraut, scheinen KI-Modelle heute in den meisten Bereichen besser zu sein als Menschen. Das liegt daran, dass sie sich Antworten auf spezielle Fragen merken und abrufen können – nicht daran, dass sie tatsächlich gut argumentieren können. Der neue Benchmark „SIMPLE“ soll dieses Problem lösen.

featured image - KI vs Mensch – Ist die Maschine schon überlegen?

Wenn Sie sich die gängigen Benchmarks zur Messung der LLM-Leistung ansehen, kommen Sie wahrscheinlich zu dem Schluss, dass KI sooo schlau ist.

Dies ist ein oberflächlicher Eindruck. Ist KI jedoch bei kognitiven Aufgaben wirklich besser als ein durchschnittlicher Mensch?

Spitzenmodelle wie o1 von OpenAI und Claude 3.5 Sonnet von Anthropic schneiden in vielen Bereichen besser ab als menschliche Experten, darunter Recht, Programmierung und Mathematik. Warum kann ChatGPT dann einige einfache Aufgaben zum räumlichen Denken oder ein paar alberne Fangfragen nicht lösen? Nun, wir sprechen immer noch von „großen Sprachmodellen“ – sie nehmen eine Menge Buchstaben auf und versuchen vorherzusagen, welche Buchstaben sie für eine bestimmte Abfrage ausspucken sollen.

Beachten Sie, dass in dieser Gleichung nirgends das eigentliche „Denken“ erwähnt wird. Die Modelle sind eine Art stochastische Papageien , die versuchen, die richtigen Informationen aus ihrem Trainingsdatensatz abzurufen, anstatt Ihre Frage tatsächlich zu berücksichtigen. Zumindest war dies der Fall, bis OpenAI o1-preview veröffentlichte, aber dazu später mehr.

Zu denen, die begonnen haben, die Relevanz der bestehenden LLM-Benchmarks in Frage zu stellen, gehört der Autor von „AI Explained“, einem beliebten YouTube-Kanal, von dem ich ein großer Fan bin. Phillip (der Name des YouTubers) bemerkte, dass die branchenüblichen Benchmarks einen klaren Fragenstil aufweisen, der zudem größtenteils öffentlich verfügbar ist. Dies bedeutet, dass nicht nur genau diese Fragen Teil des Trainingsdatensatzes sein können, sondern dass es aufgrund der Standardisierung für Modelle einfacher ist, Muster aus den gesamten Trainingsdaten zu erkennen und anzuwenden.

Einfach ausgedrückt: KI-Forscher, die bahnbrechende komplexe Technologien entwickeln, können sicherlich einen Weg finden, ihrem Modell vor dem Benchmarking die relevanten Fragen und Antworten zum „Erinnern“ zu geben.

Betrachtet man die Ergebnisse des Topmodells, o1 von OpenAI, kann man davon ausgehen, dass es in vielen Fachbereichen überdurchschnittliche Ergebnisse erzielt. Und das stimmt, aber dieses Ergebnis hängt von der Verfügbarkeit relevanter Trainingsdaten und früherer Beispiele aus diesen spezifischen Bereichen ab. Verstehen Sie mich nicht falsch, die Modelle sind mittlerweile erstaunlich gut darin, Lehrbuchantworten auf Lehrbuchfragen zu geben, und das allein ist schon unglaublich beeindruckend.

Der Begriff „künstliche Intelligenz“ impliziert allerdings etwas mehr als nur Informationsabruf; es muss auch echtes Denken im Spiel sein. Eine logische Folgefrage zu all den beeindruckenden Zahlen oben ist also, ob eine solche „KI“ eine knifflige Frage des logischen Denkens beantworten kann. Verfügt sie über räumliche Intelligenz? Oder kann sie sich in alltäglichen sozialen Szenarien gut zurechtfinden? Die Antwort lautet: manchmal.

Im Gegensatz zu fachspezifischen Fragen mit vordefinierten Antworten erfordern Probleme, die Menschen tagtäglich lösen, oft ein Kontextverständnis, das über die natürliche Sprache hinausgeht (was das Einzige ist, worüber LLMs verfügen).

Oben sind die Top-Scorer des SIMPLE-Benchmarks aufgeführt, der LLMs Fragen stellt, die ein durchschnittlicher Mensch als trivial erachten würde, die die Modelle aber noch nicht unbedingt beantworten können. Wir sind es gewohnt, dass KI in Prüfungen oder speziellen Benchmarks viel besser abschneidet als ein durchschnittlicher Mensch, aber hier beträgt die Leistung des Top-Modells tatsächlich nur 41,7 % (o1-preview) gegenüber 83,7 % eines durchschnittlichen Menschen. Dieser Benchmark verwendet 200 Multiple-Choice-Textfragen, die sich auf räumlich-zeitliches Denken, soziale Intelligenz und Fangfragen konzentrieren.

Das wichtigste Merkmal des Benchmarks ist, dass diese Fragen nicht öffentlich verfügbar sind und KI-Labore sie daher nicht einfach zu ihren Trainingsdaten hinzufügen können. Weitere Informationen zu diesem Benchmark finden Sie hier .

Dieser neue Ansatz zur Messung der LLM-Leistung zeigt, wie weit alle Modelle noch von der durchschnittlichen menschlichen Denkfähigkeit entfernt sind. Je schneller sich diese Lücke in den kommenden Monaten schließt, desto eindeutiger wird die Antwort „Ja“ auf unsere Schlagzeile. Eine interessante neue Messgröße, auf die Sie achten sollten, wenn Sie KI gegenüber enthusiastisch, aber skeptisch eingestellt sind.