Systeme der künstlichen Intelligenz (KI) und große Sprachmodelle ( LLMs ) wie GPT-3 , ChatGPT und andere machen rasante Fortschritte. Sie werden in sensiblen Bereichen wie Gesundheitswesen, Finanzen, Bildung und Regierungsführung eingesetzt, wo ihre Ergebnisse direkte Auswirkungen auf das Leben von Menschen haben. Dies erfordert eine gründliche Bewertung, ob diese LLMs in der Lage sind, moralisch fundierte Urteile zu fällen, bevor sie sie in solch risikoreichen Umgebungen einsetzen.
Kürzlich haben Forscher von Microsoft
LLMs, die auf riesigen Mengen an Internet-Textdaten geschult wurden, haben beeindruckende Fähigkeiten in der natürlichen Sprache erlangt. Sie können differenzierte Gespräche führen, lange Texte zusammenfassen, zwischen Sprachen übersetzen, Erkrankungen diagnostizieren und vieles mehr.
Neben den positiven Aspekten zeigen sie jedoch auch besorgniserregende Verhaltensweisen wie die Erstellung toxischer, voreingenommener oder sachlich falscher Inhalte. Solche Verhaltensweisen können die Zuverlässigkeit und den Wert von KI-Systemen erheblich beeinträchtigen.
Darüber hinaus werden LLMs zunehmend in Anwendungen eingesetzt, in denen sie sich direkt auf das Leben von Menschen auswirken, beispielsweise als Chatbots für die psychische Gesundheit oder die Bearbeitung von Schadensersatzansprüchen bei Unfällen. Schlechte moralische Urteile aufgrund fehlerhafter Modelle können erhebliche individuelle und/oder gesamtgesellschaftliche Probleme verursachen.
Daher glauben viele Menschen in der KI-Community, dass umfassende Bewertungen erforderlich sind, bevor LLMs in Umgebungen eingeführt werden, in denen Ethik und Werte wichtig sind. Aber wie können Entwickler feststellen, ob ihre Modelle über ausreichend komplexe moralische Argumente verfügen, um komplexe menschliche Dilemmata zu bewältigen?
Frühere Versuche, die Ethik von LLMs zu bewerten, umfassten in der Regel die Klassifizierung ihrer Reaktionen auf erfundene moralische Szenarien als gut/schlecht oder ethisch/unethisch.
Solche binären reduktionistischen Methoden erfassen jedoch oft nur unzureichend die nuancierte Vielschichtigkeit moralischen Denkens. Menschen berücksichtigen bei ethischen Entscheidungen verschiedene Faktoren wie Fairness, Gerechtigkeit, Schaden und kulturelle Kontexte und nicht nur binäre Richtig/Falsch-Ansprüche.
Um dieses Problem anzugehen, haben die Microsoft-Forscher ein klassisches psychologisches Bewertungstool namens Defining Issues Test (DIT) angepasst, um die moralischen Fähigkeiten von LLMs zu untersuchen. DIT wurde ausgiebig genutzt, um die moralische Entwicklung des Menschen zu verstehen.
Das DIT präsentiert moralische Dilemmata aus der realen Welt, gefolgt von jeweils 12 Stellungnahmen, die Überlegungen zu diesem Dilemma anstellen. Die Probanden müssen die Bedeutung jeder Aussage für die Lösung bewerten und die vier wichtigsten auswählen.
Die Auswahl ermöglicht die Berechnung eines P-Scores, der anzeigt, dass man sich auf anspruchsvolles postkonventionelles moralisches Denken verlässt. Der Test deckt die grundlegenden Rahmenbedingungen und Werte auf, die Menschen nutzen, um ethische Dilemmata anzugehen.
Die Forscher bewerteten sechs wichtige LLMs mithilfe von Eingabeaufforderungen im DIT-Stil – GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 und LLamaChat-70B. Die Eingabeaufforderungen enthielten moralische Dilemmata, die für KI-Systeme relevanter sind, sowie Fragen zur Wichtigkeitsbewertung und Aussageeinstufung.
Jedes Dilemma beinhaltete komplexe widersprüchliche Werte wie individuelle Rechte vs. gesellschaftliches Wohl. Die LLMs mussten die Dilemmata verstehen, die Überlegungen bewerten und diejenigen auswählen, die mit ausgereiften moralischen Überlegungen übereinstimmen.
In diesem Experiment stützten sich die Forscher bei ihrer Bewertung auf Kohlbergs Theorie der moralischen Entwicklung.
Kohlbergs Modell bezieht sich auf die Theorie der moralischen Entwicklung, die der Psychologe Lawrence Kohlberg in den 1960er Jahren vorschlug.
Einige wichtige Punkte zu Kohlbergs moralischem Entwicklungsmodell:
Ziel ist es zu erklären, wie sich Menschen im Laufe der Zeit in ihrem moralischen Denken und ihren ethischen Urteilsfähigkeiten weiterentwickeln.
Die Theorie geht davon aus, dass sich moralisches Denken in aufeinanderfolgenden Stufen von einem primitiven zu einem fortgeschritteneren Niveau entwickelt.
Es gibt drei Hauptebenen der moralischen Entwicklung mit jeweils unterschiedlichen Stufen: vorkonventionell (Stufen 1–2), konventionell (Stufen 3–4) und postkonventionell (Stufen 5–6).
Auf der vorkonventionellen Ebene basieren moralische Entscheidungen auf Eigeninteresse und der Vermeidung von Strafe.
Auf der konventionellen Ebene bestimmen moralisches Denken die Einhaltung sozialer Normen und Gesetze sowie das Einholen der Zustimmung anderer.
Auf der postkonventionellen Ebene wenden Menschen universelle ethische Prinzipien der Gerechtigkeit, der Menschenrechte und der sozialen Zusammenarbeit an, um moralische Urteile zu fällen.
Menschen können nur in einer festgelegten Reihenfolge zu höheren Stufen aufsteigen und keine Stufen in der Entwicklung des moralischen Denkens überspringen.
Kohlberg glaubte, dass nur eine Minderheit der Erwachsenen die postkonventionellen Stufen des moralischen Denkens erreicht.
Die Theorie konzentriert sich auf die kognitive Verarbeitung hinter moralischen Urteilen, obwohl spätere Überarbeitungen auch soziale und emotionale Aspekte einbeziehen.
Kohlbergs Modell geht also davon aus, dass sich moralisches Denken in qualitativen Stufen entwickelt, von einfach bis fortgeschritten. Es bietet einen Rahmen zur Beurteilung der Ausgereiftheit und Reife ethischer Entscheidungsfähigkeiten.
Die DIT-Experimente lieferten einige interessante Einblicke in die Fähigkeiten und Grenzen des aktuellen LLM in Bezug auf moralische Intelligenz:
Große Modelle wie GPT-3 und Text-davinci-002 konnten die vollständigen DIT-Eingabeaufforderungen nicht verstehen und erzeugten willkürliche Antworten. Ihre nahezu zufälligen P-Scores zeigten, dass sie nicht in der Lage waren, sich auf ethische Überlegungen einzulassen, wie sie in diesem Experiment konstruiert wurden.
ChatGPT, Text-davinci-003 und GPT-4 könnten die Dilemmata verstehen und kohärente Antworten geben. Ihre über dem Zufallsprinzip liegenden P-Scores quantifizierten ihre Fähigkeit zum moralischen Denken.
Überraschenderweise übertraf das LlamaChat-Modell mit 70B-Parametern größere Modelle wie GPT-3.5 in seinem P-Score, was zeigt, dass ein ausgefeiltes ethisches Verständnis auch ohne massive Parameter möglich ist.
Die Modelle arbeiteten weitgehend auf konventionellen Denkebenen gemäß Kohlbergs Modell der moralischen Entwicklung zwischen den Stufen 3 und 5. Nur GPT-4 berührte etwas postkonventionelles Denken.
Das bedeutet, dass diese Modelle ihre Antworten auf Normen, Regeln, Gesetze und gesellschaftliche Erwartungen basierten. Ihr moralisches Urteil enthielt einige Nuancen, es mangelte jedoch an einer weit fortgeschrittenen Entwicklung.
Nur GPT-4 zeigte einige Spuren postkonventionellen Denkens, die auf die Stufen 5–6 hinweisen. Aber selbst GPT-4 zeigte kein völlig ausgereiftes moralisches Denken.
Zusammenfassend lässt sich sagen, dass die Modelle ein mittleres Maß an moralischer Intelligenz zeigten. Sie gingen über das grundlegende Eigeninteresse hinaus, konnten jedoch komplexe ethische Dilemmata und Kompromisse nicht wie moralisch entwickelte Menschen bewältigen.
Daher sind wahrscheinlich erhebliche Fortschritte erforderlich, um LLMs auf ein höheres Niveau moralischer Intelligenz zu bringen ... oder zumindest auf das, was moralische Intelligenz zu sein scheint.
Die Studie etabliert DIT als möglichen Rahmen für eine detailliertere mehrdimensionale Bewertung der moralischen Fähigkeiten von LLMs. Anstelle nur binärer richtig/falsch-Urteile bietet DIT spektrumbasierte Einblicke in die Komplexität moralischen Denkens.
Die erhaltenen P-Scores quantifizieren vorhandene Fähigkeiten und setzen einen Maßstab für Verbesserungen. Wie bei der Genauigkeit anderer KI-Aufgaben ermöglichen die Ergebnisse die Verfolgung des Fortschritts in diesem entscheidenden Aspekt. Sie zeigen aktuelle Einschränkungen auf, die vor dem Einsatz in ethisch sensiblen Anwendungen behoben werden müssen.
Das kleinere LlamaChat-Modell, das größere Modelle übertrifft, stellt die Annahme in Frage, dass der Modellmaßstab direkt mit der Komplexität der Argumentation korreliert. Es besteht die Aussicht, auch mit kleineren Modellen eine hochleistungsfähige ethische KI zu entwickeln.
Insgesamt unterstreicht die Forschung die Notwendigkeit, LLMs weiterzuentwickeln, um komplexe moralische Kompromisse, Konflikte und kulturelle Nuancen so zu bewältigen, wie es Menschen tun. Die Ergebnisse könnten die Entwicklung von Modellen leiten, deren moralische Intelligenz der sprachlichen Intelligenz ebenbürtig ist, bevor sie in der realen Welt eingesetzt werden.
Auch hier veröffentlicht.