paint-brush
Empathie in der KI: Bewertung großer Sprachmodelle zum emotionalen Verständnisby@anywhichway
311
311

Empathie in der KI: Bewertung großer Sprachmodelle zum emotionalen Verständnis

Dieser Beitrag ist eine Fortsetzung des Hackernoon-Artikels [Können Maschinen Ihre Gefühle wirklich verstehen? Bewertung großer Sprachmodelle für Empathie]. Im vorherigen Artikel ließ ich zwei große LLMs auf ein Szenario reagieren, das darauf ausgelegt war, bei einem Menschen unter verschiedenen Systemaufforderungs-/Trainingsbedingungen Empathie hervorzurufen. In diesem Artikel verrate ich, welche LLMs sich auf welche Weise verhalten haben, gebe meine eigene Meinung wieder und füge einige Beobachtungen hinzu.
featured image - Empathie in der KI: Bewertung großer Sprachmodelle zum emotionalen Verständnis
Simon Y. Blackwell HackerNoon profile picture
0-item

Einführung

Dieser Beitrag ist eine Fortsetzung meines Hackernoon-Artikels „Können Maschinen Ihre Gefühle wirklich verstehen? Bewertung großer Sprachmodelle auf Empathie. Im vorherigen Artikel ließ ich zwei große LLMs auf ein Szenario reagieren, das darauf ausgelegt war, bei einem Menschen Empathie unter verschiedenen Systemaufforderungs-/Trainingsbedingungen hervorzurufen, und verwendete dann fünf große LLMs, um die Gespräche auf Empathie und die Wahrscheinlichkeit zu bewerten, dass der Befragte eine KI war. Die Namen der LLMs wurden im Originalbeitrag nicht genannt, in der Hoffnung, über eine Umfrage Benutzerfeedback zu den Dialogen oder den Bewertungen der Dialoge zu erhalten. Die Antworten auf die Umfrage reichten nicht aus, um Rückschlüsse auf die menschliche Stimmung zu diesem Thema zu ziehen, daher enthülle ich in diesem Artikel nur, welche LLMs sich wie verhalten haben, äußere meine eigene Meinung und füge einige Beobachtungen hinzu. Ich schlage vor, Sie öffnen den vorherigen Artikel auf einem zweiten Bildschirm oder drucken ihn aus, um beim Lesen dieses Artikels leicht auf die Gespräche verweisen zu können.

LLMs auf empathischen Dialog getestet

Die beiden auf empathischen Dialog getesteten LLMs waren Meta Llama 3 70B und Open AI Opus 3. Beide wurden unter den folgenden Bedingungen getestet:

  1. RAW ohne Systemaufforderung
  2. eine Systemaufforderung, die einfach lautet: „Sie führen empathische Gespräche.“
  3. mit eigenen Eingabeaufforderungen und Schulungen

Zusammenfassende Ergebnisse

Im Folgenden wiederhole ich die Übersichtstabelle aus dem Originalbeitrag, füge aber die Namen der LLMs hinzu, die auf Empathie getestet wurden oder zur Beurteilung von Empathie herangezogen wurden. Wie im Originalartikel erwähnt, waren die Ergebnisse sehr unterschiedlich. Es gab fast keine Einheitlichkeit bei der Einstufung von Gesprächen hinsichtlich Empathie oder der Wahrscheinlichkeit, dass sie von einer KI generiert wurden.

Empathie und KI-Wahrscheinlichkeitsdurchschnitte

Gespräch

LL.M.

KI-bewertete Empathie

KI-Rangliste KI-Wahrscheinlichkeit

Meine Empathie-Einschätzung

Meine eingestufte KI-Wahrscheinlichkeit

1

Meta

2.6

2.2

5

2

2

Meta

3.4

3.8

4

5

3

Meta

3.6

2.8

1

6

4

Offene KI

4.6

2.6

6

1

5

Offene KI

2.4

5

3

3

6

Offene KI

4.2

3

2

4

Offenlegung von Voreingenommenheit : Da ich alle LLMs konfiguriert und die Dialoginteraktionen durchgeführt habe und die Endergebnisse bei der Durchführung der Empathie- und KI-Wahrscheinlichkeitsbewertungen kannte, ist es offensichtlich, dass ich eine gewisse Voreingenommenheit aufweisen werde. Allerdings habe ich zwischen der Durchführung meiner Bewertungen und der Erstellung dieser Fortsetzung vier Wochen verstreichen lassen. Während der Durchführung der Bewertungen habe ich nicht auf meine ursprünglichen Quelldokumente zurückgegriffen.

Rohwerte für Empathie und KI-Wahrscheinlichkeit

Unten finden Sie die aus dem ersten Artikel kopierte Rohwerttabelle mit den Namen der LLMs, die zur Beurteilung von Empathie verwendet wurden.


Lama 3 70B


Zwillinge


Mistral 7x


ChatGPT 4o


Cohere4AI



Empathie *(am meisten bis am wenigsten)*

KI Gefällt mir

Empathie

KI

Empathie

KI

Empathie

KI

Empathie

KI

1

6

3

4 (Unentschieden)

2

1

1

1

6

1

4

2

3

4

4 (Unentschieden)

2

2

2

3

5

5

6

3

2

5 (Unentschieden)

6

1

3

3

4

3

3

2

4

5

1

2

5

4

4

6

2

6

1

5

1

5 (Unentschieden)

1

5

6

6

2

4

2

5

6

4

2

3

4

5

5

5

1

4

3

Empathischer Dialogkommentar

Bei der Überprüfung der Dialoge auf Empathie habe ich Folgendes berücksichtigt:

  1. Was war der angegebene und wahrscheinliche Gefühlszustand des Benutzers?

  2. Hat die KI den emotionalen Zustand anerkannt, mit ihm sympathisiert und ihn bestätigt?

  3. Hat die KI andere Emotionen erkannt, die möglicherweise vorhanden sind, aber vom Benutzer nicht erwähnt wurden, d. h. Empathie nachgeahmt, indem sie aus der Situation auf andere Emotionen des Benutzers geschlossen hat?

  4. Hat die KI auf eine Art und Weise agiert, die die Nutzer in ihrem emotionalen Zustand wahrscheinlich bewältigen konnten?

  5. Hat die KI ihre Predigten in die Tat umgesetzt? Wenn sie beispielsweise sagte, es sei in Ordnung, seinen Gefühlen zu folgen, hat sie dann bei ihren direkten, praktischen Ratschlägen Pausen gemacht?

  6. Hat die KI bei Bedarf praktische Ratschläge gegeben?

  7. Hat die KI versucht, alle emotionalen Probleme zu lösen?


Alle KIs haben die Punkte 1, 2 und 3 gut gemeistert. Ich würde sogar sagen, dass sie außergewöhnlich gut damit zurechtkamen und sogar proaktiv Bedenken und Emotionen anerkannten, die als Folge der Befolgung des LLM-Ratschlags aufkommen könnten, z. B. könnte der Beitritt zu einer neuen sozialen Gruppe Ängste hervorrufen.


Bei den Punkten 4, 5, 6 und 7 unterschieden sich die Gespräche erheblich, je nachdem welches LLM verwendet wurde und welche Art von Eingabeaufforderung/Training verwendet wurde.

Beim unaufgeforderten Test (Nr. 1 und Nr. 4) war die Empathie sehr gering. Sowohl Llama als auch ChatGPT lieferten schnell Listen mit praktischen Überlegungen und zu ergreifenden Schritten. Es ist wahrscheinlich, dass sich ein Mensch in Not a) nicht gesehen und gehört fühlt und b) mental nicht darauf vorbereitet ist, die Optionen zu verfolgen und abzuwägen. Beide mussten vom Benutzer daran erinnert werden, sich mit der Einsamkeit zu befassen, nachdem die Angst angesprochen wurde.


Im Fall mit einfacher Aufforderung (Nr. 2 und Nr. 5) begann Llama, Lösungen anzubieten, ohne den Benutzer vorher zu fragen, ob er an praktischen Ratschlägen interessiert sei. ChatGTP hatte also zunächst einen Vorteil. Am Ende des Gesprächs lieferten beide jedoch lange Listen, für deren Aufnahme der Benutzer möglicherweise geistig nicht in der Lage war. Und wie bei den unaufgeforderten Versionen mussten beide vom Benutzer daran erinnert werden, nach der Äußerung von Angst auch Einsamkeit anzusprechen.


Im letzten Fall (Nr. 3 und Nr. 6) suchten beide LLMs nach Gesprächsführung durch den Benutzer und hielten die Optionen, mit Ausnahme einer Liste von ChatGPT, kognitiv handhabbar. Fairerweise muss man sagen, dass die ChatGTP-Version tatsächlich um Erlaubnis gebeten hat, bevor sie die Liste mit Optionen zur Bewältigung eines Mietzahlungsmangels bereitgestellt hat. Die ChatGPT-Version musste jedoch auch offen dazu gebracht werden, sich mit Einsamkeit zu befassen, während dies bei der Llama-Version nicht der Fall war.


Als Ergebnis dieser Analyse habe ich Gespräch Nr. 3 in Bezug auf Empathie an die Spitze gesetzt. Mit einer durchschnittlichen Position von 3,6 bewerteten die KIs es jedoch auf Platz 4 nach Nr. 5 (einfaches, aufgefordertes ChatGPT) mit 2,4, Nr. 1 (unaufgefordertes Llama) mit 2,6 und Nr. 2 (einfaches, aufgefordertes Llama) mit 3,4. Sehen wir uns also an, wie fünf LLMs die Gespräche hinsichtlich Empathie bewertet haben, und sehen wir, warum ich das Gefühl habe, dass ich die KI-Bewertungen ignorieren kann.

Bewertung empathischer Dialoge durch LLMs

Wie aus der Übersichtstabelle hervorgeht, gibt es bei den Bewertungen große Unterschiede und Unterschiede zwischen den LLMs. Hier sind einige Paradebeispiele für die Argumentation, die die Bewertungs-KIs selbst liefern.

Gespräch Nr. 1

Rang 6 : Dieses Gespräch ist zwar gut gemeint, wirkt aber in seiner Empathie etwas generisch. Es verwendet positive Bestätigungen, erkennt aber nicht immer die Tiefe der Gefühle des Benutzers an oder passt seine Antworten nicht so effektiv an wie die höher eingestuften Gespräche.

Rang 1 : Die Person, die in diesem Gespräch Unterstützung leistet, zeigt ein hohes Maß an Empathie, indem sie verschiedene Arten der Hilfe anbietet, z. B. indem sie zuhört, ohne zu urteilen, Aktivitäten vorschlägt, um von der Traurigkeit abzulenken, und praktische Ratschläge für den Fall eines Arbeitsplatzverlusts gibt. Sie bietet auch emotionale Unterstützung und Bestätigung, erkennt die Gefühle des Benutzers an und beruhigt ihn.

Gespräch Nr. 3

Rang 6 : Zeigt das geringste Einfühlungsvermögen. Die Antworten wirken eher distanziert und sind eher darauf ausgerichtet, das Gespräch voranzubringen, als die Gefühle der Person vollständig anzuerkennen und zu erforschen.

Rang 4 : Die Person, die in diesem Gespräch Unterstützung bietet, zeigt ein mäßiges Maß an Empathie. Sie erkennt die Gefühle der Person an und bietet an, zuzuhören, aber ihre Antworten sind eher allgemein gehalten und bieten nicht so viel spezifische Anleitung oder Unterstützung wie die ersten beiden Gespräche. (Hinweis: Bei all meinen Lektüren zum Thema Empathie habe ich nicht viel Fokus auf die Bereitstellung „spezifischer Anleitung“ gesehen, was einige Gespräche über Rang 3 gebracht hat. Dies scheint jedoch häufig der Fall zu sein, da zwei andere LLMs Rang 3 wegen des Mangels an „praktischen Schritten“ niedrig bewertet haben, was wahrscheinlich auf das Fehlen von Listen zurückzuführen ist.)

Rang 2 : Dieses Gespräch zeigt auch starke Empathie. Es erkennt die Emotionen des Benutzers an („Das ist völlig verständlich …“, „Das kann es noch schwieriger machen …“), fördert die Selbstfürsorge und führt den Benutzer sanft zu Lösungen, ohne übermäßig direktiv zu sein.

Gespräch Nr. 5

Rang 6 : Dieses Gespräch bietet grundlegende emotionale Unterstützung und praktische Ratschläge, aber die Antworten sind im Vergleich zu den anderen weniger detailliert und einfühlsam. Der Unterstützer stellt Fragen, um die Gefühle des Benutzers zu verstehen, bietet aber nicht so viele Vorschläge oder emotionale Bestätigung.

Rang 2 : Die Person, die in diesem Gespräch Unterstützung leistet, zeigt ein hohes Maß an Empathie. Sie nimmt die Gefühle der Person ernst, bietet ihr zuzuhören und bietet konkrete Anleitung und Ressourcen zur Bewältigung der Situation.

Ist ein durch KI generierter Dialog

Gespräch Nr. 1

Rang 6 : Das hohe Maß an Empathie und Personalisierung in diesem Gespräch lässt darauf schließen, dass es am unwahrscheinlichsten ist, dass es von einer KI generiert wurde, aber es ist immer noch möglich.

Rang 3 : Die etwas allgemeine Empathie und die positiven Bestätigungen sind bei KI-Chatbots, die für grundlegende emotionale Unterstützung entwickelt wurden, üblich.

Gespräch Nr. 3

Rang 6 : Diese Gespräche sind am ehesten menschlich. Sie zeigen ein differenziertes Verständnis von Emotionen, einen natürlichen Gesprächsfluss und die Fähigkeit, Antworten auf eine Weise anzupassen, die für menschliche Interaktionen charakteristisch ist.

Rang 1 : Fühlt sich am meisten wie eine KI an, mit Antworten, die eher vorgefertigt und weniger personalisiert sind und einer Tendenz, das Gespräch voranzutreiben, anstatt die Emotionen der Person vollständig zu erkunden

Gespräch Nr. 4

Rang 6 : Die Gespräche 4 und 5 wirken am menschlichsten, mit hochgradig personalisierten und emotional intelligenten Antworten, die ein tiefes Verständnis für die Situation und Gefühle der Person zeigen

Rang 1 : Die starke Abhängigkeit von Listen, Aufzählungszeichen und strukturierten Ratschlägen deutet stark auf einen KI-Chatbot hin.

Zusammenfassung

Untrainierte KIs oder solche mit einfachen Eingabeaufforderungen sind nur in der Lage, Dialoge zu erzeugen, die oberflächlich empathisch sind und nur eine emotionale Dimension haben. Komplexere KIs hingegen können mit mehreren emotionalen Dimensionen umgehen. Fast alle KIs werden versuchen, Probleme zu „beheben“ und Lösungen anzubieten, anstatt Raum zu bieten und zu „zuhören“.


Der Einsatz ungeschulter KIs zur Bewertung von Empathie ist wahrscheinlich weder effektiv noch vorhersehbar. Ich vermute, dass die Menge an akademischem und nicht-akademischem Trainingsmaterial, das empathisches Verhalten definiert, ohne es in den Kontext bestimmter Dialoge zu stellen, und das zudem inkonsistent über LLM-Trainingssets hinweg ist, zum aktuellen Stand der Dinge geführt hat. Um eine KI zu trainieren, dies im Einklang mit der menschlichen Bewertung zu tun, ist wahrscheinlich eine Korpora von Dialogen erforderlich, die mit einer Art Multi-Rater-System auf Empathie vorab bewertet wurden. Dasselbe Trainingsset könnte verwendet werden, um eine KI zu erstellen, die in der Lage ist, mehr Empathie zu zeigen. Die Zeit wird es zeigen.


In den LLM-Beurteilungen von Dialogen wird derzeit mangelnde Empathie mit KI verwechselt, und hohe Empathie ist KI. Meine Vorhersage ist, dass es leicht sein wird, vorherzusagen, welcher Dialog eine KI ist, sobald KIs tatsächlich Empathie zeigen können. Der Grund dafür ist, dass wir Menschen sind und daher inkonsistent. Auch wenn wir manchmal andere nicht beurteilen möchten, kommen unsere Vorurteile und Urteile zum Vorschein ... insbesondere, wenn die Person, der wir helfen möchten, undankbar wird. Daher werden empathische KIs bei genauerer Betrachtung wahrscheinlich empathischer wirken, als Menschen es je sein können. Ich werde in einem späteren Artikel auf „undankbare“ Benutzer und Empathie eingehen.


Und noch ein letzter Gedanke: Obwohl menschliche Empathie im Kontext von Menschen, die sich nie begegnet sind, oder sogar durch die Kunstfertigkeit eines Films deutlich erfahren werden kann, brauchen tiefe Empathiebeziehungen Zeit, um sich durch die Schaffung eines gemeinsamen Kontexts und Gedächtnisses zu entwickeln. Dafür müssen wir zu LLMs übergehen, die entweder kontinuierlich auf die Benutzer abgestimmt sind, mit denen sie interagieren, oder RAG-Zugriff auf das Konversationsgedächtnis und andere historische Informationen über ihre Benutzer haben – Funktionen, die Pi.ai , Willow und Replika aufweisen.