Eine Suche in Google Scholar nach „   “ ergibt über 16.000 Einträge seit 2023. Eine Suche nach Begriffen wie „testing empathetic ai“ und „evaluating empathetic ai“ reduziert diese Menge auf etwa 12.000 Einträge. Viele Titel zum Durchgehen! Ich kann sicherlich nicht behaupten, sie alle gelesen oder auch nur jeden Titel angeschaut zu haben, aber hier sind meine Gedanken. empathetic ai  Wir müssen eine gemeinsame Definition von Empathie haben.  Wir müssen uns darauf einigen, die Frage „Kann KI tatsächlich fühlen?“ zu ignorieren. Konzentrieren Sie sich einfach darauf, wie wir interpretieren, was die KI erzeugt. Wenn die KI also ein Mensch wäre, wie würden wir dann fühlen oder denken, dass der Mensch denkt oder fühlt? (Wow, das ist ein bisschen Gymnastik).  Wir müssen unterscheiden zwischen dem Erkennen von Emotionen, dem Erkennen von Empathie, dem Generieren einfühlsamer Reaktionen und der einfühlsamen Teilnahme an Dialogen.  Wir müssen die reiche Geschichte der Tests emotionaler und empathischer Fähigkeiten bei Menschen berücksichtigen und gleichzeitig erkennen, wie unterschiedlich KIs sind, damit historische Tests angemessen angewendet, möglicherweise modifiziert und bewertet werden können.  Wir müssen aktuelle Bewertungsrahmen verstehen, die auf KI abgestimmt sind.  Wir müssen neue Rahmenbedingungen und Ansätze entwickeln.  Was ist Empathie?  Merriam-Webster:   .“ „Die Handlung, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein, sensibel dafür zu sein und sie stellvertretend zu erleben  Um die potenziellen Bedenken hinsichtlich des „Erlebens“ im Kontext von LLMs auszuräumen, werde ich dies umformulieren als   . die Handlung, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein, sensibel dafür zu sein und den Eindruck   , sie stellvertretend zu erleben zu erwecken  Und wenn es uns um ein Gespräch geht, würden wir natürlich hinzufügen:   Natürlich könnte auch ein Soziopath   und   , deshalb werde ich noch eine letzte Anpassung vornehmen. Und dies so manifestieren, dass die anderen Gesprächspartner sich der Handlung bewusst sind. so erscheinen sich so manifestieren   Empathie ist:    .  Der Vorgang, die Gefühle, Gedanken und Erfahrungen eines anderen zu verstehen, sich dessen bewusst zu sein,   darauf zu reagieren und scheinbar stellvertretend zu erleben positiv Und dies so zu manifestieren, dass die anderen Gesprächspartner sich der Aktion bewusst werden.  Betrachtet man dies und die ursprüngliche Definition, werden zwei Komponenten der Empathie deutlich: die affektive und die kognitive.  Die affektive Komponente bezieht sich auf den emotionalen oder gefühlsmäßigen Teil der Empathie. Es ist die Fähigkeit, die Gefühle einer anderen Person zu teilen oder zu spiegeln. Wenn zum Beispiel ein Freund traurig ist, könnte der affektive Teil Ihres Einfühlungsvermögens dazu führen, dass Sie sich ebenfalls traurig fühlen oder zumindest ein Gefühl für seine Traurigkeit bekommen.  Die kognitive Komponente hingegen bezieht sich auf den mentalen oder denkenden Teil der Empathie. Es ist die Fähigkeit, Warteschlangen aktiv zu erkennen und zu verstehen, sodass man sich gedanklich in die Lage einer anderen Person hineinversetzen kann. Wenn Ihnen beispielsweise ein Kollege mit müder Stimme (einer Warteschlange) von einem schwierigen Projekt erzählt, an dem er arbeitet (eine Warteschlange), könnten Sie versuchen, seinen Stress zu verstehen, indem Sie sich aktiv vorstellen, wie Sie sich in einer ähnlichen Situation fühlen würden . Bei manchen könnte dies den Effekt künstlich hervorrufen.  Können KIs fühlen?  An diesem Punkt würden die meisten Leute sagen, dass   keine Gefühle haben. Einige würden eine Zukunft vorhersagen, in der KIs tatsächlich Gefühle haben, andere würden eine Zukunft vorhersagen, in der KIs keine Gefühle haben und auch nicht haben können, und doch könnte eine dritte Gruppe sagen: „KIs fühlen/fühlen, aber auf eine andere Art und Weise als Menschen.“ KIs  Unabhängig davon werden wir beim Testen von KI auf Empathie keine Fortschritte machen, wenn wir uns mit der Diskussion dieses Themas beschäftigen. Wir müssen uns auf unsere Interpretation dessen konzentrieren, was die KIs manifestieren, und nicht auf ihre internen Zustände. Obwohl es zu diesem Thema einige interessante Untersuchungen gibt, siehe   . Emotional taub oder empathisch? Bewerten, wie sich LLMs mit EmotionBench fühlen  Wenn Sie diese Hürde nicht überwinden können, empfehle ich Ihnen, die Benchmarks auf dieser Website einfach zu ignorieren. Sie können jedoch trotzdem Freude an den Artikeln und Gesprächen haben!  Identifikation vs. Generation  Es gibt einen großen Unterschied zwischen dem Identifizieren von etwas und dem Handeln. Junge Sportler oder Akademiker können erkennen, was mit ihrer Leistung nicht stimmt, ohne sofort Leistung auf einem höheren Niveau erbringen zu können. Ebenso ist die Fähigkeit, Emotionen zu erkennen und einfühlsame Gespräche zu führen, nicht dasselbe wie die Fähigkeit, den Anschein zu erwecken, Emotionen zu haben und Reaktionen hervorzurufen, die eine andere Partei als einfühlsam interpretieren würde. Tatsächlich gibt es sogar einen Schritt dazwischen. Junge Sportler oder Wissenschaftler, die den Input eines Trainers oder Lehrers annehmen und im Moment bessere Ergebnisse erzielen, machen sie nicht voll leistungsfähig. Wenn eine KI als Nebeneffekt eines Testdesigns oder einer Eingabeaufforderung ein empathisches Ergebnis liefert, verfügt die KI möglicherweise über eine im Entstehen begriffene empathische Fähigkeit, die jedoch nicht intrinsisch empathisch ist.  Auch wenn es möglicherweise nicht möglich ist, den inneren Zustand einer KI vollständig zu verstehen, glaube ich doch, dass die Identifizierung von Emotionen eine notwendige Voraussetzung dafür ist, dass KI Empathie zeigt. Ich glaube auch, dass die Fähigkeit, eine KI dazu zu veranlassen/zu trainieren, eine einfühlsame Reaktion zu liefern, ein Hinweis auf eine im Entstehen begriffene Fähigkeit ist, dh Feinabstimmung (das Äquivalent menschlicher Übung) kann diese Fähigkeit hervorbringen.  Die Unterscheidung zwischen   vs.   und   vs.   ist wichtig für Diskussionen über die Wirksamkeit von Tests und Test-Frameworks, die über den Rahmen dieses Artikels hinausgehen. Identifikation Generierung gecoacht intrinsisch  Identifikation  Die Identifizierung von Emotionen in Textinhalten basiert auf dem Vorhandensein von Indikatorwörtern, der Groß- und Kleinschreibung, der Zeichensetzung und der grammatikalischen Struktur. Die Fähigkeit, Stimmungen genau zu identifizieren, liegt mehr als zwanzig Jahre vor der aktuellen KI-Revolution. In den 1990er Jahren lieferten Wort-N-Gramm-Schnittpunkte und symbolisches Denken bereits beeindruckende Ergebnisse. Als die sozialen Medien Anfang der 2000er Jahre wuchsen, führte der Bedarf an automatisierter Moderation zu großen Fortschritten in diesem Bereich. Heutige LLMs sind jedoch erstaunlich in ihrer Fähigkeit, nicht nur allgemeine Stimmungen, sondern auch spezifische Emotionen zu erkennen.  Davon abgesehen gibt es mehrere Arten der Identifizierung von Emotionsausdrücken, die für vollständig einfühlsame Gespräche erforderlich sind. Ich klassifiziere sie wie folgt:  explizit – Der Benutzer gibt an, dass er ein Gefühl hat.  Konversation – Die Emotionen sind aus der Textanalyse auf höchster Ebene ersichtlich, sie sind IN der Konversation vorhanden.  Fahren – Die Emotionen bestimmen das Gespräch, eine Person zeigt Wut und eine andere reagiert entsprechend.  Kern – Emotionen, die andere Emotionen hervorrufen, aber selbst nicht durch eine Emotion verursacht werden, sind CORE. Sie manifestieren sich typischerweise als Ergebnis eines historischen Auslösers, der eine (bewusste oder unbewusste) Vorfreude auf die Zukunft hervorruft. Verschiedene Forscher klassifizieren diese möglicherweise unterschiedlich. Ein vom Dalia Lama unterstütztes Beispiel sind die fünf Kontinente der Emotionen (Wut, Angst, Ekel, Traurigkeit, Vergnügen) im   . Atlas der Emotionen  Hinweis: Eine Kernemotion könnte auch treibend, gesprächig und explizit sein, aber Kernemotionen bleiben oft verborgen. Bei der Betrachtung und Definition von Tests bzw. Testergebnissen über diesen Artikel hinaus werde ich auf diese Klassifizierungen aufmerksam machen.  Überlegungen zum Testen  Klassische menschliche Tests zur Emotionserkennung lassen sich in der Regel in zwei Bereiche unterteilen, um einfache Tests und Validierungen zu ermöglichen:  Multiple-Choice-Tests darüber, welche Emotionen in einem Gespräch vorhanden sind und welche nicht, manchmal verbunden mit einem Intensitätswert.  Selbst durchgeführte introspektive Tests über Gefühle, z. B. der   , bei denen gefragt wird, wie sich der Testteilnehmer in bestimmten Situationen fühlt. EQ-60   Dies stellt besondere Herausforderungen für hochwertige KI-Tests dar.    – Als Mustervergleichs-Sprachmodelle erhalten die heutigen   effektiv einen Vorsprung, indem sie ihnen eine Auswahl an zu identifizierenden Elementen geben. Es erleichtert die Arbeit und stellt nicht die Fähigkeit der KI auf die Probe, Emotionen immer zu erkennen. Ein möglicherweise besserer Ansatz besteht darin, die KI einfach anzuweisen, alle in einem Text vorhandenen Emotionen zu identifizieren und sie hinter den Kulissen entweder anhand der Grundwahrheit (ich bin mir nicht sicher, ob es so etwas bei Emotionen gibt :-) oder anhand eines Schlüssels auf der Grundlage der statistischen Analyse zu bewerten menschlicher Reaktionen auf denselben Test. Bei der Bewertung vorgeschlagener Tests in der Zukunft nenne ich dies das   . Allerdings kann die statistische Stichprobe von Menschen ein zusätzliches Risiko mit sich bringen. Gehen Sie von dem Wunsch aus, eine KI aufzubauen, die besser ist als der durchschnittliche Mensch. Um dies zu erreichen, muss möglicherweise sichergestellt werden, dass die statistische Stichprobe auf Menschen basiert, die über eine überdurchschnittliche Fähigkeit verfügen, Emotionen zu identifizieren. Andernfalls kann die KI Emotionen identifizieren, die der durchschnittliche Mensch nicht identifizieren würde, und bei der Bewertung möglicherweise bestraft werden. Ich nenne das   . Multiple-Choice-Tests KIs Multiple-Choice-Risiko „Human Sampling Risk“    – Introspektive Tests über Gefühle stellen die meisten KI-Modelle vor Herausforderungen. KIs haben normalerweise Leitplanken, die von ihnen verlangen, dass sie mit etwas wie „Ich bin eine KI, also habe ich keine Gefühle“ reagieren. Manchmal ist es möglich, diese Einschränkungen zu jailbreaken oder den Ingenieur dazu aufzufordern, aber die Fragen lauten dann: Introspektive Tests  Wirkt sich die Aufforderung entweder positiv oder negativ auf die restlichen Fähigkeiten der KI in Bezug auf Empathie aus, oder überhaupt auf irgendetwas anderes?  Risiko von Jailbreak-Nebenwirkungen  Spiegeln die Antworten genau die Tendenzen der KI wider, wenn sie ohne Aufforderung an Gesprächen teilnimmt?  Risiko der J-Ailbreak-Genauigkeit  Das   kann bis zu einem gewissen Grad gemindert werden, indem sichergestellt wird, dass alle Modelle mit der gleichen Eingabeaufforderung getestet werden und die Ergebnisse nur relativ zueinander und nicht im Verhältnis zu Menschen betrachtet werden. Die Auswirkungen des J   können nur durch die Analyse tatsächlicher Gespräche beurteilt werden, um zu sehen, ob die vorhergesagte emotionale Identifikationsfähigkeit mit der tatsächlich gezeigten Empathie oder den in den Gesprächen zum Ausdruck gebrachten Emotionen korreliert. Risiko von Jailbreak-Nebenwirkungen ailbreak Accuracy Risk  Generation  Mehrere Tests haben gezeigt, dass KI in der Lage ist, einfühlsame Antworten auf Fragen zu generieren. Eine der beeindruckendsten ist   Dabei wurden 195 Fragen aus dem AskDoc-Forum von Reddit angenommen, in dem ein verifizierter Arzt auf die Frage antwortete und ChatGPT auf dieselbe Frage antworten ließ. Ein Pool von Bewertern bewertete dann jede Antwort als „nicht einfühlsam“, „leicht einfühlsam“, „mäßig einfühlsam“, „einfühlsam“ und sehr „einfühlsam“. Die KI-Antworten hatten eine 9,8-mal höhere Prävalenz für „empathisch“ oder „sehr einfühlsam“ gegenüber Ärzten. der Vergleich von Chatbot-Antworten von Ärzten und künstlicher Intelligenz auf Patientenfragen, die in einem öffentlichen Social-Media-Forum gepostet wurden.  Obwohl die Ergebnisse beeindruckend sind, bin ich skeptisch, ob sie sich auf einen erweiterten Dialog übertragen lassen.  Beginnend mit der Systemaufforderung „Ihre Aufgabe ist es, mit Einfühlungsvermögen auf Fragen zu antworten, die von einer einfühlsamen Antwort profitieren würden“, habe ich beim manuellen Testen von KIs die Erfahrung gemacht, dass sich Antworten unter allen folgenden Bedingungen tendenziell mechanisch und emotional überflüssig anfühlen:  Stellen Sie mehrere unabhängige Fragen, die eine einfühlsame Antwort verdienen  Stellen mehrerer zusammenhängender Fragen, die eine einfühlsame Antwort verdienen  Führen eines Dialogs mit gemischten Fragen, von denen einige Empathie verdienen und andere nicht  Überlegungen zum Testen  Aufgrund der oben genannten Punkte würde ich sagen, dass der in der Studie verwendete Testansatz ein   d. h. die als Antwort auf eine einzelne Frage gezeigte Empathie ist möglicherweise kein genaues Maß. Ein weiteres Risiko ist das, was ich   nenne. Dieses Risiko ist ein Nebeneffekt davon, dass unformatierte LLMs im Laufe der Zeit kein Gedächtnis haben. Es braucht Zeit, bis Menschen Verständnis und Empathie entwickeln. Bei KIs mag das Gleiche gelten, und wir unterschätzen möglicherweise die Fähigkeit einiger KIs, im Laufe der Zeit Empathie zu zeigen, wenn wir ein hohes Maß an Antwort auf eine einzelne Frage erwarten. Single-Shot-Empathierisiko aufwies, Empathie-Understatement-Risiko  Generative Tests unterliegen auch dem   Wenn Menschen die Aufgabe haben, den emotionalen Inhalt und die empathische Natur von KI-Reaktionen zu bewerten, und wir möchten, dass die KI über eine überdurchschnittliche Fähigkeit verfügt, dann muss die Stichprobe von Menschen eine größere Fähigkeit haben, Emotionen und Empathie zu identifizieren als der durchschnittliche Mensch. Wenn nicht, laufen wir Gefahr, die Leistungsfähigkeit der KI zu unterschätzen oder sie zu wenig zu trainieren, indem wir sie dafür bestrafen, dass sie Emotionen und Empathie erkennt, die der typische Mensch nicht erkennt. Risiko menschlicher Probenentnahme.  Schließlich besteht aufgrund der vielschichtigen Natur der Emotionen in Gesprächen neben der direkten Auseinandersetzung mit dem   auch die Notwendigkeit, sich   zu befassen. Es kann sein, dass Benutzer angewiesen werden sollten, bei ihrer Bewertung die Emotionstypen „Explizite“, „Konversation“, „Fahren“ und „Kern“ (oder einen anderen Satz von Klassifizierungen) zu berücksichtigen, während dies bei den KIs nicht der Fall ist. Alternativ könnten die KIs gezielt angewiesen werden, verschiedene Arten von Emotionen zu identifizieren. Human Sampling Risk mit dem Question Design Risk  Es wäre interessant, die auf Reddit AskDoc basierende Studie für mehrere KIs oder mit einer Stichprobe von Bewertern zu wiederholen, von denen bekannt ist, dass sie über ausgeprägte Fähigkeiten zur Identifizierung von Emotionen und Empathie verfügen.  Standardmäßige menschliche Ansätze zur Beurteilung von EQ und Empathie  Es gibt eine lange Geschichte der Prüfung menschlicher Persönlichkeitstypen, der Fähigkeit, Emotionen oder deren Fehlen (Alexithymie) zu erkennen und einfühlsam mit anderen umzugehen. Dieser   ist mit Sicherheit weitaus vollständiger und kohärenter als alles, was ich mit einem LLM in angemessener Zeit schreiben oder sogar erstellen könnte. Auf der   können Sie sehen, auf welche Ansätze wir uns konzentriert haben. Artikel auf Wikipedia Benchmark-Seite  Bestehende Frameworks zur Bewertung von KI-EQ und Empathie  Für die Bewertung von KI-EQ und Empathie wurden mehrere Rahmenwerke vorgeschlagen. Jeder verdient eine eigene Analyse und einen eigenen Blogbeitrag, daher liste ich hier nur einige auf:   EQ-Bench: Ein emotionaler Intelligenz-Benchmark für große Sprachmodelle   Empathieskala für Mensch-Computer-Kommunikation (ESHCC)   iEval: Interaktives Bewertungsframework für empathische Open-Domain-Chatbots  Neue Ansätze  Wir haben mit der Definition einiger Tests begonnen, um Mängel zu beheben, die bei der Verwendung standardmäßiger menschlicher Tests und bestehender KI-Frameworks festgestellt wurden. Ein interessantes Ergebnis, das zur Erstellung des   (Emotional Quotient for Depth) führte, ist, dass keine getesteten LLMs Kernemotionen identifizierten, wenn diese nicht auch explizit, gesprächig oder treibend waren. Auf der anderen Seite waren mehrere KIs recht gut, wenn es darum ging, gezielt nur Kernemotionen zu identifizieren. Wenn jedoch ein Spektrum aller Emotionstypen berücksichtigt wurde, verloren einige LLMs die Fähigkeit, Kernemotionen zu identifizieren, und andere schnitten wesentlich besser ab, dh sie identifizierten das Vorhandensein von mehr Emotionen auf allen Ebenen. Dies führte zur Schaffung von   (Emotionaler Quotient für Breite). EQ-D EQ-B  Während der Testentwicklung wurde deutlich, dass manchmal eine Eingabeaufforderung benötigt wird, die das   einführt, dh die Wahrscheinlichkeit erhöht, dass die Ausgabe von der Eingabeaufforderung und nicht von der Kern-KI abhängt. Dieses Risiko kann Vergleiche mit Menschen ungültig machen oder auch nicht und kann auf Anwendungsebene legitim sein. Auf der reinen LLM-Ebene scheint es unerheblich zu sein, eine KI mit der anderen zu vergleichen, solange die Eingabeaufforderung in allen getesteten KIs verwendet wird und nicht auf eine bestimmte KI ausgerichtet ist. Die aktuellen Designs für   und   unterliegen diesem Risiko aufgrund der allgemeinen Unreife der KI-Technologie. Prompt-Risiko EQ-D EQ-B  Obwohl es mehrere Vorschläge zum Testen von KIs auf Empathie gibt, befinden wir uns noch in den Anfängen und es gibt sowohl bekannte als auch unbekannte Probleme bei diesen Ansätzen. Es gibt noch viel zu tun, um die bekannten Probleme anzugehen:  Vorhandene Tests müssen auf Risiken hin bewertet und Risiken dokumentiert oder gemindert werden  Neue Testfälle müssen im Kontext einiger bestehender Tests entwickelt werden  Es müssen mehr Testtypen für ein breiteres Spektrum von KIs durchgeführt werden  Aber es ist das Unbekannte, das mich am meisten fasziniert.  Und du?  Auch  hier veröffentlicht.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Change What's Possible, Make Yesterday Jealous

Read My Stories

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Testen der Tiefen der KI-Empathie: Rahmenbedingungen und Herausforderungen

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Writing Community!

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Celebrating Our Writing Community!

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps