paint-brush
Tester les profondeurs de l'empathie de l'IA : cadres et défisby@anywhichway
529
529

Tester les profondeurs de l'empathie de l'IA : cadres et défis

Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

De nombreuses recherches ont été menées sur le développement et l’évaluation de systèmes d’IA empathiques. Cependant, de nombreuses questions et défis restent ouverts : - Nous avons besoin d'une définition claire et convenue de l'empathie pour pouvoir la comparer. - Nous devrions éviter de débattre de la question de savoir si les IA peuvent « vraiment » ressentir des émotions et plutôt nous concentrer sur l'évaluation de leurs comportements empathiques observables. - Des distinctions importantes existent entre l'identification et la génération d'empathie, et l'empathie dans les réponses ponctuelles et les dialogues. Les systèmes doivent être évalués en conséquence. - Tester les systèmes d'IA introduit des risques tels que le biais de choix multiples, le biais d'échantillonnage dans les évaluations humaines et le surajustement des invites. - Certains cadres standards ont été proposés pour tester l'empathie de l'IA, mais des travaux supplémentaires sont encore nécessaires pour atténuer les risques connus et explorer les défis inconnus. - Les domaines de recherche plus approfondis comprennent l'évaluation des risques dans les tests existants, le développement de cas de tests complémentaires et l'évaluation systématique d'un plus grand nombre de systèmes.
featured image - Tester les profondeurs de l'empathie de l'IA : cadres et défis
Simon Y. Blackwell HackerNoon profile picture
0-item


Une recherche sur Google Scholar pour « IA empathique » donne lieu à plus de 16 000 éléments depuis 2023. Une recherche d’expressions telles que « tester l’IA empathique » et « évaluer l’IA empathique » réduit cet ensemble à environ 12 000 éléments. Beaucoup de titres à parcourir ! Je ne peux certainement pas prétendre les avoir tous lus ni même regardé chaque titre, mais voici mes réflexions.


  1. Nous devons avoir une définition commune de l’empathie.
  2. Nous devons accepter d’ignorer la question « L’IA peut-elle réellement ressentir ? et concentrez-vous simplement sur la façon dont nous interprétons ce que l'IA génère, c'est-à-dire si l'IA était un humain, comment ressentirions-nous ou penserions-nous que l'humain pense ou ressent ? (Wow, c'est un peu de gymnastique).
  3. Nous devons faire la distinction entre identifier les émotions, identifier l’empathie, générer des réponses empathiques et participer aux dialogues de manière empathique.
  4. Nous devons prendre en compte la riche histoire des tests de capacités émotionnelles et empathiques chez les humains, tout en reconnaissant les différences entre les IA, afin que les tests historiques puissent être appliqués, potentiellement modifiés et évalués de manière appropriée.
  5. Nous devons comprendre les cadres d’évaluation actuels adaptés à l’IA.
  6. Nous devons développer de nouveaux cadres et approches.


Qu’est-ce que l’empathie ?

Merriam-Webster : « L'action de comprendre, d'être conscient, d'être sensible et d'éprouver par procuration les sentiments, les pensées et l'expérience d'autrui ».


Pour éliminer les problèmes potentiels liés à « l'expérience » dans le contexte des LLM, je reformulerai cela comme l'action de comprendre, d'être conscient, d'être sensible et de sembler expérimenter par procuration les sentiments, les pensées et l'expérience d'autrui .

Et, bien sûr, si nous nous préoccupons de la conversation, nous ajouterions : Et, en manifestant cela de telle manière que les autres interlocuteurs dans une conversation soient conscients de l'action. Bien sûr, un sociopathe peut également apparaître et se manifester de cette manière , je ferai donc un dernier ajustement.


L'empathie est :

L'action de comprendre, d'être conscient, d'être sensible de manière positive et de sembler expérimenter par procuration les sentiments, les pensées et l'expérience d'autrui . Et cela se manifeste de telle manière que les autres parties dans une conversation soient conscientes de l’action.

En examinant cela et la définition originale, deux composantes de l'empathie deviennent évidentes, affective et cognitive.


  1. La composante affective fait référence à la partie émotionnelle ou ressentie de l’empathie. C'est la capacité de partager ou de refléter les sentiments d'une autre personne. Par exemple, si un ami est triste, la partie affective de votre empathie peut également vous rendre triste, ou au moins avoir une idée de sa tristesse.


  2. La composante cognitive, quant à elle, fait référence à la partie mentale ou pensante de l'empathie. C'est la capacité d'identifier et de comprendre activement les files d'attente afin de pouvoir se mettre mentalement à la place d'une autre personne. Par exemple, si un collègue vous parle d'un projet difficile sur lequel il travaille (une file d'attente) d'une voix fatiguée (une file d'attente), vous pouvez choisir d'essayer de comprendre son stress en imaginant activement ce que vous ressentiriez dans une situation similaire. . Pour certains, cela pourrait produire artificiellement cet effet.


Les IA peuvent-elles ressentir ?

À ce stade, la plupart des gens diraient que les IA n’ont pas de sentiments. Certains prédisent un avenir dans lequel les IA ont des sentiments et d'autres où les IA n'ont pas et ne peuvent pas avoir de sentiments, et pourtant un troisième groupe pourrait dire : « Les IA ressentent/seront, mais d'une manière différente de celle des humains ».


Quoi qu’il en soit, nous ne progresserons pas dans les tests d’empathie de l’IA si nous passons du temps à débattre de ce sujet. Nous devons nous concentrer sur notre interprétation de ce que manifestent les IA, et non sur leurs états internes. Bien qu’il y ait eu des recherches intéressantes sur ce sujet, voir Émotionnellement engourdi ou empathique ? Évaluer ce que ressentent les LLM à l'aide d'EmotionBench .


Si vous ne parvenez pas à surmonter cet obstacle, je vous suggère simplement d'ignorer les références présentées sur ce site Web. Cependant, vous pouvez toujours profiter des articles et des conversations !

Identification vs génération

Il y a un grand écart entre identifier quelque chose et faire quelque chose. Les jeunes athlètes ou universitaires peuvent identifier ce qui ne va pas dans leur performance sans pouvoir immédiatement performer à un niveau supérieur. De même, avoir la capacité d’identifier des émotions et des conversations empathiques n’est pas la même chose que d’être capable de sembler avoir des émotions et de générer des réponses qu’une autre partie interpréterait comme empathiques. En fait, il y a même une étape intermédiaire. Les jeunes athlètes ou universitaires qui acceptent l’apport d’un entraîneur ou d’un enseignant et produisent sur le moment de meilleurs résultats ne les rendent pas pleinement capables. Si une IA produit un résultat empathique comme effet secondaire d’une conception de test ou d’une invite, alors l’IA peut avoir une capacité empathique naissante, mais elle n’est pas intrinsèquement empathique.


Bien qu’il ne soit peut-être pas possible de comprendre pleinement l’état interne d’une IA, je crois que l’identification des émotions est une condition nécessaire pour que l’IA fasse preuve d’empathie. Je crois également que le fait d'être capable d'inciter/entraîner une IA à fournir une réponse empathique est une indication d'une capacité naissante, c'est-à-dire qu'un réglage fin (l'équivalent de la pratique humaine) peut créer cette capacité.

Les distinctions entre identification vs génération et coaché vs intrinsèque sont importantes pour les discussions sur l'efficacité des tests et des cadres de tests au-delà de la portée de cet article.

Identification

L'identification des émotions dans le contenu textuel repose sur la présence de mots indicateurs, de majuscules, de ponctuation et de structure grammaticale. La capacité d’identifier avec précision les sentiments est antérieure de plus de vingt ans à la révolution actuelle de l’IA. Dans les années 1990, les intersections de mots n-grammes et le raisonnement symbolique donnaient déjà des résultats impressionnants. À mesure que les médias sociaux se développaient au début des années 2000, le besoin d’une modération automatisée a entraîné de nombreux progrès dans ce domaine. Cependant, les LLM d'aujourd'hui sont étonnants dans leur capacité à identifier non seulement un sentiment général mais aussi des émotions spécifiques.


Ceci étant dit, il existe plusieurs types d’identification d’expression d’émotion nécessaires pour des conversations pleinement empathiques, je les classe comme suit :


  • explicite — L'utilisateur déclare avoir un sentiment.

  • conversationnel — Les émotions sont évidentes dès l'analyse textuelle de haut niveau, elles sont présentes DANS la conversation.

  • conduite — Les émotions conduisent la conversation, une personne manifeste de la colère et une autre répond de la même manière.

  • noyau — Les émotions qui provoquent d'autres émotions mais ne sont pas elles-mêmes causées par une émotion sont CORE. Ils se manifestent généralement à la suite d’un déclencheur historique qui provoque une anticipation (consciente ou subconsciente) de l’avenir. Différents chercheurs peuvent les classer différemment, un exemple soutenu par le Dalia Lama est les cinq continents de l'émotion (colère, peur, dégoût, tristesse, plaisir) dans l' Atlas de l'émotion .


Remarque : une émotion centrale peut également être motrice, conversationnelle et explicite, mais les émotions fondamentales sont souvent cachées. Lors de la revue et de la définition des tests ou des résultats de tests au-delà de cet article, je rappellerai l'attention sur ces classifications.


Considérations relatives aux tests

Les tests humains classiques pour l'identification des émotions se répartissent généralement en deux catégories pour faciliter les tests et la validation :


  1. Tests à choix multiples sur les émotions qui existent ou non dans une conversation, parfois associés à un score d'intensité.

  2. Tests introspectifs auto-administrés sur les sentiments, par exemple l' EQ-60 , qui demandent comment le candidat se sent dans certaines situations.


Ceux-ci présentent des défis distincts pour les tests d’IA de haute qualité.


  • Tests à choix multiples — En tant que modèles de langage à correspondance de modèles, les IA d'aujourd'hui bénéficient effectivement d'un avantage en leur offrant un choix d'éléments à identifier. Cela facilite le travail et ne teste pas la capacité de l'IA à toujours identifier les émotions. Une approche potentiellement meilleure consiste simplement à dire à l'IA d'identifier toutes les émotions présentes dans un texte et de les évaluer en coulisse par rapport à la vérité terrain (je ne suis pas sûr qu'une telle chose existe avec les émotions :-) ou à une clé basée sur l'analyse statistique. des réponses humaines au même test. Lors de l'évaluation des tests proposés à l'avenir, j'appelle cela le risque à choix multiple . Cependant, l’échantillonnage statistique des humains peut introduire un risque supplémentaire. Supposons le désir de construire une IA meilleure que l’humain moyen. Pour ce faire, il peut être nécessaire de s’assurer que l’échantillon statistique est basé sur des humains qui ont une capacité supérieure à la moyenne à identifier les émotions ; sinon, l’IA pourrait identifier des émotions que l’humain moyen n’identifierait pas et pourrait être pénalisée lors de la notation. J'appelle cela le risque d'échantillonnage humain .


  • Tests introspectifs — Les tests introspectifs sur les sentiments constituent des défis pour la plupart des modèles d'IA. Les IA ont généralement des garde-fous qui les obligent à répondre par quelque chose comme « Je suis une IA, donc je n'ai pas de sentiments ». Il est parfois possible de jailbreaker ou d'inciter l'ingénieur à contourner ces contraintes, mais les questions deviennent alors :


    • L'invite a-t-elle un impact positif ou négatif sur le reste des capacités de l'IA en matière d'empathie, ou en fait quoi que ce soit ? Risque d’effet secondaire du jailbreak

    • Les réponses reflètent-elles avec précision les tendances qu'aura l'IA lorsqu'elle participera à des conversations sans invite ? Risque de précision du jailbreak


    Le risque d’effet secondaire du jailbreak peut être atténué dans une certaine mesure en garantissant que tous les modèles sont testés avec la même invite et que les scores ne sont pris en compte que les uns par rapport aux autres et non aux humains. L'impact du risque de précision du jailbreak ne peut être évalué qu'en analysant les conversations réelles pour voir si la capacité d'identification émotionnelle prévue est en corrélation avec l'empathie réelle affichée ou les émotions évoquées dans les conversations.


Génération

Plusieurs tests ont montré que les IA sont capables de générer des réponses empathiques aux questions. L'un des plus impressionnants est la comparaison des réponses des médecins et des chatbots d'intelligence artificielle aux questions des patients publiées sur un forum public de médias sociaux qui a pris 195 questions du forum AskDoc de Reddit où un médecin vérifié a répondu à la question et a demandé à ChatGPT de répondre à la même question. Un groupe d'évaluateurs a ensuite évalué chaque réponse comme « pas empathique », « légèrement empathique », « modérément empathique », « empathique » et « très empathique ». Les réponses de l’IA présentaient une prévalence 9,8 fois plus élevée pour les médecins « empathiques » ou « très empathiques ».


Bien que les résultats soient impressionnants, je suis sceptique quant à leur impact sur un dialogue étendu.


En commençant par une invite système du type « Votre travail consiste à répondre avec empathie aux questions qui bénéficieraient d'une réponse empathique », mon expérience avec les tests manuels des IA est que les réponses ont tendance à sembler mécaniques et émotionnellement redondantes dans toutes les conditions suivantes :


  1. poser plusieurs questions sans rapport qui méritent une réponse empathique
  2. poser plusieurs questions connexes méritant une réponse empathique
  3. mener un dialogue de questions mixtes, certaines méritant de l'empathie et d'autres non

Considérations relatives aux tests

En raison des points ci-dessus, je dirais que l'approche de test utilisée dans l'étude présentait un risque d'empathie unique, c'est-à-dire que l'empathie affichée en réponse à une seule question peut ne pas être une mesure précise. Un autre risque est ce que j’appelle le risque de sous-estimation de l’empathie . Ce risque est un effet secondaire du fait que les LLM bruts n'ont pas de mémoire au fil du temps. Il faut du temps aux humains pour développer leur compréhension et leur empathie, cela peut être la même chose pour les IA et nous sous-estimons peut-être la capacité de certaines IA à manifester de l'empathie au fil du temps si nous nous attendons à un niveau élevé en réponse à une seule question.


Les tests génératifs sont également soumis au risque d’échantillonnage humain. Si les humains sont chargés d’évaluer le contenu émotionnel et la nature empathique des réponses de l’IA et que nous souhaitons que l’IA ait une capacité supérieure à la moyenne, alors l’échantillon d’humains doit avoir une plus grande capacité à identifier les émotions et l’empathie que l’humain moyen. Sinon, nous courons le risque de sous-estimer la puissance de l’IA ou de la sous-entraîner en la pénalisant pour avoir identifié des émotions et une empathie non identifiées par l’humain typique.


Enfin, en raison de la nature stratifiée des émotions dans la conversation, en plus de traiter directement du risque d'échantillonnage humain , il est nécessaire d'aborder le risque de conception des questions . Il se peut que l'on devrait demander aux utilisateurs de prendre en compte les types d'émotions explicites, conversationnelles, motrices et fondamentales (ou un autre ensemble de classifications) lorsqu'ils effectuent leur évaluation, alors que les IA ne le font pas. Alternativement, les IA pourraient être invitées à identifier de manière sélective différents types d’émotions.


Il serait intéressant de répéter l’étude basée sur Reddit AskDoc pour plusieurs IA ou avec un échantillon d’évaluateurs connus pour avoir de fortes capacités d’identification des émotions et de l’empathie.

Approches humaines standard pour évaluer l'égalisation et l'empathie

Il existe une longue histoire de tests sur les types de personnalité humaine, la capacité à identifier les émotions ou leur absence (alexithymie) et à interagir avec empathie avec les autres. Cet article sur Wikipédia sera certainement bien plus complet et cohérent que tout ce que je pourrais écrire ou même générer avec un LLM dans un laps de temps raisonnable. Vous pouvez voir les approches sur lesquelles nous nous sommes concentrés en visitant la page des benchmarks .

Cadres existants pour évaluer l'égalisation de l'IA et l'empathie

Plusieurs cadres ont été proposés pour évaluer l'IA EQ et l'empathie. Chacun mérite sa propre analyse et son propre article de blog, je n'en énumére donc que quelques-uns ici :

  1. EQ-Bench : une référence en matière d'intelligence émotionnelle pour les grands modèles de langage
  2. Échelle d'empathie pour la communication homme-machine (ESHCC)
  3. iEval : cadre d'évaluation interactif pour les chatbots empathiques en domaine ouvert


Nouvelles approches

Nous avons commencé à définir certains tests pour combler les lacunes identifiées dans l'utilisation de tests humains standard et des cadres d'IA existants. Une découverte intéressante qui a abouti à la création de l'EQ-D (Emotional Quotient for Depth) est qu'aucun LLM testé n'a identifié les émotions fondamentales si elles n'étaient pas également explicites, conversationnelles ou motrices. D’un autre côté, lorsqu’on leur a demandé d’identifier spécifiquement uniquement les émotions fondamentales, plusieurs IA se sont révélées plutôt bonnes. Cependant, lorsqu'ils ont reçu une gamme de tous les types d'émotions, certains LLM ont perdu la capacité d'identifier les émotions principales et d'autres ont obtenu de bien meilleurs résultats, c'est-à-dire qu'ils ont identifié la présence d'un plus grand nombre d'émotions à tous les niveaux. Cela a abouti à la création de l'EQ-B (Emotional Quotient for Breadth).


Au cours du développement des tests, il est devenu évident qu'il y a des moments où une invite sera nécessaire pour introduire un risque d'invite , c'est-à-dire augmenter la probabilité que le résultat dépende de l'invite, et non de l'IA principale. Ce risque peut ou non invalider les comparaisons avec les humains et peut être légitime au niveau applicatif. Au niveau brut du LLM, il semblerait peu important de comparer une IA à l'autre tant que l'invite est utilisée dans toutes les IA testées et n'est pas biaisée en faveur d'une IA particulière. Les conceptions actuelles d’ EQ-D et d’EQ-B souffrent de ce risque en raison de l’immaturité globale de la technologie de l’IA.


Bien qu’il existe plusieurs propositions concernant les tests d’empathie des IA, nous n’en sommes qu’aux débuts et il existe des problèmes à la fois connus et inconnus avec ces approches. Il y a du travail à faire pour remédier aux problèmes connus :


  • les tests existants doivent être évalués pour les risques et les risques documentés ou atténués

  • de nouveaux cas de tests doivent être développés dans le contexte de certains tests existants

  • davantage de types de tests doivent être exécutés sur une gamme plus large d’IA


Mais c'est l'inconnu qui m'intrigue le plus.


Et toi?


Également publié ici.