Une recherche sur Google Scholar pour «   » donne lieu à plus de 16 000 éléments depuis 2023. Une recherche d’expressions telles que « tester l’IA empathique » et « évaluer l’IA empathique » réduit cet ensemble à environ 12 000 éléments. Beaucoup de titres à parcourir ! Je ne peux certainement pas prétendre les avoir tous lus ni même regardé chaque titre, mais voici mes réflexions. IA empathique  Nous devons avoir une définition commune de l’empathie.  Nous devons accepter d’ignorer la question « L’IA peut-elle réellement ressentir ? et concentrez-vous simplement sur la façon dont nous interprétons ce que l'IA génère, c'est-à-dire si l'IA était un humain, comment ressentirions-nous ou penserions-nous que l'humain pense ou ressent ? (Wow, c'est un peu de gymnastique).  Nous devons faire la distinction entre identifier les émotions, identifier l’empathie, générer des réponses empathiques et participer aux dialogues de manière empathique.  Nous devons prendre en compte la riche histoire des tests de capacités émotionnelles et empathiques chez les humains, tout en reconnaissant les différences entre les IA, afin que les tests historiques puissent être appliqués, potentiellement modifiés et évalués de manière appropriée.  Nous devons comprendre les cadres d’évaluation actuels adaptés à l’IA.  Nous devons développer de nouveaux cadres et approches.  Qu’est-ce que l’empathie ?  Merriam-Webster :   ». « L'action de comprendre, d'être conscient, d'être sensible et d'éprouver par procuration les sentiments, les pensées et l'expérience d'autrui  Pour éliminer les problèmes potentiels liés à « l'expérience » dans le contexte des LLM, je reformulerai cela comme   . l'action de comprendre, d'être conscient, d'être sensible et   expérimenter par procuration les sentiments, les pensées et l'expérience d'autrui de sembler  Et, bien sûr, si nous nous préoccupons de la conversation, nous ajouterions :   Bien sûr, un sociopathe peut également   et   , je ferai donc un dernier ajustement. Et, en manifestant cela de telle manière que les autres interlocuteurs dans une conversation soient conscients de l'action. apparaître se manifester de cette manière   L'empathie est :    .  L'action de comprendre, d'être conscient, d'être sensible   et de sembler expérimenter par procuration les sentiments, les pensées et l'expérience d'autrui de manière positive Et cela se manifeste de telle manière que les autres parties dans une conversation soient conscientes de l’action.  En examinant cela et la définition originale, deux composantes de l'empathie deviennent évidentes, affective et cognitive.  La composante affective fait référence à la partie émotionnelle ou ressentie de l’empathie. C'est la capacité de partager ou de refléter les sentiments d'une autre personne. Par exemple, si un ami est triste, la partie affective de votre empathie peut également vous rendre triste, ou au moins avoir une idée de sa tristesse.  La composante cognitive, quant à elle, fait référence à la partie mentale ou pensante de l'empathie. C'est la capacité d'identifier et de comprendre activement les files d'attente afin de pouvoir se mettre mentalement à la place d'une autre personne. Par exemple, si un collègue vous parle d'un projet difficile sur lequel il travaille (une file d'attente) d'une voix fatiguée (une file d'attente), vous pouvez choisir d'essayer de comprendre son stress en imaginant activement ce que vous ressentiriez dans une situation similaire. . Pour certains, cela pourrait produire artificiellement cet effet.  Les IA peuvent-elles ressentir ?  À ce stade, la plupart des gens diraient que les   n’ont pas de sentiments. Certains prédisent un avenir dans lequel les IA ont des sentiments et d'autres où les IA n'ont pas et ne peuvent pas avoir de sentiments, et pourtant un troisième groupe pourrait dire : « Les IA ressentent/seront, mais d'une manière différente de celle des humains ». IA  Quoi qu’il en soit, nous ne progresserons pas dans les tests d’empathie de l’IA si nous passons du temps à débattre de ce sujet. Nous devons nous concentrer sur notre interprétation de ce que manifestent les IA, et non sur leurs états internes. Bien qu’il y ait eu des recherches intéressantes sur ce sujet, voir   . Émotionnellement engourdi ou empathique ? Évaluer ce que ressentent les LLM à l'aide d'EmotionBench  Si vous ne parvenez pas à surmonter cet obstacle, je vous suggère simplement d'ignorer les références présentées sur ce site Web. Cependant, vous pouvez toujours profiter des articles et des conversations !  Identification vs génération  Il y a un grand écart entre identifier quelque chose et faire quelque chose. Les jeunes athlètes ou universitaires peuvent identifier ce qui ne va pas dans leur performance sans pouvoir immédiatement performer à un niveau supérieur. De même, avoir la capacité d’identifier des émotions et des conversations empathiques n’est pas la même chose que d’être capable de sembler avoir des émotions et de générer des réponses qu’une autre partie interpréterait comme empathiques. En fait, il y a même une étape intermédiaire. Les jeunes athlètes ou universitaires qui acceptent l’apport d’un entraîneur ou d’un enseignant et produisent sur le moment de meilleurs résultats ne les rendent pas pleinement capables. Si une IA produit un résultat empathique comme effet secondaire d’une conception de test ou d’une invite, alors l’IA peut avoir une capacité empathique naissante, mais elle n’est pas intrinsèquement empathique.  Bien qu’il ne soit peut-être pas possible de comprendre pleinement l’état interne d’une IA, je crois que l’identification des émotions est une condition nécessaire pour que l’IA fasse preuve d’empathie. Je crois également que le fait d'être capable d'inciter/entraîner une IA à fournir une réponse empathique est une indication d'une capacité naissante, c'est-à-dire qu'un réglage fin (l'équivalent de la pratique humaine) peut créer cette capacité.  Les distinctions entre   vs   et   vs   sont importantes pour les discussions sur l'efficacité des tests et des cadres de tests au-delà de la portée de cet article. identification génération coaché intrinsèque  Identification  L'identification des émotions dans le contenu textuel repose sur la présence de mots indicateurs, de majuscules, de ponctuation et de structure grammaticale. La capacité d’identifier avec précision les sentiments est antérieure de plus de vingt ans à la révolution actuelle de l’IA. Dans les années 1990, les intersections de mots n-grammes et le raisonnement symbolique donnaient déjà des résultats impressionnants. À mesure que les médias sociaux se développaient au début des années 2000, le besoin d’une modération automatisée a entraîné de nombreux progrès dans ce domaine. Cependant, les LLM d'aujourd'hui sont étonnants dans leur capacité à identifier non seulement un sentiment général mais aussi des émotions spécifiques.  Ceci étant dit, il existe plusieurs types d’identification d’expression d’émotion nécessaires pour des conversations pleinement empathiques, je les classe comme suit :  explicite — L'utilisateur déclare avoir un sentiment.  conversationnel — Les émotions sont évidentes dès l'analyse textuelle de haut niveau, elles sont présentes DANS la conversation.  conduite — Les émotions conduisent la conversation, une personne manifeste de la colère et une autre répond de la même manière.  noyau — Les émotions qui provoquent d'autres émotions mais ne sont pas elles-mêmes causées par une émotion sont CORE. Ils se manifestent généralement à la suite d’un déclencheur historique qui provoque une anticipation (consciente ou subconsciente) de l’avenir. Différents chercheurs peuvent les classer différemment, un exemple soutenu par le Dalia Lama est les cinq continents de l'émotion (colère, peur, dégoût, tristesse, plaisir) dans l'   . Atlas de l'émotion  Remarque : une émotion centrale peut également être motrice, conversationnelle et explicite, mais les émotions fondamentales sont souvent cachées. Lors de la revue et de la définition des tests ou des résultats de tests au-delà de cet article, je rappellerai l'attention sur ces classifications.  Considérations relatives aux tests  Les tests humains classiques pour l'identification des émotions se répartissent généralement en deux catégories pour faciliter les tests et la validation :  Tests à choix multiples sur les émotions qui existent ou non dans une conversation, parfois associés à un score d'intensité.  Tests introspectifs auto-administrés sur les sentiments, par exemple l'   , qui demandent comment le candidat se sent dans certaines situations. EQ-60   Ceux-ci présentent des défis distincts pour les tests d’IA de haute qualité.    — En tant que modèles de langage à correspondance de modèles,   d'aujourd'hui bénéficient effectivement d'un avantage en leur offrant un choix d'éléments à identifier. Cela facilite le travail et ne teste pas la capacité de l'IA à toujours identifier les émotions. Une approche potentiellement meilleure consiste simplement à dire à l'IA d'identifier toutes les émotions présentes dans un texte et de les évaluer en coulisse par rapport à la vérité terrain (je ne suis pas sûr qu'une telle chose existe avec les émotions :-) ou à une clé basée sur l'analyse statistique. des réponses humaines au même test. Lors de l'évaluation des tests proposés à l'avenir, j'appelle cela le   . Cependant, l’échantillonnage statistique des humains peut introduire un risque supplémentaire. Supposons le désir de construire une IA meilleure que l’humain moyen. Pour ce faire, il peut être nécessaire de s’assurer que l’échantillon statistique est basé sur des humains qui ont une capacité supérieure à la moyenne à identifier les émotions ; sinon, l’IA pourrait identifier des émotions que l’humain moyen n’identifierait pas et pourrait être pénalisée lors de la notation. J'appelle cela   . Tests à choix multiples les IA risque à choix multiple le risque d'échantillonnage humain    — Les tests introspectifs sur les sentiments constituent des défis pour la plupart des modèles d'IA. Les IA ont généralement des garde-fous qui les obligent à répondre par quelque chose comme « Je suis une IA, donc je n'ai pas de sentiments ». Il est parfois possible de jailbreaker ou d'inciter l'ingénieur à contourner ces contraintes, mais les questions deviennent alors : Tests introspectifs  L'invite a-t-elle un impact positif ou négatif sur le reste des capacités de l'IA en matière d'empathie, ou en fait quoi que ce soit ?  Risque d’effet secondaire du jailbreak  Les réponses reflètent-elles avec précision les tendances qu'aura l'IA lorsqu'elle participera à des conversations sans invite ?  Risque de précision du jailbreak  Le   peut être atténué dans une certaine mesure en garantissant que tous les modèles sont testés avec la même invite et que les scores ne sont pris en compte que les uns par rapport aux autres et non aux humains. L'impact du   du jailbreak ne peut être évalué qu'en analysant les conversations réelles pour voir si la capacité d'identification émotionnelle prévue est en corrélation avec l'empathie réelle affichée ou les émotions évoquées dans les conversations. risque d’effet secondaire du jailbreak risque de précision  Génération  Plusieurs tests ont montré que les IA sont capables de générer des réponses empathiques aux questions. L'un des plus impressionnants est   qui a pris 195 questions du forum AskDoc de Reddit où un médecin vérifié a répondu à la question et a demandé à ChatGPT de répondre à la même question. Un groupe d'évaluateurs a ensuite évalué chaque réponse comme « pas empathique », « légèrement empathique », « modérément empathique », « empathique » et « très empathique ». Les réponses de l’IA présentaient une prévalence 9,8 fois plus élevée pour les médecins « empathiques » ou « très empathiques ». la comparaison des réponses des médecins et des chatbots d'intelligence artificielle aux questions des patients publiées sur un forum public de médias sociaux  Bien que les résultats soient impressionnants, je suis sceptique quant à leur impact sur un dialogue étendu.  En commençant par une invite système du type « Votre travail consiste à répondre avec empathie aux questions qui bénéficieraient d'une réponse empathique », mon expérience avec les tests manuels des IA est que les réponses ont tendance à sembler mécaniques et émotionnellement redondantes dans toutes les conditions suivantes :  poser plusieurs questions sans rapport qui méritent une réponse empathique  poser plusieurs questions connexes méritant une réponse empathique  mener un dialogue de questions mixtes, certaines méritant de l'empathie et d'autres non  Considérations relatives aux tests  En raison des points ci-dessus, je dirais que l'approche de test utilisée dans l'étude présentait un   c'est-à-dire que l'empathie affichée en réponse à une seule question peut ne pas être une mesure précise. Un autre risque est ce que j’appelle   . Ce risque est un effet secondaire du fait que les LLM bruts n'ont pas de mémoire au fil du temps. Il faut du temps aux humains pour développer leur compréhension et leur empathie, cela peut être la même chose pour les IA et nous sous-estimons peut-être la capacité de certaines IA à manifester de l'empathie au fil du temps si nous nous attendons à un niveau élevé en réponse à une seule question. risque d'empathie unique, le risque de sous-estimation de l’empathie  Les tests génératifs sont également soumis au   Si les humains sont chargés d’évaluer le contenu émotionnel et la nature empathique des réponses de l’IA et que nous souhaitons que l’IA ait une capacité supérieure à la moyenne, alors l’échantillon d’humains doit avoir une plus grande capacité à identifier les émotions et l’empathie que l’humain moyen. Sinon, nous courons le risque de sous-estimer la puissance de l’IA ou de la sous-entraîner en la pénalisant pour avoir identifié des émotions et une empathie non identifiées par l’humain typique. risque d’échantillonnage humain.  Enfin, en raison de la nature stratifiée des émotions dans la conversation, en plus de traiter directement du   , il est nécessaire d'aborder   . Il se peut que l'on devrait demander aux utilisateurs de prendre en compte les types d'émotions explicites, conversationnelles, motrices et fondamentales (ou un autre ensemble de classifications) lorsqu'ils effectuent leur évaluation, alors que les IA ne le font pas. Alternativement, les IA pourraient être invitées à identifier de manière sélective différents types d’émotions. risque d'échantillonnage humain le risque de conception des questions  Il serait intéressant de répéter l’étude basée sur Reddit AskDoc pour plusieurs IA ou avec un échantillon d’évaluateurs connus pour avoir de fortes capacités d’identification des émotions et de l’empathie.  Approches humaines standard pour évaluer l'égalisation et l'empathie  Il existe une longue histoire de tests sur les types de personnalité humaine, la capacité à identifier les émotions ou leur absence (alexithymie) et à interagir avec empathie avec les autres. Cet   sera certainement bien plus complet et cohérent que tout ce que je pourrais écrire ou même générer avec un LLM dans un laps de temps raisonnable. Vous pouvez voir les approches sur lesquelles nous nous sommes concentrés en visitant la   . article sur Wikipédia page des benchmarks  Cadres existants pour évaluer l'égalisation de l'IA et l'empathie  Plusieurs cadres ont été proposés pour évaluer l'IA EQ et l'empathie. Chacun mérite sa propre analyse et son propre article de blog, je n'en énumére donc que quelques-uns ici :   EQ-Bench : une référence en matière d'intelligence émotionnelle pour les grands modèles de langage   Échelle d'empathie pour la communication homme-machine (ESHCC)   iEval : cadre d'évaluation interactif pour les chatbots empathiques en domaine ouvert  Nouvelles approches  Nous avons commencé à définir certains tests pour combler les lacunes identifiées dans l'utilisation de tests humains standard et des cadres d'IA existants. Une découverte intéressante qui a abouti à la création de   (Emotional Quotient for Depth) est qu'aucun LLM testé n'a identifié les émotions fondamentales si elles n'étaient pas également explicites, conversationnelles ou motrices. D’un autre côté, lorsqu’on leur a demandé d’identifier spécifiquement uniquement les émotions fondamentales, plusieurs IA se sont révélées plutôt bonnes. Cependant, lorsqu'ils ont reçu une gamme de tous les types d'émotions, certains LLM ont perdu la capacité d'identifier les émotions principales et d'autres ont obtenu de bien meilleurs résultats, c'est-à-dire qu'ils ont identifié la présence d'un plus grand nombre d'émotions à tous les niveaux. Cela a abouti à la création de   (Emotional Quotient for Breadth). l'EQ-D l'EQ-B  Au cours du développement des tests, il est devenu évident qu'il y a des moments où une invite sera nécessaire pour introduire   , c'est-à-dire augmenter la probabilité que le résultat dépende de l'invite, et non de l'IA principale. Ce risque peut ou non invalider les comparaisons avec les humains et peut être légitime au niveau applicatif. Au niveau brut du LLM, il semblerait peu important de comparer une IA à l'autre tant que l'invite est utilisée dans toutes les IA testées et n'est pas biaisée en faveur d'une IA particulière. Les conceptions actuelles d’   et   souffrent de ce risque en raison de l’immaturité globale de la technologie de l’IA. un risque d'invite EQ-D d’EQ-B  Bien qu’il existe plusieurs propositions concernant les tests d’empathie des IA, nous n’en sommes qu’aux débuts et il existe des problèmes à la fois connus et inconnus avec ces approches. Il y a du travail à faire pour remédier aux problèmes connus :  les tests existants doivent être évalués pour les risques et les risques documentés ou atténués  de nouveaux cas de tests doivent être développés dans le contexte de certains tests existants  davantage de types de tests doivent être exécutés sur une gamme plus large d’IA  Mais c'est l'inconnu qui m'intrigue le plus.  Et toi?  Également publié  ici.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Change What's Possible, Make Yesterday Jealous

Read My Stories

Cet audio est produit dans la langue originale de l'histoire !

Tester les profondeurs de l'empathie de l'IA : cadres et défis

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Guide de l'architecte pour créer une architecture de référence pour un datalake IA/ML

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

State of the Noonion: Green Clock Strikes Noon

Guide de l'architecte pour créer une architecture de référence pour un datalake IA/ML

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

State of the Noonion: Green Clock Strikes Noon

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps