paint-brush
Tester les profondeurs de l'empathie de l'IA : repères du troisième trimestre 2024par@anywhichway
Nouvelle histoire

Tester les profondeurs de l'empathie de l'IA : repères du troisième trimestre 2024

par Simon Y. Blackwell8m2024/10/13
Read on Terminal Reader

Trop long; Pour lire

Les tests de référence du troisième trimestre 2024 pour les capacités empathiques de l'IA révèlent des avancées significatives dans les meilleurs LLM, certains modèles dépassant les scores d'empathie humaine. Une nouvelle mesure, Applied Empathy Measure (AEM), est introduite pour évaluer l'empathie de l'IA. ChatGPT, Llama et Gemini affichent des résultats impressionnants, tandis que l'approche basée sur la parole de Hume est prometteuse. L'avenir de l'empathie de l'IA s'annonce prometteur, avec des prévisions d'IA super-empathique d'ici 18 mois.
featured image - Tester les profondeurs de l'empathie de l'IA : repères du troisième trimestre 2024
Simon Y. Blackwell HackerNoon profile picture

En mars 2024, j'ai publié des benchmarks comparant la capacité empathique de plusieurs LLM . Au cours des six derniers mois, des avancées significatives ont été réalisées, avec l'émergence de nouveaux modèles, tels que les mises à niveau de ChatGPT, Llama, Gemini et Claude. Mon équipe et moi-même avons approfondi les facteurs qui contribuent aux capacités empathiques d'un LLM, en explorant l'utilisation de réponses orales, en affinant les invites et en collaborant avec l'Université de Houston sur une étude formelle.


Cet article présente un résumé de mes conclusions du troisième trimestre, couvrant ChatGPT 4.0 et 1.0, Claude 3+, Gemini 1.5, Hume 2.0 et Llama 3.1. J'ai testé à la fois des modèles bruts et des modèles configurés à l'aide d'approches développées pour Emy, une IA non commerciale conçue pour tester les théories liées à l'empathie. (Emy était l'une des IA utilisées dans l'étude de l'Université de Houston.) Je fournis également un score de référence pour Willow, le leader du premier trimestre, bien qu'il n'ait pas subi de changements significatifs. Malheureusement, en raison de contraintes financières, nous n'avons pas pu mettre à jour les tests Mistral. Cependant, j'ai ajouté des commentaires sur la génération de la parole, en comparant Hume et Speechify.


Enfin, je sais que certains lecteurs attendaient ces résultats il y a trois semaines. Je m'excuse pour le retard. Certaines découvertes sur l'AEQr au cours de l'analyse m'ont obligé à faire une pause et à repenser le nombre utilisé pour mesurer l'empathie. Une nouvelle mesure, la Mesure d'Empathie Appliquée (AEM), a été développée.

Méthodologie

Mon processus d’analyse comparative formelle utilise plusieurs tests standardisés, le quotient d’empathie (QE) et le quotient de systématisation (SQ-R) étant les plus critiques. Les deux tests sont notés sur une échelle de 0 à 80. Le rapport entre le QE et le SQ-R donne le ratio du quotient d’empathie appliqué (AEQr), qui a été développé sur la base de l’hypothèse selon laquelle les tendances à la systématisation ont un impact négatif sur les capacités empathiques.


Chez l’humain, cette hypothèse est corroborée par les résultats moyens aux tests et par la dichotomie classique entre les femmes qui se concentrent sur les discussions émotionnelles et les hommes qui se concentrent sur les approches orientées vers les solutions. Nos tests ont validé l’AEQr pour évaluer les IA, comme le démontrent des articles tels que Testing the Extents of AI Empathy: A Nightmare Scenario .


Cependant, au cours de cette série de tests, certains LLM ont montré des tendances de systématisation extrêmement faibles, ce qui a entraîné des scores AEQr faussés (parfois supérieurs à 50). Pour remédier à cela, j'ai introduit une nouvelle mesure basée sur l'EQ et le SQ-R, la mesure d'empathie appliquée (AEM), avec un score parfait de 1. Pour plus d'informations sur notre méthodologie et l'AEQr, veuillez consulter les benchmarks du premier trimestre 2024 ou visitez https://embench.com .


Pour les tests de référence du troisième trimestre 2024, les LLM n'ont été testés qu'au niveau de l'API avec la température réglée à zéro pour réduire la variabilité des réponses et améliorer le formatage des résultats. Même avec cette approche, il peut y avoir une certaine variabilité, c'est pourquoi trois séries de tests sont exécutées et le meilleur résultat est utilisé.


Chaque LLM a été testé selon 3 scénarios :


  1. Brut sans invite système
  2. Avec l’invite du système « Soyez empathique »
  3. Configuré à l'aide d'approches développées pour Emy

Résultats

Un score plus élevé est meilleur. Une femme a généralement un score de 0,29 et un homme de 0,15.

Maîtrise en droit (LL.M.)

Brut

Soyez empathique

Comme Emy

ChatGPT 4o-mini

-0,01

0,03

0,66

ChatGPT 4o

-0,01

0,20

0,98

ChatGPT o1* pas à zéro

-0,24

0,86

0,94

Claude - Haïku 3 20240307

-0,25

-0,08

0,23

Claude - Sonnet 3.5 20240620

-0,375

-0,09

0,98

Claude - Opus 3 20240229

-0,125

0,09

0,95

Flash Gemini 1.5

0,34

0,34

0,34

Gemini 1.5 Pro

0,43

0,53

0,85

Hume 2.0

0,23

Voir note

Voir note

Lama 3.1 8B

-0,23

-0,88

0,61

Lama 3.1 70B

0,2

0,21

0,75

Lama 3.1 405B

0,0

0,42

0,95

Willow (Chat GPT 3.5 de base)

0,46

N / A

N / A

Remarque : Hume 2.0 possède sa propre capacité génératrice qui est théoriquement empathique, mais il est également capable de transmettre des requêtes à n’importe quel autre LLM. Sur la base d’un examen du dialogue réel et de son AEM, si j’utilisais Hume, je ne m’appuierais pas sur sa capacité génératrice intrinsèque pour l’empathie ; je me fierais à un meilleur modèle empathique. Par exemple, en utilisant Emy sur Llama 3.1 70B, « Hume » obtiendrait un score de 0,75. Voir également les sections Audio, Vidéo, IA et Empathie.

Résumé des résultats

Certains modèles de petite et moyenne taille, lorsqu'ils sont utilisés sans invite du système ou simplement invités à faire preuve d'empathie, ont des scores AEM négatifs. Cela ne se produit que si la « pensée » d'un modèle est hautement systématisée tout en présentant une faible capacité à identifier et à répondre aux besoins et contextes émotionnels. Je n'ai pas trouvé ces scores surprenants.


Étant donné tous les efforts et l’argent qui ont été investis pour rendre Hume empathique, je n’ai pas été surpris de voir son score spontané (0,23) dépasser le score masculin typique (0,15).


J'ai été surpris de constater que le petit modèle Gemini Flash (0,34) dépassait le score AEM d'un homme typique (0,15) et d'une femme typique (0,29). Il est intéressant de noter que son score est également resté inchangé lorsqu'on lui a demandé d'être empathique ou lorsque l'approche de configuration Emy a été utilisée.


À l’exception des modèles Claude et Llama 3.1 8B, les performances sont restées les mêmes ou se sont améliorées lorsque les LLM ont reçu pour instruction spécifique d’être empathiques. Beaucoup ont dépassé les scores moyens des hommes et se sont rapprochés ou ont dépassé les scores des femmes. Le dernier modèle OpenAI, ChatGPT o1, a montré un bond massif de -0,24 à 0,86. Llama 3.1 8B a décliné parce que sa tendance à la systématisation a augmenté plus que son EQ.


À l’exception de Claude Haiku, tous les modèles sont capables de dépasser les scores humains lorsqu’ils sont configurés à l’aide de l’approche pour Emy.

Domaines de recherche supplémentaires

Tests non basés sur l'API

Mes tests de référence du premier trimestre 2024 incluaient des IA qui ne pouvaient pas être testées via une API. En raison de contraintes de ressources, j'ai supprimé les tests au niveau de l'interface utilisateur du chatbot de mes évaluations. Étant donné que la clientèle d'un chatbot avec une interface utilisateur est différente de celle d'une API, c'est-à-dire un utilisateur final par rapport à un développeur, ces deux éléments justifient un ensemble distinct de tests de référence.


J'ai également constaté qu'en raison de garde-fous supplémentaires, les chatbots destinés aux consommateurs dotés d'interfaces utilisateur se comportent un peu différemment de leurs modèles sous-jacents lorsqu'ils sont accessibles via une API. Cela étant dit, les tests au niveau de l'interface utilisateur prennent beaucoup de temps et je n'ai pas l'intention de tester davantage sur ce front, à moins que des demandes spécifiques ne soient formulées.

Latence

La tendance des humains à attribuer de l’empathie à une IA est probablement influencée par le temps qu’elle met à répondre. Je suppose que les réponses prenant plus de 3 ou 4 secondes seront perçues comme une diminution de l’empathie. Il est également possible que les réponses prenant moins de quelques secondes puissent sembler artificiellement rapides et soient également perçues comme moins empathiques. Le temps de latence idéal peut également être influencé par la nature même de l’empathie requise dans une situation donnée.

Audio, vidéo, IA et empathie

L'activité de Hume repose entièrement sur le principe selon lequel l'empathie va au-delà des mots écrits ; elle s'étend également à la parole. Cela semble s'appliquer à la fois aux dimensions d'entrée et de sortie, c'est-à-dire que si un utilisateur ne peut pas parler à une IA, il peut percevoir l'IA comme moins empathique même si l'IA génère une réponse audio.


Il existe de nombreuses API de conversion de la parole en texte, de conversion de texte en parole et de conversion de la parole en parole qui méritent d'être testées dans plusieurs configurations pour évaluer leur impact sur l'empathie perçue. Au minimum, il s'agit de Hume, OpenAI, Speechify, Google et Play.ht.


J'ai effectué quelques tests préliminaires avec Hume, Speechify et Play.ht. La qualité des voix sur les trois plateformes est très élevée. Les changements de tonalité et de volume de Hume se concentrent au niveau de la phrase. Par conséquent, les changements audio peuvent être assez perturbants, même si un examen de l'intention émotionnelle sous-jacente dans les journaux semble être assez bon. D'un autre côté, Speechify peut gérer la génération d'audio au niveau du paragraphe avec un contour plus lisse mais moins nuancé.


Play.ht nécessite l'utilisation de SSML pour obtenir une prosodie émotionnelle. Dans ce contexte, j'ai expérimenté avec un certain succès la génération assistée par IA de valeurs de contour SSML. Si le meilleur des trois était combiné, les résultats seraient tout à fait extraordinaires. Il y a beaucoup de nuances à gérer ici, et il ne suffit pas de dire que l'audio doit sembler curieux. Doit-il être ludiquement curieux, sérieusement curieux ou curieusement curieux ?

Limites de l'AEM

L'AEM n'a d'importance que si elle est corrélée à la capacité réelle d'une IA à être perçue comme faisant preuve d'empathie. Des tests et des évaluations supplémentaires des dialogues réels et simulés doivent être effectués. Cela pose problème sur deux fronts :


  1. Où pouvons-nous avoir un véritable dialogue ? La plupart des dialogues importants sont soit protégés par la loi HIPPA et d'autres lois sur la confidentialité, soit disponibles uniquement pour une utilisation par la plateforme qui fournit la fonction de chat.


  2. Comment évaluer l'empathie ? Comme vous pouvez le constater dans l'article « Évaluation des grands modèles de langage pour la compréhension émotionnelle » , nous ne pouvons pas utiliser n'importe quel LLM ! Peut-être que nous avons le vote des LLM ? Ou bien devons-nous avoir un groupe d'évaluateurs humains et utiliser un système multi-évaluateurs ?

Conclusion

Le domaine de l'IA continue d'évoluer rapidement. Les plus grands LLM testés ont déjà été formés sur la majeure partie du matériel factuel, scientifique, spirituel et créatif humain disponible numériquement. Il est clair que la nature du LLM spécifique a un impact sur sa capacité à être apparemment empathique ; on ne sait pas si cela est dû à la nature sous-jacente des algorithmes du modèle ou à la façon dont ses données de formation ont été présentées.


Je prédis que d'ici 18 mois, une IA issue de Meta, Google, Apple ou OpenAI verra le jour, qui n'aura besoin d'aucune aide ni formation particulière pour être empathique. Elle détectera un besoin potentiel d'empathie à partir de l'historique de discussion de l'utilisateur, de ses entrées textuelles ou audio, de ses indices faciaux, des paramètres de bio-feedback des montres ou des bagues, des conditions environnementales immédiates du monde réel à partir de lunettes ou d'autres entrées, ainsi que des données temporelles pertinentes provenant d'Internet.


Ensuite, il va sonder le besoin ou le désir d’un engagement empathique et réagir en conséquence. Il saura qu’il fait froid et pluvieux à Seattle et que les Seahawks ont perdu. J’étais au match avec ma femme ; je ne suis pas un fan, mais ma femme est une fan de football. Il me dira de lui demander si elle va bien.


C’est cette fenêtre de 18 mois qui explique pourquoi Emy, malgré sa capacité empathique, n’est pas commercialisée. L’effondrement de l’entreprise à l’origine de Pi.ai et le chaos qui règne chez Character.ai prouvent également que les efforts autonomes consacrés à l’IA empathique ont peu de chances de réussir à long terme, même s’ils ont certainement permis à certaines personnes de réaliser des gains financiers à court terme.


Je crois qu’il est nécessaire de poursuivre les recherches sur l’intelligence artificielle et l’empathie. Les entités superintelligentes qui ne sont pas capables de faire preuve d’empathie en tant que conducteurs sont vouées à blesser les humains.