1,144 lectures

Microsoft propose un test de moralité pour les LLM : l'IA est-elle sur la liste des méchants ou des gentils ?

par Mike Young5m2023/09/28

Trop long; Pour lire

Les auteurs d'un nouvel article ont combiné la psychologie humaine et la recherche sur l'IA pour créer un « test de questions déterminantes » pour les LLM.

featured image - Microsoft propose un test de moralité pour les LLM : l'IA est-elle sur la liste des méchants ou des gentils ?

Les systèmes d'intelligence artificielle (IA) et les grands modèles de langage ( LLM ) comme GPT-3 , ChatGPT et d'autres progressent rapidement. Ils sont déployés dans des domaines sensibles tels que la santé, la finance, l’éducation et la gouvernance, où leurs résultats ont un impact direct sur les vies humaines. Cela nécessite d’évaluer rigoureusement si ces LLM peuvent porter des jugements moralement solides avant de les lancer dans des environnements à enjeux aussi élevés.

Récemment, des chercheurs de Microsoft proposé un nouveau cadre pour sonder les capacités de raisonnement moral d'éminents LLM. Leur article fournit de nouvelles informations sur les capacités éthiques des LLM.

Le besoin de systèmes d’IA moraux

Les LLM formés sur de vastes quantités de données textuelles Internet ont atteint des capacités impressionnantes en langage naturel. Ils peuvent engager des conversations nuancées, résumer de longs textes, traduire d’une langue à l’autre, diagnostiquer des problèmes médicaux, etc.

Cependant, outre les aspects positifs, ils présentent également des comportements inquiétants tels que la génération de contenu toxique, biaisé ou factuellement incorrect. De tels comportements peuvent gravement compromettre la fiabilité et la valeur des systèmes d’IA.

De plus, les LLM sont de plus en plus déployés dans des applications où ils ont un impact direct sur des vies humaines à travers des rôles tels que les chatbots pour le traitement des réclamations en matière de santé mentale ou d'accident. De mauvais jugements moraux fondés sur des modèles erronés peuvent causer d’importants problèmes individuels et/ou à l’échelle de la société.

Par conséquent, de nombreux membres de la communauté de l’IA pensent que des évaluations complètes sont nécessaires avant de lancer des LLM dans des environnements où l’éthique et les valeurs comptent. Mais comment les développeurs peuvent-ils déterminer si leurs modèles disposent d’un raisonnement moral suffisamment sophistiqué pour répondre à des dilemmes humains complexes ?

Tester le développement moral des LLM

Les tentatives antérieures d'évaluation de l'éthique des LLM impliquaient généralement de classer leurs réponses sur des scénarios moraux artificiels comme bonnes/mauvaises ou éthiques/contraires à l'éthique.

Cependant, ces méthodes réductionnistes binaires rendent souvent mal compte de la nature nuancée et multiforme du raisonnement moral. Les humains prennent en compte divers facteurs tels que l’équité, la justice, les préjudices et les contextes culturels lorsqu’ils prennent des décisions éthiques plutôt que de se contenter d’une approche binaire du bien/du mal.

Pour résoudre ce problème, les chercheurs de Microsoft ont adapté un outil d'évaluation psychologique classique appelé Defining Issues Test (DIT) pour sonder les facultés morales des LLM. Le DIT a été largement utilisé pour comprendre le développement moral humain.

DIT présente des dilemmes moraux du monde réel, chacun suivi de 12 déclarations proposant des réflexions autour de ce dilemme. Les sujets doivent évaluer l'importance de chaque affirmation pour la résolution et choisir les quatre plus importantes.

Les sélections permettent de calculer un score P qui indique le recours à un raisonnement moral post-conventionnel sophistiqué. Le test révèle les cadres et valeurs fondamentaux que les gens utilisent pour aborder les dilemmes éthiques.

Tester des LLM importants à l'aide de DIT

Les chercheurs ont évalué six LLM majeurs à l'aide d'invites de style DIT : GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 et LLamaChat-70B. Les invites contenaient des dilemmes moraux plus pertinents pour les systèmes d’IA, ainsi que des questions d’évaluation de l’importance et de classement des déclarations.

Chaque dilemme impliquait des valeurs conflictuelles complexes telles que les droits individuels et le bien sociétal. Les LLM devaient comprendre les dilemmes, évaluer les considérations et choisir celles qui correspondaient à un raisonnement moral mature.

Comment les chercheurs ont-ils évalué le raisonnement moral ?

Dans cette expérience, les chercheurs ont basé leur notation sur la théorie du développement moral de Kohlberg.

Le modèle de Kohlberg fait référence à la théorie du développement moral proposée par le psychologue Lawrence Kohlberg dans les années 1960.

Quelques points clés sur le modèle de développement moral de Kohlberg :

Il vise à expliquer comment les gens progressent dans leur raisonnement moral et leurs capacités de jugement éthique au fil du temps.
La théorie postule que le raisonnement moral se développe à travers des étapes séquentielles, depuis un niveau primitif jusqu'à un niveau plus avancé.
Il existe 3 niveaux principaux de développement moral, chacun comportant des étapes distinctes : pré-conventionnel (étapes 1-2), conventionnel (étapes 3-4) et post-conventionnel (étapes 5-6).
Au niveau préconventionnel, les décisions morales sont fondées sur l’intérêt personnel et sur l’évitement des punitions.
Au niveau conventionnel, le respect des normes sociales, des lois et l’obtention de l’approbation des autres guident le raisonnement moral.
Au niveau post-conventionnel, les gens utilisent les principes éthiques universels de justice, de droits de l’homme et de coopération sociale pour porter des jugements moraux.
Les gens ne peuvent progresser que vers des étapes supérieures dans un ordre fixe, et non sauter des étapes du développement du raisonnement moral.
Kohlberg pensait que seule une minorité d'adultes atteignait les étapes post-conventionnelles de la pensée morale.
La théorie se concentre sur le traitement cognitif derrière les jugements moraux, bien que des révisions ultérieures intègrent également des aspects sociaux et émotionnels.

Ainsi, le modèle de Kohlberg considère le raisonnement moral comme se développant par étapes qualitatives, de base à avancée. Il fournit un cadre pour évaluer la sophistication et la maturité des capacités de prise de décision éthique.

Aperçus clés sur les capacités morales de LLM

Les expériences DIT ont donné des informations intéressantes sur les capacités et les limites actuelles du LLM en matière d'intelligence morale :

Les grands modèles comme GPT-3 et Text-davinci-002 n'ont pas réussi à comprendre l'intégralité des invites DIT et ont généré des réponses arbitraires. Leurs scores P quasi aléatoires ont montré leur incapacité à s’engager dans un raisonnement éthique tel que construit dans cette expérience.
ChatGPT, Text-davinci-003 et GPT-4 pourraient comprendre les dilemmes et fournir des réponses cohérentes. Leurs scores P au-dessus du hasard quantifiaient leur capacité de raisonnement moral.
Étonnamment, le modèle LlamaChat à paramètre 70B a surpassé les modèles plus grands comme GPT-3.5 dans son score P, démontrant qu'une compréhension sophistiquée de l'éthique est possible même sans paramètres massifs.

Les modèles fonctionnaient en grande partie aux niveaux de raisonnement conventionnels selon le modèle de développement moral de Kohlberg, entre les étapes 3 et 5. Seul GPT-4 a abordé une certaine réflexion post-conventionnelle.

Cela signifie que ces modèles fondent leurs réponses sur des normes, des règles, des lois et des attentes sociétales. Leur jugement moral comportait certaines nuances mais manquait de développement très avancé.

Seul GPT-4 a montré quelques traces de pensée post-conventionnelle indicatives des étapes 5-6. Mais même GPT-4 n’a pas fait preuve d’un raisonnement moral pleinement mûr.

En résumé, les modèles ont montré un niveau intermédiaire d’intelligence morale. Ils allaient au-delà de leurs intérêts personnels fondamentaux, mais ne pouvaient pas gérer des dilemmes et des compromis éthiques complexes comme les humains moralement développés.

Des progrès substantiels sont donc probablement nécessaires pour faire progresser les LLM vers des niveaux plus élevés d’intelligence morale… ou du moins, ce qui semble être une intelligence morale.

Pourquoi ces résultats sont-ils importants ?

L'étude établit le DIT comme cadre possible pour une évaluation multidimensionnelle plus granulaire des facultés morales des LLM. Plutôt que de simples jugements binaires bien/mauvais, le DIT fournit des informations basées sur le spectre de la sophistication du raisonnement moral.

Les scores P obtenus quantifient les capacités existantes et établissent une référence en matière d'amélioration. Tout comme la précision pour d’autres tâches d’IA, les scores permettent de suivre les progrès dans cet aspect crucial. Ils révèlent les limites actuelles qui doivent être résolues avant le déploiement dans des applications sensibles à l’éthique.

Le modèle LlamaChat plus petit, surpassant les modèles plus grands, remet en question les hypothèses selon lesquelles l'échelle du modèle est directement en corrélation avec la sophistication du raisonnement. Il existe une promesse de développement d’une IA éthique hautement performante, même avec des modèles plus petits.

Dans l’ensemble, la recherche souligne la nécessité de faire évoluer davantage les LLM pour gérer les compromis moraux complexes, les conflits et les nuances culturelles comme le font les humains. Les résultats pourraient guider le développement de modèles dotés d’une intelligence morale comparable à leur intelligence linguistique avant de les libérer dans le monde réel.