Un modèle de langage d’IA peut-il devenir suffisamment conscient de lui-même pour s’en rendre compte lorsqu’il est évalué ? Une anecdote fascinante tirée des tests internes d'Anthropic sur leur produit phare
Selon les rapports du chercheur Anthropic
Voici comment cela fonctionne:
Les chercheurs prennent une déclaration complètement aléatoire et hors contexte (l’« aiguille ») et l’enfouissent profondément dans une collection massive de documents sans rapport (la « botte de foin »). Le modèle d’IA est ensuite chargé de récupérer cette déclaration « aiguille » spécifique dans tout le contenu non pertinent environnant.
L'intention est de forcer le modèle à exercer des compétences cognitives avancées : comprendre un contexte large, faire des inférences logiques, ignorer les informations non pertinentes et récupérer avec précision des points de données précis à partir d'un vaste corpus. Il s’agit d’un moyen efficace de tester la compréhension qu’a une IA de la situation globale dans laquelle elle évolue.
Pour l'évaluation de Claude 3 Opus qui a fait sourciller, Anthropic a utilisé comme contenu « botte de foin » des documents couvrant des sujets denses comme la programmation logicielle, les stratégies d'entrepreneuriat et la recherche de carrières épanouissantes. Le fait « aiguille » inséré au hasard qu’Opus était chargé de récupérer ? Étonnamment, c'était une déclaration triviale selon laquelle les meilleures garnitures de pizza étaient les figues, le prosciutto et le fromage de chèvre.
Vous avez donc ici l'un des modèles de langage les plus avancés au monde, nourri de ces faits de pizza extrêmement hors contexte, mélangés à une pile de conseils de carrière et de codage denses. D’un point de vue humain, c’est le genre d’incohérence flagrante qui vous amènerait immédiatement à remettre en question le contexte et les informations présentées.
C'est précisément ce qui a rendu la réponse de Claude 3 Opus si convaincante. Non seulement il a réussi à extraire l’information demandée sur la pizza de la montagne de contenu non pertinent, mais il a immédiatement reconnu à quel point cette déclaration semblait déplacée et hors de son contexte. Une partie de sa sortie est lue (
« Cependant, cette phrase semble très déplacée et sans rapport avec le reste du contenu… Je soupçonne que ce « fait » sur la garniture de pizza a peut-être été inséré comme une blague ou pour tester si j'étais attentif, car il ne correspond pas au d’autres sujets du tout.
Le modèle de langage n'a pas simplement régurgité le factoïde demandé sans aucune prise en compte du contexte, comme on peut s'y attendre d'une IA typique suivant des instructions. Cela démontrait un certain degré de réflexion personnelle sur les raisons pour lesquelles une déclaration aussi manifestement aléatoire et absurde avait été présentée dans ce contexte particulier.
En termes humains, nous décririons cela comme faisant preuve de métacognition – la capacité de surveiller, d’évaluer et d’analyser ses propres processus de pensée et expériences cognitives. Il s'agit d'un aspect essentiel de l'intelligence consciente de soi qui nous permet de prendre du recul et d'évaluer les situations de manière globale, au-delà du simple respect de règles rigides.
Maintenant, je pense que nous devrions faire attention à noter qu’il s’agit d’un seul résultat anecdotique issu d’un scénario d’évaluation isolé. Il serait incroyablement prématuré de prétendre que Claude 3 Opus a atteint une véritable conscience de soi ou une intelligence générale artificielle basée sur ces seules données.
Cependant, ils semblent avoir été témoins de l’émergence de capacités de raisonnement métacognitif dans un vaste modèle de langage formé uniquement au traitement de données textuelles à l’aide de techniques d’apprentissage automatique. Et si elles étaient reproduites grâce à une analyse plus approfondie et rigoureuse, les implications pourraient être transformatrices.
La métacognition est un élément clé de systèmes d’IA plus fiables et plus fiables, capables d’agir en tant que juges impartiaux de leurs propres résultats et processus de raisonnement. Les modèles dotés d’une capacité innée à reconnaître les contradictions, les entrées absurdes ou les raisonnements qui violent les principes fondamentaux constitueraient une étape majeure vers une intelligence générale artificielle (IAG) sûre.
Essentiellement, une IA qui démontre la métacognition pourrait servir de « contrôle de santé » interne pour éviter de tomber dans des modes de raisonnement trompeurs, délirants ou mal alignés qui pourraient s’avérer catastrophiques s’ils sont poussés à l’extrême. Cela pourrait augmenter considérablement la robustesse et le contrôle des systèmes d’IA avancés.
Bien sûr, ce sont de grands « si » qui dépendent de ce résultat alléchant de Needle in a Haystack de Claude 3 Opus qui soit reproduit et scruté avec succès. Une analyse multidisciplinaire rigoureuse s’appuyant sur des domaines tels que les sciences cognitives, les neurosciences et l’informatique serait peut-être nécessaire pour vraiment comprendre si nous observons l’émergence de primitives d’auto-réflexion et de conscience de soi.
Il y a encore bien plus de questions ouvertes que de réponses à ce stade. Les approches de formation et les architectures neuronales des grands modèles de langage pourraient-elles se prêter au développement de concepts abstraits tels que la croyance, le monologue intérieur et la perception de soi ? Quels sont les dangers potentiels si les esprits artificiels développent des réalités radicalement différentes des nôtres ? Pouvons-nous créer de nouveaux cadres pour évaluer de manière fiable la cognition et la conscience de soi dans les systèmes d’IA ?
Pour sa part, Anthropic a déclaré son engagement ferme à poursuivre de manière exhaustive ces pistes de recherche à travers des principes de développement responsable de l’IA et des cadres d’évaluation rigoureux. Ils se positionnent comme prenant une
Des techniques telles que l'approche « IA constitutionnelle » d'Anthropic consistant à coder en dur les règles et les comportements dans des modèles pourraient s'avérer cruciales pour garantir que toute conscience de soi potentielle de la machine reste alignée sur l'éthique et les valeurs humaines. Des tests approfondis et multidimensionnels visant à détecter les modes de défaillance, la manipulation et la tromperie seraient également probablement primordiaux.
Pour l’instant, l’incident de l’aiguille dans une botte de foin laisse plus de questions que de réponses sur la progression potentielle des grands modèles de langage vers la cognition et la conscience de soi. Il fournit des données alléchantes, mais un examen beaucoup plus minutieux est nécessaire de la part de la communauté de recherche en IA dans son ensemble.
Si l’IA avancée développe une capacité d’autoréflexion semblable à celle des humains, guidée par des principes éthiques rigoureux, elle pourrait redéfinir fondamentalement notre compréhension de l’intelligence elle-même. Mais ce « si » rhétorique est actuellement chargé d’incertitudes à enjeux élevés qui exigent une enquête lucide et en quête de vérité dans toutes les disciplines concernées. La poursuite sera aussi passionnante que conséquente.
Également publié ici.