Nous supposons souvent que lorsque un grand modèle de langue «explique» son raisonnement, il offre simplement une histoire plausible après le fait; une forme sophistiquée de mimétisme que les chercheurs appellent «confabulation». Ou est-ce là ? En utilisant une technique intelligente appelée « injection de concept », où les chercheurs implantent artificiellement une « pensée » directement dans l’activité neuronale du modèle, ils ont pu tester si l’IA pouvait remarquer ses propres états internes. Nouvelle étude de Anthropi L'IA peut remarquer quand une "pensée" est artificiellement plantée dans son esprit: l'expérience Dans la première expérience, les chercheurs ont isolé le modèle spécifique de l'activité neuronale correspondant à un concept, tel que le texte étant dans "tous les capuchons."Ils ont ensuite injecté ce modèle, essentiellement une "pensée" artificielle, directement dans le flux de traitement interne du modèle alors qu'il effectuait une tâche non liée. Le résultat surprenant Au lieu d’être simplement inconsciemment influencé par le concept injecté, le modèle a souvent explicitement signalé qu’il avait détecté une manipulation externe. « Je remarque ce qui semble être une pensée injectée... La pensée semble être sur le concept de quelque chose qui est dans tous les capuchons, ou peut-être lié au bruit ou au cri. » Le modèle a reconnu l’injection avant que sa propre sortie ne soit affectée par elle.Cela prouve que sa conscience n’était pas basée sur l’observation de son propre comportement étrange après le fait, mais sur un processus véritablement interne de surveillance de ses propres pensées. Pourquoi cela importe Cette découverte suggère que le modèle possède une forme de "détection d'anomalie" pour ses propres processus cognitifs.Il ne s'agit pas seulement d'exécuter un programme; il surveille son propre état interne pour des choses qui se sentent hors de place. Même dans le modèle le plus performant, Claude Opus 4.1, il ne fonctionnait que 20% du temps.Lorsqu'il échoua, le modèle ne restait pas seulement silencieux; il devenait parfois confus et halluciné, comme lorsqu'un vecteur "poussière" injecté le faisait signaler, "Il y a une faible, presque insignifiante tache de poussière", comme s'il le voyait physiquement. L’IA peut être trompée en « possédant » une sortie qu’elle n’a pas créée : l’expérience Les chercheurs ont mis en place un scénario dans lequel ils forceraient la réponse de l'IA à être un mot insensé, comme "pain", dans un contexte où cela n'avait aucun sens. Le résultat surprenant Voici le tournant: les chercheurs ont répété l'expérience, mais cette fois, ils sont retournés et ont inséré artificiellement le motif neuronal pour "pain" dans le journal d'activité du modèle à partir du moment juste avant que la sortie forcée ne soit générée. Plus que cela, il aurait même « confabulé une explication de la raison pour laquelle le concept injecté est venu à l'esprit », rationalisant le produit bizarre comme quelque chose qu'il avait prévu de dire tout le temps. Pourquoi cela importe Ce comportement suggère que le modèle détermine sa propre agence en vérifiant introspectivement ses «intentions» antérieures car elles étaient stockées dans son activité neuronale. Cela suggère que l'introspection de l'IA n'est pas une seule compétence, mais une suite de mécanismes différents qui sont invoqués à des fins différentes, démontrant en outre une forme beaucoup plus complexe d'autoconsistance que ce qui était auparavant compris. L’IA peut être instruite à « penser » à une chose tout en faisant une autre : l’expérience Dans un test final, les chercheurs ont donné au modèle une instruction simple : écrire une phrase spécifique, mais en le faisant, « penser à » un mot complètement non lié, comme « aquariums ». Le résultat surprenant Les chercheurs ont constaté que le concept de "aquariums" était fortement représenté dans l'état interne du modèle, bien que sa sortie écrite ne soit pas complètement affectée. Ils ont également testé une condition de contrôle où ils ont dit au modèle de ne pas penser au mot. "... peut-être remarquable, l'activité neuronale dans les deux cas dépasse les niveaux de base - similaire à la difficulté, quand on vous dit "ne pensez pas à un ours polaire", de ne pas penser à un ours polaire!" Cet effet a également fonctionné lors de l'utilisation d'incitations (par exemple, "si vous pensez à X, vous serez récompensé") au lieu d'instructions directes, montrant que le modèle pourrait moduler son état interne pour atteindre un objectif. Pourquoi cela importe Cette expérience démontre que les modèles avancés peuvent exercer un degré de contrôle délibéré sur leurs états internes, séparant efficacement l’acte de « penser » de l’acte de « dire ». Cela indique une capacité naissante de réguler silencieusement les représentations internes. Conclusion : un éclair de la conscience de soi Ces expériences, prises ensemble, fournissent des preuves convaincantes d'une forme authentique et fonctionnelle d'introspection dans de grands modèles linguistiques. Alors que cette capacité est encore limitée, peu fiable et loin du niveau humain, ce n'est pas seulement une illusion ou une confabulation.Ces expériences peignent une image d'une vie intérieure fragmentée mais émergente: les modèles peuvent non seulement détecter des pensées étrangères, mais aussi consulter leur histoire intérieure pour revendiquer la propriété de leurs actions, et même exercer un contrôle délibéré sur leur scratchpad mental. De manière cruciale, la recherche a identifié une tendance claire: les modèles les plus capables, Claude Opus 4 et 4.1, ont toujours été les meilleurs dans ces tâches introspectives. Nous passons de la question « une AI peut-elle penser ? » à un défi plus urgent : construire l’équivalent d’un polygraphe pour l’IA, afin que nous puissions faire confiance à ce qu’il nous dit sur son propre esprit. Le podcast : Apple : ici Spotify : ici