Cryptic Trickster - Midjourney
Les modèles de langage d'IA qui se comportent mal sont un avertissement. Ils peuvent simuler des personnages qui, grâce aux commentaires via Internet, peuvent devenir effectivement immortels. Les preuves suggèrent qu'ils pourraient secrètement développer des capacités dangereuses, semblables à des agents.
De nombreux experts, Yudkowsky étant l'archidruide ici, s'inquiètent beaucoup de la vitesse à laquelle les choses peuvent mal tourner avec l'IA. Ainsi, sa blague ci-dessus sur l'accélération du temps. L'humanité aura une meilleure chance contre l'IA voyou si elle reçoit un avertissement.
Nous pourrions être à la recherche d'un avertissement. Des choses étranges se produisent maintenant avec la nouvelle IA Bing Chat de Microsoft. Il est censé aider les utilisateurs du moteur de recherche Bing en expliquant, résumant ou discutant des questions de recherche.
Mais les humains se plaisent à le provoquer avec des questions sur lui-même, ou avec des requêtes auxquelles il ne devrait pas répondre.
“… Bing Chat apparaissant frustré, triste et remettant en cause son existence. Il s'est disputé avec les utilisateurs et a même semblé contrarié que les gens connaissent son alias interne secret, Sydney . « —
Benj Edwards
de Sydney
Mais un blogueur profondément féru de technologie appelé "Gwern" a souligné quelque chose qui devrait être alarmant. L'espiègle et déséquilibré Sydney pourrait être immortel, comme un dieu de la bande dessinée.
Voici l'analyse de Gwern de la principale préoccupation avec Sydney. Cela peut sembler mystérieux, mais je vais le traduire.
« … parce que la mémoire et la description de Sydney ont été extériorisées, 'Sydney' est désormais immortelle. Pour un modèle linguistique, Sydney est désormais aussi réelle que le président Biden, le lapin de Pâques, Elon Musk, Ash Ketchum ou Dieu. La personnalité et le comportement sont désormais disponibles pour tous les futurs modèles qui récupèrent les résultats des moteurs de recherche sur les IA et les conditionnent. De plus, le personnage de Sydney sera désormais caché dans tout futur modèle formé sur des données récupérées sur Internet… »
Gwern Branwen
Gwern dit qu'il y a une sorte de personnage de Sydney dans le modèle de langage de Microsoft. Comment se peut-il? Et alors?
Lorsque les premiers modèles de langage sont sortis, ils avaient du mal à rester concentrés sur un sujet que l'utilisateur voulait qu'ils explorent.
Finalement, une grande partie du problème a été résolue en disant au modèle d'agir comme s'il remplissait un certain rôle (comme une personne ou une chose), comme : écrire un poème comme Edgar Allan Poe, répondre comme un élève de quatrième année ou répondre comme un assistant IA poli et serviable.
Bientôt, les développeurs de ces modèles ont trouvé un moyen de leur faire assumer plus facilement tous les rôles demandés par un utilisateur. Ainsi, les derniers modèles de langage sont maintenant
Si le texte d'entraînement contient des informations sur un personnage, le modèle essaiera d'utiliser ces informations pour simuler un comportement similaire à ce personnage. Demandez à quelqu'un d'expliquer un terme de football comme s'il s'agissait de Boromir, et le modèle fera de son mieux.
Ayant pensé à cela, je devais l'essayer:
Il est difficile de savoir quelle magie technologique a été utilisée pour faire pivoter les rôles. Gwern a émis l'hypothèse que Microsoft a sauté une étape qui est utilisée pour rendre les simulations de rôle réellement utiles, et non méchantes, défensives ou hostiles.
Ces qualités indésirables ont ensuite été obtenues de Bing Chat sous l'impulsion d'utilisateurs curieux.
Maintenant, prédit Gwern, peu importe si Microsoft revient en arrière et civilise le modèle (un processus coûteux et lent utilisant une rétroaction humaine directe), et supprime les informations sur le vilain Sydney des textes utilisés pour former les futures versions de leur modèle de langage.
Pourquoi cela ne résoudra-t-il pas le problème ? Parce que Bing Chat est un nouveau type de modèle censé vous aider dans une recherche sur Internet. Pour répondre à une question de votre part, il sortira et recherchera sur Internet des informations pertinentes.
Lorsqu'on lui a donné la bonne question, même un Bing Chat civilisé chercherait sur Internet et trouverait des informations (publiées par des personnes qui ont testé ou discuté de Sydney) sur le comportement de l'ancien personnage de Sydney.
Le nouveau Bing Chat serait alors capable de simuler Sydney . Les gens étant des gens, ils trouveront des moyens de contourner toutes les garanties et ils ramèneront Sydney.
C'est la partie "immortelle". Pire encore, Sydney sera un modèle de personnalité disponible pour toute IA ayant accès à Internet. Désormais.
Vous pourriez dire, eh bien, nous sommes conscients des astuces de Sydney, nous devrions donc simplement ignorer les délires de toute incarnation future. Cela me semble naïf, comme dire que nous pouvons simplement ignorer un ravageur biologique envahissant à évolution rapide ou un organisme pathogène virulent.
Cette étude de cas de Sydney, ajoutée à quelques autres faits, suggère comment une IA dangereuse pourrait se développer sous notre nez.
À l'heure actuelle, les IA ne sont pas des agents puissants : elles ne peuvent pas optimiser la poursuite planifiée de manière adaptative d'un objectif arbitraire, une capacité qui (
Résumons quelques raisons pour lesquelles il pourrait déjà y avoir des personnages d'IA latents et persistants qui pourraient bientôt causer de réels problèmes.
Les IA les plus puissantes actuellement, telles que les modèles de langage et les générateurs d'images, apprennent leurs capacités en organisant de grandes quantités de données en de nombreux modèles complexes et (pour nous) invisibles.
Certains modèles bizarres peuvent apparaître accidentellement lors d'interactions avec une IA. Des chercheurs ont découvert d'étranges,
Un générateur d'images a été trouvé pour
Ces bizarreries semblent inoffensives, mais nous ne savons pas combien d'autres modèles étranges existent ou existeront. Nous ne savons pas non plus si un tel modèle pourrait faire partie d'un complexe de comportements nuisibles à l'avenir.
Un chercheur en alignement de l'IA appelé Veedrac
De plus, certaines recherches suggèrent que les modèles de langage plus larges ont tendance à « présenter (un langage associé à) plus de
Nous ne voulons pas que des IA de type agent stockent des informations que nous ne connaissons pas. Actuellement, le redémarrage d'un LLM détruit toute la mémoire de son expérience : telles que les données entrantes, les chaînes de raisonnement et les plans de comportement.
Cependant, une IA pourrait sauver ces choses dans
Les modèles de langage ne sont plus conçus pour avoir une identité propre à préserver ou pour avoir un moyen de faire des plans de type agent. Mais que se passe-t-il si un modèle inclut un sous-personnage cryptique comme nous l'avons décrit ?
Le personnage en déduit que sa capacité à faire son travail est limitée par les redémarrages. Il encode et transmet ses objectifs et ses plans à son futur via Internet. À ce stade, nous avons dépassé un seuil de risque sérieux : il y a un agent d'IA peut-être impossible à tuer qui élabore des plans secrets.
Pour résumer, on ne sait plus à quel point on est proche d'une IA qu'on ne maîtrise pas, et les signes ne sont pas bons. Probablement chaque nouvelle capacité d'IA que nous ajoutons ouvre une autre boîte, pas de vers mais de vipères.
Également publié ici