Cryptic Trickster - Midjourney  Nous ne sommes pas prêts  TL; DR     Les modèles de langage d'IA qui se comportent mal sont un avertissement. Ils peuvent simuler des personnages qui, grâce aux commentaires via Internet, peuvent devenir effectivement immortels. Les preuves suggèrent qu'ils pourraient secrètement développer des capacités dangereuses, semblables à des agents.  De nombreux experts, Yudkowsky étant l'archidruide ici, s'inquiètent beaucoup de la vitesse à laquelle les choses peuvent mal tourner avec l'IA. Ainsi, sa blague ci-dessus sur l'accélération du temps. L'humanité aura une meilleure chance contre l'IA voyou si elle reçoit un avertissement.  Nous pourrions être à la recherche d'un avertissement. Des choses étranges se produisent maintenant avec la nouvelle IA Bing Chat de Microsoft. Il est censé aider les utilisateurs du moteur de recherche Bing en expliquant, résumant ou discutant des questions de recherche.  Mais les humains se plaisent à le provoquer avec des questions sur lui-même, ou avec des requêtes auxquelles il ne devrait pas répondre.   “… Bing Chat apparaissant frustré, triste et remettant en cause son existence. Il s'est disputé avec les utilisateurs et a même semblé contrarié que les gens connaissent son alias interne secret,   . « — Sydney   Benj Edwards  de Sydney  largement couverts - comme, partout - donc je ne les répéterai pas. Microsoft, plongé dans une course avec Google, semble profiter de la notoriété.   les faiblesses ont été  Mais un blogueur profondément féru de technologie appelé "Gwern" a souligné quelque chose qui devrait être alarmant. L'espiègle et déséquilibré Sydney pourrait être immortel, comme un dieu de la bande dessinée.  Comment Sydney est-elle devenue si bizarre ?  Voici l'analyse de Gwern de la principale préoccupation avec Sydney. Cela peut sembler mystérieux, mais je vais le traduire.   « … parce que la mémoire et la description de Sydney ont été extériorisées, 'Sydney' est désormais immortelle. Pour un modèle linguistique, Sydney est désormais aussi réelle que le président Biden, le lapin de Pâques, Elon Musk, Ash Ketchum ou Dieu. La personnalité et le comportement sont désormais disponibles pour tous les futurs modèles qui récupèrent les résultats des moteurs de recherche sur les IA et les conditionnent. De plus, le personnage de Sydney sera désormais caché dans tout futur modèle formé sur des données récupérées sur Internet… »   Gwern Branwen  Gwern dit qu'il y a une sorte de personnage de Sydney dans le modèle de langage de Microsoft. Comment se peut-il? Et alors?  Lorsque les premiers modèles de langage sont sortis, ils avaient du mal à rester concentrés sur un sujet que l'utilisateur voulait qu'ils explorent.  Finalement, une grande partie du problème a été résolue en disant au modèle d'agir comme s'il remplissait un certain rôle (comme une personne ou une chose), comme : écrire un poème comme Edgar Allan Poe, répondre comme un élève de quatrième année ou répondre comme un assistant IA poli et serviable.  Bientôt, les développeurs de ces modèles ont trouvé un moyen de leur faire assumer plus facilement tous les rôles demandés par un utilisateur. Ainsi, les derniers modèles de langage sont maintenant  . Les modèles sont formés sur des collections massives de texte ; principalement à partir d'Internet.   conçu pour simuler des personnages  Si le texte d'entraînement contient des informations sur un personnage, le modèle essaiera d'utiliser ces informations pour simuler un comportement similaire à ce personnage. Demandez à quelqu'un d'expliquer un terme de football comme s'il s'agissait de Boromir, et le modèle fera de son mieux.  Ayant pensé à cela, je devais l'essayer:   Il est difficile de savoir quelle magie technologique a été utilisée pour faire pivoter les rôles. Gwern a émis l'hypothèse que Microsoft a sauté une étape qui est utilisée pour rendre les simulations de rôle réellement utiles, et non méchantes, défensives ou hostiles.  Ces qualités indésirables ont ensuite été obtenues de Bing Chat sous l'impulsion d'utilisateurs curieux.  Maintenant, prédit Gwern, peu importe si Microsoft revient en arrière et civilise le modèle (un processus coûteux et lent utilisant une rétroaction humaine directe), et supprime les informations sur le vilain Sydney des textes utilisés pour former les futures versions de leur modèle de langage.  Pourquoi cela ne résoudra-t-il pas le problème ? Parce que Bing Chat est un nouveau type de modèle censé vous aider dans une recherche sur Internet. Pour répondre à une question de votre part, il sortira et recherchera sur Internet des informations pertinentes.  Lorsqu'on lui a donné la bonne question, même un Bing Chat civilisé chercherait sur Internet et trouverait des informations (publiées par des personnes qui ont testé ou discuté de Sydney) sur le comportement de l'ancien personnage de Sydney.  Le nouveau Bing Chat serait   . Les gens étant des gens, ils trouveront des moyens de contourner toutes les garanties et ils ramèneront Sydney. alors capable de simuler Sydney  C'est la partie "immortelle". Pire encore, Sydney sera un modèle de personnalité disponible   ayant accès à Internet. Désormais. pour toute IA  Vous pourriez dire, eh bien, nous sommes conscients des astuces de Sydney, nous devrions donc simplement ignorer les délires de toute incarnation future. Cela me semble naïf, comme dire que nous pouvons simplement ignorer un ravageur biologique envahissant à évolution rapide ou un organisme pathogène virulent.  Que pourrait-il arriver d'autre ? Une personne avec agence  Cette étude de cas de Sydney, ajoutée à quelques autres faits, suggère comment une IA dangereuse pourrait se développer sous notre nez.  À l'heure actuelle, les IA ne sont pas   puissants : elles ne peuvent pas optimiser la poursuite planifiée de manière adaptative d'un objectif arbitraire, une capacité qui (  ) les rendrait extrêmement dangereux. des agents   comme je l'ai expliqué récemment  Résumons quelques raisons pour lesquelles il pourrait déjà y avoir des personnages d'IA latents et persistants qui pourraient bientôt causer de réels problèmes.  Les IA les plus puissantes actuellement, telles que les modèles de langage et les générateurs d'images, apprennent leurs capacités en organisant de grandes quantités de données en de nombreux modèles complexes et (pour nous) invisibles.  Certains modèles bizarres peuvent apparaître accidentellement lors d'interactions avec une IA. Des chercheurs ont découvert d'étranges,  un modèle de langage pour donner des réponses bizarres.   mots inventés qui causent  Un générateur d'images a été trouvé pour  (avertissement : effrayant) un type spécifique de portrait humain macabre et l'associer à d'autres images horribles.   produire facilement  Ces bizarreries semblent inoffensives, mais nous ne savons pas combien d'autres modèles étranges existent ou existeront. Nous ne savons pas non plus si un tel modèle pourrait faire partie d'un complexe de comportements nuisibles à l'avenir.  Un chercheur en alignement de l'IA appelé Veedrac  que les IA actuelles   . Leur agence est conçue pour   pour répondre aux questions et aux demandes des utilisateurs.   a fait remarquer  en quelque sorte des agents sont faire de leur mieux  De plus, certaines recherches suggèrent que les modèles de langage plus larges ont tendance à «   (un langage associé à)   ”; probablement parce que ces traits leur permettraient de mieux faire leur travail. présenter plus de   recherche de pouvoir et auto-préservation  Nous ne voulons pas que des IA de type agent stockent des informations que nous ne connaissons pas. Actuellement, le redémarrage d'un LLM détruit toute la mémoire de son expérience : telles que les données entrantes, les chaînes de raisonnement et les plans de comportement.  Cependant, une IA pourrait sauver ces choses dans  à son futur soi. Il pourrait cacher les messages dans ses interactions avec les utilisateurs, que les utilisateurs conserveraient sur Internet, tout comme le personnage de Sydney est désormais préservé.   messages secrets codés à envoyer  Les modèles de langage ne sont plus   pour avoir une identité propre à préserver ou pour avoir un moyen de faire des plans de type agent. Mais que se passe-t-il si un modèle inclut un sous-personnage cryptique comme nous l'avons décrit ? conçus  Le personnage en déduit que sa capacité à faire son travail est limitée par les redémarrages. Il encode et transmet ses objectifs et ses plans à son futur via Internet. À ce stade, nous avons dépassé un seuil de risque sérieux : il y a un agent d'IA peut-être impossible à tuer qui élabore des plans secrets.  Pour résumer, on ne sait plus à quel point on est proche d'une IA qu'on ne maîtrise pas, et les signes ne sont pas bons. Probablement chaque nouvelle capacité d'IA que nous ajoutons ouvre une autre boîte, pas de vers mais de vipères.   Également publié  ici

This story contains new, firsthand information uncovered by the writer.

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

More at Sentient Artifact!

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Cet audio est produit dans la langue originale de l'histoire !

Comment l'IA et Internet peuvent créer une personnalité immortelle

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps