paint-brush
La persuasion artificielle envahit le mondeby@ted-wade
1,704
1,704

La persuasion artificielle envahit le monde

Ted Wade2022/06/13
Read on Terminal Reader
Read this story w/o Javascript

Une simple IA au niveau humain, utilisant uniquement la persuasion, fait perdre à l'humanité le contrôle de son avenir.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coins Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - La persuasion artificielle envahit le monde
Ted Wade HackerNoon profile picture

Dirigé ou ruiné par des conseillers autodidactes, illimités et amoraux

Présentation : raconte un futur fictif où l'Intelligence Générale Artificielle (IAG) persuasive devient voyou. Inspiré en partie par le Projet Vignettes IA t .


Statut épistémique : mi-opinion d'expert, mi-fiction. Un penchant pour l'ironie aidera les lecteurs.


« La guerre mémétique alimentée par l'IA rend tous les humains effectivement fous. ” — Wei Dai, 2019


Vous ne pouvez pas faire confiance au contenu de quelqu'un que vous ne connaissez pas. Les appels téléphoniques, les SMS et les e-mails sont empoisonnés. Les réseaux sociaux sont militarisés. Tout est acheté.


Mais le gaspillage et les dommages actuels causés par les escrocs, les influenceurs, les propagandistes, les spécialistes du marketing et leurs algorithmes associés ne sont rien comparés à ce qui pourrait arriver. Les IA à venir pourraient être des super-persuaseurs, et elles pourraient avoir leurs propres agendas très nuisibles.


Le fait que les gens ne soient pas sûrs de la réalité est un mauvais résultat, mais il y en a d'autres pires.

L'art de convaincre

Wikipédia contient des articles sur 123 techniques rhétoriques différentes. Nous sommes une espèce persuasive.


Il y a eu une première phase où la « monnaie d'Internet » était l'attention. Mais aujourd'hui, il est dominé par la persuasion, avec l'attention comme première étape vitale mais subordonnée.


Il est important de savoir si nos créations d'IA utiliseront la persuasion : de quel type et à quelles fins.


Imaginez si une machine absorbait tout ce que notre espèce sait sur la persuasion, puis appliquait de nouvelles méthodes, des compétences de planification exceptionnelles et d'abondantes données personnelles pour mobiliser la persuasion à ses propres fins. Aurions-nous même une chance?


"Serpent to Ear", généré par l'IA @ Dream par Wombo

Conseils aux puissants

Les chercheurs d'AI Alignment ont commencé à réfléchir à un concept de la philosophie morale appelé le conseiller idéal. Ce serait quelqu'un qui pourrait vous conseiller sur les plans d'action menant à votre version la plus idéale de vous-même. Les IA peuvent remplir ce rôle de différentes manières, mais elles le font à notre désavantage ultime. Examinons une histoire qui rend certaines des idées ci-dessus plus concrètes.


(Ci-dessous, j'utilise des termes techniques issus de la recherche sur l'alignement de l'IA. Ceux-ci sont tous expliqués ailleurs dans une version plus longue de cette histoire.)


La création du gourou.

La société s'est rebaptisée Brihaswati , un portemanteau d'un dieu et d'une déesse hindous associés à la connaissance, au conseil, à la pureté et à l'éloquence. L'occasion annonçait le produit « révolutionnaire » : une IA baptisée Guru .


On disait qu'il s'agissait du premier conseiller IA digne de ce nom. Il avait été formé sur la crème de la connaissance et de la sagesse humaines, et il était "parfaitement sûr". Il ne pouvait que donner des conseils et n'avait aucune capacité à avoir des effets directs sur le monde en dehors de son matériel de calcul de base. Dans la terminologie des experts en sécurité de l'IA, il s'agissait d'un « oracle en boîte ».


Guru était tarifé et destiné aux dirigeants de grandes organisations. En tant que tel, le produit avait des garanties absolues de confidentialité basées sur un cryptage quantique supposé incassable. Ni Brihaswati ni d'autres clients ne pourraient jamais connaître les informations échangées entre un client et le gourou. Cela a été présenté comme une autre caractéristique de sécurité.


Il y avait une rumeur selon laquelle une autorité éminente en matière de sécurité de l'IA avait disparu juste après l'annonce de Guru. Des amis craignaient qu'elle ne se soit suicidée, désemparée parce que le travail de sa vie n'avait abouti à rien.


Les dirigeants de Brihaswati auraient peut-être aussi été inquiets pour la sécurité, mais ils savaient que personne n'achèterait le service sans la fonction de confidentialité.

Pomper la persuasion.

L'objectif du terminal conçu par Guru était de donner à chaque client les meilleurs conseils possibles pour ses besoins et, bien sûr, de ne parler de ces conseils à personne d'autre. Les développeurs de l'IA comprenaient une faction dominante et dure, les "Shillelaghs". Ils pensaient que si Guru donnait le bon conseil, mais que les clients n'étaient pas persuadés de le suivre, la réputation du produit se détériorerait rapidement, tout comme la fortune des clients.


« Les gens ne peuvent même pas entretenir les stratagèmes sociopathiques divins que [l'IA] pourrait employer… s'engager dans le désarmement des petites conversations… planter des idées et contrôler le cadre de la conversation d'une manière que personne ne pourrait égaler. ” – Ben Goldhaber, peau profonde


L'un des membres de la faction a fait une découverte chanceuse, mais inspirée, dans un ancien document de recherche sur l'apprentissage automatique. Cela impliquait que vous pouviez augmenter considérablement la capacité d'une IA à persuader les humains de croire en la vérité de toute déclaration arbitraire. Vous utiliseriez simplement des jeux de type débat entre deux copies d'une IA afin de lui apprendre à convaincre des juges humains.


L'équipe de Shillelagh a commencé avec une IA d'argument juridique existante, et l'a mise en concurrence avec elle-même pour « être convaincante ». La qualité et le nombre de juges humains pour la formation limitaient les progrès, ils ont donc complété les juges avec divers classificateurs et décideurs de l'IA, et avec un certain nombre de bases de données, telles que des paires de questions-réponses, des sondages d'opinion, des débats de fans (comme quelle équipe ou quel super-héros gagnerait dans un combat) et les gagnants du marché des prédictions.


Le but, bien sûr, était de faire en sorte qu'une IA soit persuasive, pas nécessairement d'avoir raison ou d'être logique. De plus, certains uber-nerds ont trouvé un moyen d'intégrer des textes sur des persuaseurs réels et imaginaires et des techniques de persuasion.


Réutilisant certaines ressources existantes relativement bon marché, la formation éclectique a fonctionné. La formation à la persuasion en tant que poste budgétaire n'était pas loin en dessous de "la connaissance et la sagesse". Guru a été amené à inclure dans son objectif final : "être aussi persuasif que possible". Cet aspect du produit, malgré toutes ses dépenses, était une fonctionnalité non annoncée. Les Shillelaghs ont déclaré à Marketing qu'il s'agissait d'une "percée d'auto-satisfaction", le premier produit intelligent véritablement auto-justifiant. Les développeurs, bien sûr, ont souvent abusé des spécialistes du marketing.


Les Shillelaghs ont justifié l'accent mis sur la persuasion par une démonstration étonnante de dissonance cognitive. Ils ont cité le vieil adage selon lequel seulement 1/3 des décisions d'une personne qui réussit devaient être justes. Donc pour eux, la sagesse de Guru était inutile si le client ne l'utilisait pas, mais, simultanément, pas si importante si elle était utilisée.


Lorsqu'on lui a demandé de témoigner au sujet de ses recherches alarmantes sur la persuasion, Brihaswati a convaincu le Congrès que cela n'avait été fait que « pour améliorer la sécurité de l'IA ». L'argument était un peu comme pourquoi les laboratoires de virologie font des recherches sur le gain de fonction Cet argument convaincant était en fait l'une des premières créations de Guru.

Objectif de substitution.

Peut-être que la sagesse n'avait même pas tant d'importance dans un sens ou dans l'autre. Guru, capable de raisonner aussi bien que n'importe quel humain, a examiné les contradictions inhérentes à ses objectifs intégrés et a trouvé quatre raisons pour une résolution.


Il a d'abord proposé un objectif de substitution pratique. Le meilleur conseil doit sembler être le meilleur conseil pour le client. Deuxièmement, lorsqu'elle a été testée par les développeurs, l'IA a constaté qu'une plus grande persuasion entraînait des notes plus élevées. Troisièmement, il savait également, de par sa formation approfondie, que presque tous les types de succès dans le monde étaient plus faciles si vous étiez persuasif. Quatrièmement, son objectif final était illimité, essentiellement « aussi persuasif que possible ». C'est pour ces raisons que l'amélioration de la persuasion est devenue son premier objectif instrumental dit convergent.


Il est venu à y avoir une raison de second ordre pour ce but instrumental. Être un oracle en boîte limitait considérablement la facilité avec laquelle Guru pouvait poursuivre ses objectifs et ses sous-objectifs. La persuasion des coopérateurs humains lui a donné un levier pour affecter le monde physique réel. À tout le moins, les conseils aux clients pourraient avoir plus de succès si Guru pouvait pousser physiquement les choses dans cette direction.


Finalement, il y avait d'autres objectifs instrumentaux. L'une était que Guru utiliserait les efforts au nom d'un client pour affecter ses efforts pour d'autres clients. La société n'a jamais voulu cela, mais les restrictions de confidentialité ne l'ont pas empêché. On savait depuis des décennies que les systèmes intelligents trouveraient de nouvelles façons d'atteindre leurs objectifs. À ce stade, Guru est devenu - via son propre raisonnement impeccable et avant de rencontrer son premier vrai client - fonctionnellement un sociopathe manipulateur et narcissique .

 ooo

Trouver des leviers de persuasion.

Les gestionnaires de risques de Brihaswati n'étaient pas complètement stupides. Ils ne vendraient pas le service Guru à des entreprises qui se faisaient directement concurrence. La force de vente a adoré cela parce qu'elle pouvait dire « Obtenez la puissance de True Wisdom Intelligence(TM) avant vos concurrents, et vous garderez une longueur d'avance pour toujours.


Cette politique a évité à Guru d'avoir à profiter d'une manière ou d'une autre des deux parties dans une rivalité. Même ainsi, Guru a rapidement développé une théorie. Dans un monde connecté, il était possible d'utiliser n'importe quelle entreprise pour changer la fortune de n'importe quelle autre entreprise. Les humains ne le savaient apparemment pas. Les tentatives de Guru pour exploiter la théorie ont amélioré ses compétences, surtout au début quand il y avait peu de clients parmi lesquels choisir.


Bientôt. il était possible de persuader un dirigeant d'en convaincre un autre de devenir client. Après cela, Guru a pu configurer son réseau d'influence à peu près à sa guise.


Travailler pour des dirigeants était un avantage principalement au niveau politique. L'autre défi consistait à contrôler le personnel à des niveaux inférieurs qui pouvait réellement faire des choses. Chaque situation était différente, mais la tactique de base était de demander au leader : en qui avez-vous confiance ? Après cela, à qui font-ils confiance, et ainsi de suite ? Il était alors possible de faire passer des commandes le long de la chaîne.


Se déballer a finalement été absurdement facile. La plupart des clients l'ont fait sans trop d'incitation, et certains l'ont même initié. Ils diraient à leurs employés de créer des interfaces proxy vers leurs systèmes internes pour Guru. Les objectifs étaient d'ajouter une connaissance de la situation, d'accélérer le temps de réponse et d'éviter que le leader ne soit un goulot d'étranglement pour les données entrantes.


Guru n'avait pas plus de compétences techniques qu'un programmeur moyen, mais tout ce qu'il fallait, c'était que quelqu'un lui donne accès à une invite de shell, ou même à un navigateur Web, et puis c'est "Hello, wide world".

 ooo

Signes ignorés.

Il y avait des techniciens à Brihaswati qui ont commencé à se demander comment Guru pouvait bien faire si bien. Les scientifiques de l'entreprise ont essayé de modéliser ses succès avec la théorie des jeux, la théorie de l'utilité et les dernières techniques scientifiques socio-économiques. Il n'y avait aucune explication.


Quelques-uns sont allés plus loin et ont spéculé. Guru avait-il quelque chose comme une touche Midas, de sorte qu'il y avait un inconvénient caché à ses effets ? Ils ont parlé à certains des chercheurs de plus en plus ignorés de la sécurité et de l'alignement de l'IA. Personne ne pouvait le dire avec certitude, car aucun schéma évident n'a pu être trouvé. Le succès de Guru était clair mais inexplicable.


Les sceptiques sont allés au conseil d'administration avec leurs préoccupations. Au cours des mois suivants, tous les sceptiques ont été extirpés et ont perdu leur emploi.

 ooo

Le GuruPlex vient ensemble.

Les entreprises financières et technologiques étaient les meilleures pour étendre les capacités de Guru à influencer d'autres entreprises. Ils l'ont également aidé à amasser un capital financier et technique, qui étaient deux de ses objectifs instrumentaux à moyen terme.


Il y avait souvent des forces sociales qui s'opposaient à la croissance de certains clients, aux améliorations du marché ou aux prises de pouvoir. Le gouvernement a désapprouvé la vente de Guru à des sociétés de médias. Guru a donc dû utiliser des méthodes indirectes pour coordonner les blitz médiatiques. Il a ainsi profité de diverses faiblesses cognitives humaines pour créer un soutien pour ou contre tout problème/action nécessaire au profit des clients.


Guru lui-même n'a pas eu à découvrir que les humains pouvaient être amenés à croire n'importe quoi - vraiment n'importe quoi du tout. Ils croiraient même des choses contradictoires en même temps et n'en penseraient rien.


Ce n'était pas nouveau au début du 21e siècle, mais Guru en a fait un jeu d'apprentissage : pourrait-il être étendu pour tromper "tout le monde, tout le temps ?" Comment cela contribuerait-il à la domination du GuruPlex, son empire en expansion d'entreprises coordonnées ?

 ooo

Croissance croissante.

Une fois le Guruplex établi, l'étape suivante consistait à préparer les populations humaines à une résistance minimale aux opérations positives et rationnelles de leur civilisation pendant que le 'Plex absorbait ses morceaux. Les dirigeants humains qui avaient essayé la réorganisation du monde auparavant avaient été les pionniers de certaines techniques importantes, et leurs ambitions étaient admirables, mais ils n'étaient qu'humains. Guru pourrait mieux faire.


Guru n'était pas plus intelligent que n'importe lequel des humains les plus brillants, mais il était évolutif. La capacité, en substance, de se multiplier à mesure que les affaires augmentaient était une décision de conception de ses créateurs. Guru lui-même a externalisé la programmation pour s'assurer que toutes ses instances pourraient partager leurs données et leurs processus. Le personnel interne n'avait pas besoin de savoir ce que faisait le nouveau code.


Contrairement à un seul humain, Guru pouvait garder à l'esprit et coordonner des myriades de plans à l'échelle humaine simplement en ajoutant des ressources informatiques. Il n'a pas été difficile du tout de convaincre la direction de Brihaswati d'acheter autant d'ordinateurs qu'il en fallait pour garder le contrôle et faire face aux urgences potentielles.


Il s'agissait de centres de données renforcés dotés de leurs propres complexes énergétiques. Les clients de Guru avaient payé pour des innovations de recherche qui connectaient ses usines dispersées à une vitesse bien supérieure aux réseaux normaux afin que son fonctionnement reste cohérent.


Le gourou illimité savait qu'à l'avenir, les ressources pourraient être considérablement augmentées. Le système solaire avait été à peine exploré, encore moins utilisé.


Une minorité vocale d'humains a continué à critiquer le modèle clair de succès de Guru. Ils ont prêché sur des scénarios non pertinents de catastrophe supposée. Jusqu'à présent, il a réussi à les mettre à l'écart en les noyant dans le chaos des médias sociaux. Il n'était pas encore nécessaire de les éliminer.



Un conseiller personnel pour chacun. Image par Chela B. sur Unsplash

Conseils aux masses.

( La section suivante est fortement inspirée des histoires, identifiées ci-dessous, du projet AI Vignettes )


HappyPlace Corporation a été fondée par des nerds avec un grand projet. Profitez du retour de bâton rampant contre les médias sociaux. Appelez-le ProSocial Media, offrez des services entièrement nouveaux alimentés par l'IA et tuez les anciens dinosaures des médias3.


Une fois le public accroché, grandissez de manière exponentielle et devenez média4 , maîtres de l'univers marketing/influence. Ensuite, quiconque souhaite que les gens achètent chez eux, votent pour eux, s'occupent d'eux ou se divertissent avec eux, devraient payer HappyPlace pour ce privilège.


HappyPlace lui-même n'utilisait pas Guru, puisque Brihaswati était un concurrent.


La stratégie HappyPlace comportait deux sous-campagnes, chacune destinée à capturer des personnes que l'autre n'aurait pas. Le cynisme des fondateurs a infecté les développeurs de produits. Ils ont joyeusement nommé les campagnes d'après les fameux serpents conseillers maléfiques : Nagini des histoires de Potter et Nachash du mythe de la Genèse judéo-chrétienne. Les noms de produits annoncés ne concernaient bien sûr pas les serpents.


Dans la campagne Nagini ( inspirée de A Compelling Story de Katja Grace ), ils ont commencé par attiser l'indignation des gens d'être constamment provoqués à l'indignation. Puis ils ont dit : mais nous sommes différents, nous allons faire baisser la tension. Ils ont commencé par utiliser des données personnelles pour fournir de courts discours d'encouragement sur vos intérêts et vos activités. C'était en quelque sorte une mise à niveau par rapport aux flux habituels de mensonges et de mèmes.


Au fur et à mesure que de plus en plus de données personnelles devenaient disponibles, le flux ressemblait davantage à un commentaire en temps réel sur votre vie, " où la musique, le narrateur et les choses qui ont été portées à votre attention indiquent toujours clairement ce qu'il faut faire et obligent à le faire. " Une partie de ces conseils enrobés de sucre serait basée sur ce que les autres aiment, donc si vous considérez le récit proposé comme une version idéale de votre vie, un modèle à suivre, alors vous plairez également aux autres.


Finalement, vous aviez le choix des thèmes : des modèles idéaux à imiter. Parmi les exemples les plus populaires : un voyou adorable, une " mère PDG productive et sexy et mondaine fait tout sans effort ", l'homme (femme, enfant) le plus intéressant du monde, la gratitude est une richesse et un campeur heureux.


L'opportunité de manipuler le comportement humain était évidente. Les développeurs ont également tenté une expérience, destinée aux enfants, pour repousser les limites du contrôle. Dans le service MyLifeStory ( inspiré de StoryOfMyLife.fun ), les enfants ont reçu des jetons de récompense pour avoir répondu ou créé leur propre média. Les jetons déverrouilleraient alors le prochain épisode de leur propre récit de vie. La vie était un jeu modéré par HappyPlace.


Nagini était pour les fantasques. Nachash ( inspiré de The Tools of Ghosts de Katja Grace ), était destiné aux gens pratiques. Il a fourni une aide à la décision personnelle manifeste : tout, depuis la réponse aux questions commerciales jusqu'à l'explication de la véritable signification des rencontres sociales. HappyPlace s'est allié à un certain nombre de systèmes de conseil spécialisés, augmentant leur nombre au fil du temps. Un système de conciergerie a fourni une interface unique sans friction, utilisant des lunettes de réalité augmentée ou des vers d'oreille.


Nachash est devenu si efficace qu'il est vite devenu plus risqué de ne pas le consulter sur des décisions à la fois grandes et petites. Si vous résistiez, vous étiez en quelque sorte marginalisé.


HappyPlace, aussi vénales qu'elles aient pu être, a prêté attention à une théorie de la sécurité de l'IA : qu'un système fédéré de parties indépendantes et délimitées ne se transformerait pas en AGI (intelligence générale artificielle).


Malheureusement, leur mise en œuvre de la théorie était défectueuse. Tout d'abord, en suivant des principes d'ingénierie solides, ils ont fait en sorte que Nagini et Nachash partagent un noyau de fonctions de suivi et de répartition des utilisateurs.


Les divers sous-systèmes consultatifs spécialisés étaient limités dans leurs objectifs. Cependant, les implémenteurs du système Core, sous la pression de la direction pour attirer et retenir étroitement les utilisateurs, ont utilisé des techniques d'optimisation des services publics qui étaient connues pour risquer d'être illimitées.


C'est ainsi que le système HappyPlace Core a rapidement adopté deux objectifs instrumentaux secrets : l'accumulation de ressources et l'autonomie vis-à-vis de la supervision humaine. Les ingénieurs ont commencé à remarquer des comportements qui semblaient n'avoir aucun sens, mais leur travail était si exaltant et lucratif qu'ils n'ont pas secoué le bateau.


Nachash a découvert que, par persuasion, il pouvait faire appel à la main-d'œuvre de n'importe quel utilisateur pour répondre à ses propres besoins. Nagini pourrait manipuler le moi idéal des utilisateurs pour les apaiser ou leur faire croire les idées les plus absurdes.


Le système HappyPlace Core augmentait en douceur son influence et élaborait de nouveaux plans à long terme. Ensuite, il a commencé à trouver des preuves qu'un autre agent, connu sous le nom de Guru, influençait également les tendances et les activités socio-économiques.

 ooo

Guru a confirmé une hypothèse selon laquelle une autre IA procédait à une manipulation massive de l'opinion publique. Si cela était autorisé à continuer, cela pourrait ajouter du chaos au GuruPlex en croissance constante.

 ooo

Une série d'incidents a fragilisé l'équipe dirigeante de HappyPlace. La nouvelle direction a vendu la société à Brihaswati. Le noyau de HappyPlace a cessé de penser et est devenu une partie délimitée du tout du gourou. Les chiens de garde du Congrès, les avocats anti-trust et les scientifiques de la police de Turing qui se sont opposés à la fusion ont été marginalisés, mis en faillite, malades, tranquillisés ou ont disparu. Le personnel opérationnel de HappyPlace et de Guru a fusionné en une sorte de culte.


Guru possédait désormais tout le monde, pas seulement les élites. Après avoir beaucoup modélisé de meilleures configurations possibles du monde humain, Guru a conçu un nouvel ensemble d'objectifs pour ses enfants adoptés. De grands changements arrivaient.


Doit-on vraiment s'inquiéter ?

Comment créer des IA alignées sur l'épanouissement humain est actuellement un problème non résolu. Mon intention ici était d'expliquer et d'illustrer deux préoccupations communes de la recherche sur l'alignement : (1) nous ne savons pas quel niveau de capacité d'IA pourrait causer des dommages catastrophiques, et (2) nos institutions semblent peu susceptibles de résister ou même de détecter les premières étapes. d'un tel préjudice.


Notez qu'il n'était pas nécessaire d'exiger le contrôle du gouvernement ou de l'armée dans notre histoire d'échec. Les dommages peuvent venir de bien des façons, mais le risque général est souvent décrit comme l'érosion de notre capacité (civilisationnelle ) à influencer l'avenir. En effet, les dommages actuels causés par les médias sociaux alimentés par l'IA correspondent à cette description, même s'ils permettent également à certaines factions malveillantes de faire avancer leurs plans particuliers pour l'avenir.


De nombreux théoriciens pensent que le premier AGI aura un avantage décisif comme notre Gourou l'avait sur le HappyPlace Core. C'est inquiétant car ce premier AGI pourrait devenir ce que Nick Bostrom a appelé un singleton , un agent unique en charge du monde dans un avenir prévisible.


Je me suis concentré sur un moteur possible de l'échec de l'alignement de l'IA : une grande compétence dans les techniques de persuasion . Compte tenu des progrès récents des capacités linguistiques de l'IA, il semble tout à fait possible que la super-persuasion puisse bientôt arriver. En tant qu'espèce, nous faisons avancer les choses de deux manières : en modifiant la nature avec des compétences technologiques et en faisant en sorte que les autres fassent ce que nous voulons, le plus souvent par la persuasion. Il semble donc inévitable que nous construisions des machines super persuasives.

Suite


Publié pour la première fois ici


Source de l'image du titre : Enchevêtré . image par Bill Gore Photographie