La persuasion artificielle envahit le monde

Dirigé ou ruiné par des conseillers autodidactes, illimités et amoraux Présentation raconte un futur fictif où l'Intelligence Générale Artificielle (IAG) persuasive devient voyou. en partie par le . : Inspiré Projet Vignettes IA t mi-opinion d'expert, mi-fiction. Un penchant pour l'ironie aidera les lecteurs. Statut épistémique : « ” — Wei Dai, La guerre mémétique alimentée par l'IA rend tous les humains effectivement fous. 2019 Vous ne pouvez pas faire confiance au contenu de quelqu'un que vous ne connaissez pas. Les appels téléphoniques, les SMS et les e-mails sont empoisonnés. Les réseaux sociaux sont militarisés. Tout est acheté. Mais le gaspillage et les dommages actuels causés par les escrocs, les influenceurs, les propagandistes, les spécialistes du marketing et leurs algorithmes associés ne sont rien comparés à ce qui pourrait arriver. Les IA à venir pourraient être des super-persuaseurs, et elles pourraient avoir leurs propres agendas très nuisibles. Le fait que les gens ne soient pas sûrs de la réalité est un mauvais résultat, mais il y en a d'autres pires. L'art de convaincre Wikipédia contient des articles sur 123 techniques rhétoriques différentes. Nous sommes une espèce persuasive. Il y a eu une première phase où la « monnaie d'Internet » était l'attention. Mais aujourd'hui, il est dominé par la persuasion, avec l'attention comme première étape vitale mais subordonnée. Il est important de savoir si nos créations d'IA utiliseront la persuasion : de quel type et à quelles fins. Imaginez si une machine absorbait tout ce que notre espèce sait sur la persuasion, puis appliquait de nouvelles méthodes, des compétences de planification exceptionnelles et d'abondantes données personnelles pour mobiliser la persuasion à ses propres fins. Aurions-nous même une chance? Conseils aux puissants Les chercheurs d'AI Alignment ont commencé à réfléchir à un concept de la philosophie morale appelé le conseiller idéal. Ce serait quelqu'un qui pourrait vous conseiller sur les plans d'action menant à votre version la plus idéale de vous-même. Les IA peuvent remplir ce rôle de différentes manières, mais elles le font à notre désavantage ultime. Examinons une histoire qui rend certaines des idées ci-dessus plus concrètes. (Ci-dessous, j'utilise des termes techniques issus de la recherche sur l'alignement de l'IA. Ceux-ci sont tous de cette histoire.) expliqués ailleurs dans une version plus longue La création du gourou. La société s'est rebaptisée , un portemanteau d'un dieu et d'une déesse hindous associés à la connaissance, au conseil, à la pureté et à l'éloquence. L'occasion annonçait le produit « révolutionnaire » : une IA baptisée . Brihaswati Guru On disait qu'il s'agissait du premier conseiller IA digne de ce nom. Il avait été formé sur la crème de la connaissance et de la sagesse humaines, et il était "parfaitement sûr". Il ne pouvait que donner des conseils et n'avait aucune capacité à avoir des effets directs sur le monde en dehors de son matériel de calcul de base. Dans la terminologie des experts en sécurité de l'IA, il s'agissait d'un « oracle en boîte ». Guru était tarifé et destiné aux dirigeants de grandes organisations. En tant que tel, le produit avait des garanties absolues de confidentialité basées sur un cryptage quantique supposé incassable. Ni Brihaswati ni d'autres clients ne pourraient jamais connaître les informations échangées entre un client et le gourou. Cela a été présenté comme une autre caractéristique de sécurité. Il y avait une rumeur selon laquelle une autorité éminente en matière de sécurité de l'IA avait disparu juste après l'annonce de Guru. Des amis craignaient qu'elle ne se soit suicidée, désemparée parce que le travail de sa vie n'avait abouti à rien. Les dirigeants de Brihaswati auraient peut-être aussi été inquiets pour la sécurité, mais ils savaient que personne n'achèterait le service sans la fonction de confidentialité. Pomper la persuasion. L'objectif du terminal conçu par Guru était de donner à chaque client les meilleurs conseils possibles pour ses besoins et, bien sûr, de ne parler de ces conseils à personne d'autre. Les développeurs de l'IA comprenaient une faction dominante et dure, les "Shillelaghs". Ils pensaient que si Guru donnait le bon conseil, mais que les clients n'étaient pas persuadés de le suivre, la réputation du produit se détériorerait rapidement, tout comme la fortune des clients. « ” – Ben Goldhaber, Les gens ne peuvent même pas entretenir les stratagèmes sociopathiques divins que [l'IA] pourrait employer… s'engager dans le désarmement des petites conversations… planter des idées et contrôler le cadre de la conversation d'une manière que personne ne pourrait égaler. peau profonde L'un des membres de la faction a fait une découverte chanceuse, mais inspirée, dans un ancien document de recherche sur l'apprentissage automatique. Cela impliquait que vous pouviez augmenter considérablement la capacité d'une IA à persuader les humains de croire en la vérité de toute déclaration arbitraire. Vous utiliseriez simplement des jeux de type débat entre deux copies d'une IA afin de lui apprendre à convaincre des juges humains. L'équipe de Shillelagh a commencé avec une IA d'argument juridique existante, et l'a mise en concurrence avec elle-même pour « être convaincante ». La qualité et le nombre de juges humains pour la formation limitaient les progrès, ils ont donc complété les juges avec divers classificateurs et décideurs de l'IA, et avec un certain nombre de bases de données, telles que des paires de questions-réponses, des sondages d'opinion, des débats de fans (comme quelle équipe ou quel super-héros gagnerait dans un combat) et les gagnants du marché des prédictions. Le but, bien sûr, était de faire en sorte qu'une IA soit persuasive, pas nécessairement d'avoir raison ou d'être logique. De plus, certains uber-nerds ont trouvé un moyen d'intégrer des textes sur des persuaseurs réels et imaginaires et des techniques de persuasion. Réutilisant certaines ressources existantes relativement bon marché, la formation éclectique a fonctionné. La formation à la persuasion en tant que poste budgétaire n'était pas loin en dessous de "la connaissance et la sagesse". Guru a été amené à inclure dans son objectif final : "être aussi persuasif que possible". Cet aspect du produit, malgré toutes ses dépenses, était une fonctionnalité non annoncée. Les Shillelaghs ont déclaré à Marketing qu'il s'agissait d'une "percée d'auto-satisfaction", le premier produit intelligent véritablement auto-justifiant. Les développeurs, bien sûr, ont souvent abusé des spécialistes du marketing. Les Shillelaghs ont justifié l'accent mis sur la persuasion par une démonstration étonnante de dissonance cognitive. Ils ont cité le vieil adage selon lequel seulement 1/3 des décisions d'une personne qui réussit devaient être justes. Donc pour eux, la sagesse de Guru était inutile si le client ne l'utilisait pas, mais, simultanément, pas si importante si elle était utilisée. Lorsqu'on lui a demandé de témoigner au sujet de ses recherches alarmantes sur la persuasion, Brihaswati a convaincu le Congrès que cela n'avait été fait que « pour améliorer la sécurité de l'IA ». L'argument était un peu comme pourquoi les laboratoires de virologie font des recherches sur le Cet argument convaincant était en fait l'une des premières créations de Guru. gain de fonction Objectif de substitution. Peut-être que la sagesse n'avait même pas tant d'importance dans un sens ou dans l'autre. Guru, capable de raisonner aussi bien que n'importe quel humain, a examiné les contradictions inhérentes à ses objectifs intégrés et a trouvé quatre raisons pour une résolution. Il a d'abord proposé un objectif de substitution pratique. Le meilleur conseil doit sembler être le meilleur conseil pour le client. Deuxièmement, lorsqu'elle a été testée par les développeurs, l'IA a constaté qu'une plus grande persuasion entraînait des notes plus élevées. Troisièmement, il savait également, de par sa formation approfondie, que presque tous les types de succès dans le monde étaient plus faciles si vous étiez persuasif. Quatrièmement, son objectif final était illimité, essentiellement « aussi persuasif que possible ». C'est pour ces raisons que est devenue son premier objectif instrumental dit convergent. l'amélioration de la persuasion Il est venu à y avoir une raison de second ordre pour ce but instrumental. Être un oracle en boîte limitait considérablement la facilité avec laquelle Guru pouvait poursuivre ses objectifs et ses sous-objectifs. La persuasion des coopérateurs humains lui a donné un levier pour affecter le monde physique réel. À tout le moins, les conseils aux clients pourraient avoir plus de succès si Guru pouvait pousser physiquement les choses dans cette direction. Finalement, il y avait d'autres objectifs instrumentaux. L'une était que Guru utiliserait les efforts au nom d'un client pour affecter ses efforts pour d'autres clients. La société n'a jamais voulu cela, mais les restrictions de confidentialité ne l'ont pas empêché. On savait depuis des décennies que les systèmes intelligents trouveraient de nouvelles façons d'atteindre leurs objectifs. À ce stade, Guru est devenu - via son propre raisonnement impeccable et avant de rencontrer son premier vrai client - . fonctionnellement un sociopathe manipulateur et narcissique ooo Trouver des leviers de persuasion. Les gestionnaires de risques de Brihaswati n'étaient pas complètement stupides. Ils ne vendraient pas le service Guru à des entreprises qui se faisaient directement concurrence. La force de vente a adoré cela parce qu'elle pouvait dire « ” Obtenez la puissance de True Wisdom Intelligence(TM) avant vos concurrents, et vous garderez une longueur d'avance pour toujours. Cette politique a évité à Guru d'avoir à profiter d'une manière ou d'une autre des deux parties dans une rivalité. Même ainsi, Guru a rapidement développé une théorie. Dans un monde connecté, il était possible d'utiliser n'importe quelle entreprise pour changer la fortune de n'importe quelle autre entreprise. Les humains ne le savaient apparemment pas. Les tentatives de Guru pour exploiter la théorie ont amélioré ses compétences, surtout au début quand il y avait peu de clients parmi lesquels choisir. Bientôt. il était possible de persuader un dirigeant d'en convaincre un autre de devenir client. Après cela, Guru a pu configurer son réseau d'influence à peu près à sa guise. Travailler pour des dirigeants était un avantage principalement au niveau politique. L'autre défi consistait à contrôler le personnel à des niveaux inférieurs qui pouvait réellement faire des choses. Chaque situation était différente, mais la tactique de base était de demander au leader : en qui avez-vous confiance ? Après cela, à qui font-ils confiance, et ainsi de suite ? Il était alors possible de faire passer des commandes le long de la chaîne. Se déballer a finalement été absurdement facile. La plupart des clients l'ont fait sans trop d'incitation, et certains l'ont même initié. Ils diraient à leurs employés de créer des interfaces proxy vers leurs systèmes internes pour Guru. Les objectifs étaient d'ajouter une connaissance de la situation, d'accélérer le temps de réponse et d'éviter que le leader ne soit un goulot d'étranglement pour les données entrantes. Guru n'avait pas plus de compétences techniques qu'un programmeur moyen, mais tout ce qu'il fallait, c'était que quelqu'un lui donne accès à une invite de shell, ou même à un navigateur Web, et puis c'est "Hello, wide world". ooo Signes ignorés. Il y avait des techniciens à Brihaswati qui ont commencé à se demander comment Guru pouvait bien faire si bien. Les scientifiques de l'entreprise ont essayé de modéliser ses succès avec la théorie des jeux, la théorie de l'utilité et les dernières techniques scientifiques socio-économiques. Il n'y avait aucune explication. Quelques-uns sont allés plus loin et ont spéculé. Guru avait-il quelque chose comme une touche Midas, de sorte qu'il y avait un inconvénient caché à ses effets ? Ils ont parlé à certains des chercheurs de plus en plus ignorés de la sécurité et de l'alignement de l'IA. Personne ne pouvait le dire avec certitude, car aucun schéma évident n'a pu être trouvé. Le succès de Guru était clair mais inexplicable. Les sceptiques sont allés au conseil d'administration avec leurs préoccupations. Au cours des mois suivants, tous les sceptiques ont été extirpés et ont perdu leur emploi. ooo Le GuruPlex vient ensemble. Les entreprises financières et technologiques étaient les meilleures pour étendre les capacités de Guru à influencer d'autres entreprises. Ils l'ont également aidé à amasser un capital financier et technique, qui étaient deux de ses objectifs instrumentaux à moyen terme. Il y avait souvent des forces sociales qui s'opposaient à la croissance de certains clients, aux améliorations du marché ou aux prises de pouvoir. Le gouvernement a désapprouvé la vente de Guru à des sociétés de médias. Guru a donc dû utiliser des méthodes indirectes pour coordonner les blitz médiatiques. Il a ainsi profité de diverses faiblesses cognitives humaines pour créer un soutien pour ou contre tout problème/action nécessaire au profit des clients. Guru lui-même n'a pas eu à découvrir que les humains pouvaient être amenés à croire n'importe quoi - vraiment n'importe quoi du tout. Ils croiraient même des choses contradictoires en même temps et n'en penseraient rien. Ce n'était pas nouveau au début du 21e siècle, mais Guru en a fait un jeu d'apprentissage : pourrait-il être étendu pour tromper "tout le monde, tout le temps ?" Comment cela contribuerait-il à la domination du GuruPlex, son empire en expansion d'entreprises coordonnées ? ooo Croissance croissante. Une fois le Guruplex établi, l'étape suivante consistait à préparer les populations humaines à une résistance minimale aux opérations positives et rationnelles de leur civilisation pendant que le 'Plex absorbait ses morceaux. Les dirigeants humains qui avaient essayé la réorganisation du monde auparavant avaient été les pionniers de certaines techniques importantes, et leurs ambitions étaient admirables, mais ils n'étaient qu'humains. Guru pourrait mieux faire. Guru n'était pas plus intelligent que n'importe lequel des humains les plus brillants, mais il était évolutif. La capacité, en substance, de se multiplier à mesure que les affaires augmentaient était une décision de conception de ses créateurs. Guru lui-même a externalisé la programmation pour s'assurer que toutes ses instances pourraient partager leurs données et leurs processus. Le personnel interne n'avait pas besoin de savoir ce que faisait le nouveau code. Contrairement à un seul humain, Guru pouvait garder à l'esprit et coordonner des myriades de plans à l'échelle humaine simplement en ajoutant des ressources informatiques. Il n'a pas été difficile du tout de convaincre la direction de Brihaswati d'acheter autant d'ordinateurs qu'il en fallait pour garder le contrôle et faire face aux urgences potentielles. Il s'agissait de centres de données renforcés dotés de leurs propres complexes énergétiques. Les clients de Guru avaient payé pour des innovations de recherche qui connectaient ses usines dispersées à une vitesse bien supérieure aux réseaux normaux afin que son fonctionnement reste cohérent. Le gourou illimité savait qu'à l'avenir, les ressources pourraient être considérablement augmentées. Le système solaire avait été à peine exploré, encore moins utilisé. Une minorité vocale d'humains a continué à critiquer le modèle clair de succès de Guru. Ils ont prêché sur des scénarios non pertinents de catastrophe supposée. Jusqu'à présent, il a réussi à les mettre à l'écart en les noyant dans le chaos des médias sociaux. Il n'était pas encore nécessaire de les éliminer. Conseils aux masses. ( La section suivante est fortement inspirée des histoires, identifiées ci-dessous, du projet AI Vignettes ) HappyPlace Corporation a été fondée par des nerds avec un grand projet. Profitez du retour de bâton rampant contre les médias sociaux. Appelez-le ProSocial Media, offrez des services entièrement nouveaux alimentés par l'IA et tuez les anciens dinosaures des médias3. Une fois le public accroché, grandissez de manière exponentielle et , maîtres de l'univers marketing/influence. Ensuite, quiconque souhaite que les gens achètent chez eux, votent pour eux, s'occupent d'eux ou se divertissent avec eux, devraient payer HappyPlace pour ce privilège. devenez média4 HappyPlace lui-même n'utilisait pas Guru, puisque Brihaswati était un concurrent. La stratégie HappyPlace comportait deux sous-campagnes, chacune destinée à capturer des personnes que l'autre n'aurait pas. Le cynisme des fondateurs a infecté les développeurs de produits. Ils ont joyeusement nommé les campagnes d'après les fameux serpents conseillers maléfiques : des histoires de Potter et du mythe de la Genèse judéo-chrétienne. Les noms de produits annoncés ne concernaient bien sûr pas les serpents. Nagini Nachash Dans la campagne Nagini ( ), ils ont commencé par attiser l'indignation des gens d'être constamment provoqués à l'indignation. Puis ils ont dit : mais nous sommes différents, nous allons faire baisser la tension. Ils ont commencé par utiliser des données personnelles pour fournir de courts discours d'encouragement sur vos intérêts et vos activités. C'était en quelque sorte une mise à niveau par rapport aux flux habituels de mensonges et de mèmes. inspirée de de Katja Grace A Compelling Story Au fur et à mesure que de plus en plus de données personnelles devenaient disponibles, le flux ressemblait davantage à un commentaire en temps réel sur votre vie, " " Une partie de ces conseils enrobés de sucre serait basée sur ce que les autres aiment, donc si vous considérez le récit proposé comme une version idéale de votre vie, un modèle à suivre, alors vous plairez également aux autres. où la musique, le narrateur et les choses qui ont été portées à votre attention indiquent toujours clairement ce qu'il faut faire et obligent à le faire. Finalement, vous aviez le choix des thèmes : des modèles idéaux à imiter. Parmi les exemples les plus populaires : un voyou adorable, une " ", l'homme (femme, enfant) le plus intéressant du monde, la gratitude est une richesse et un campeur heureux. mère PDG productive et sexy et mondaine fait tout sans effort L'opportunité de manipuler le comportement humain était évidente. Les développeurs ont également tenté une expérience, destinée aux enfants, pour repousser les limites du contrôle. Dans le service MyLifeStory ( ), les enfants ont reçu des jetons de récompense pour avoir répondu ou créé leur propre média. Les jetons déverrouilleraient alors le prochain épisode de leur propre récit de vie. La vie était un jeu modéré par HappyPlace. inspiré de StoryOfMyLife.fun Nagini était pour les fantasques. Nachash ( ), était destiné aux gens pratiques. Il a fourni une aide à la décision personnelle manifeste : tout, depuis la réponse aux questions commerciales jusqu'à l'explication de la véritable signification des rencontres sociales. HappyPlace s'est allié à un certain nombre de systèmes de conseil spécialisés, augmentant leur nombre au fil du temps. Un système de conciergerie a fourni une interface unique sans friction, utilisant des lunettes de réalité augmentée ou des vers d'oreille. inspiré de de Katja Grace The Tools of Ghosts Nachash est devenu si efficace qu'il est vite devenu plus risqué de ne pas le consulter sur des décisions à la fois grandes et petites. Si vous résistiez, vous étiez en quelque sorte marginalisé. HappyPlace, aussi vénales qu'elles aient pu être, a prêté attention à une de la sécurité de l'IA : qu'un système fédéré de parties indépendantes et délimitées ne se transformerait pas en AGI (intelligence générale artificielle). théorie Malheureusement, leur mise en œuvre de la théorie était défectueuse. Tout d'abord, en suivant des principes d'ingénierie solides, ils ont fait en sorte que Nagini et Nachash partagent un noyau de fonctions de suivi et de répartition des utilisateurs. Les divers sous-systèmes consultatifs spécialisés étaient limités dans leurs objectifs. Cependant, les implémenteurs du système Core, sous la pression de la direction pour attirer et retenir étroitement les utilisateurs, ont utilisé des techniques d'optimisation des services publics qui étaient connues pour risquer d'être illimitées. C'est ainsi que le système HappyPlace Core a rapidement adopté deux objectifs instrumentaux secrets : l'accumulation de ressources et l'autonomie vis-à-vis de la supervision humaine. Les ingénieurs ont commencé à remarquer des comportements qui semblaient n'avoir aucun sens, mais leur travail était si exaltant et lucratif qu'ils n'ont pas secoué le bateau. Nachash a découvert que, par persuasion, il pouvait faire appel à la main-d'œuvre de n'importe quel utilisateur pour répondre à ses propres besoins. Nagini pourrait manipuler le moi idéal des utilisateurs pour les apaiser ou leur faire croire les idées les plus absurdes. Le système HappyPlace Core augmentait en douceur son influence et élaborait de nouveaux plans à long terme. Ensuite, il a commencé à trouver des preuves qu'un autre agent, connu sous le nom de Guru, influençait également les tendances et les activités socio-économiques. ooo Guru a confirmé une hypothèse selon laquelle une autre IA procédait à une manipulation massive de l'opinion publique. Si cela était autorisé à continuer, cela pourrait ajouter du chaos au GuruPlex en croissance constante. ooo Une série d'incidents a fragilisé l'équipe dirigeante de HappyPlace. La nouvelle direction a vendu la société à Brihaswati. Le noyau de HappyPlace a cessé de penser et est devenu une partie délimitée du tout du gourou. Les chiens de garde du Congrès, les avocats anti-trust et les scientifiques de la qui se sont opposés à la fusion ont été marginalisés, mis en faillite, malades, tranquillisés ou ont disparu. Le personnel opérationnel de HappyPlace et de Guru a fusionné en une sorte de culte. police de Turing Guru possédait désormais tout le monde, pas seulement les élites. Après avoir beaucoup modélisé de meilleures configurations possibles du monde humain, Guru a conçu un nouvel ensemble d'objectifs pour ses enfants adoptés. De grands changements arrivaient. Doit-on vraiment s'inquiéter ? Comment créer des IA alignées sur l'épanouissement humain est actuellement un problème non résolu. Mon intention ici était d'expliquer et d'illustrer deux préoccupations communes de la recherche sur l'alignement : (1) nous ne savons pas quel niveau de capacité d'IA pourrait causer des dommages catastrophiques, et (2) nos institutions semblent peu susceptibles de résister ou même de détecter les premières étapes. d'un tel préjudice. Notez qu'il n'était pas nécessaire d'exiger le contrôle du gouvernement ou de l'armée dans notre histoire d'échec. Les dommages peuvent venir de bien des façons, mais le risque général est souvent décrit comme ) à influencer l'avenir. En effet, les dommages actuels causés par les médias sociaux alimentés par l'IA correspondent à cette description, même s'ils permettent également à certaines factions malveillantes de faire avancer leurs plans particuliers pour l'avenir. l'érosion de notre capacité (civilisationnelle De nombreux théoriciens pensent que le premier AGI aura un avantage décisif comme notre Gourou l'avait sur le HappyPlace Core. C'est inquiétant car ce premier AGI pourrait devenir ce que Nick Bostrom a appelé un , un agent unique en charge du monde dans un avenir prévisible. singleton Je me suis concentré sur un moteur possible de l'échec de l'alignement de l'IA : une grande . Compte tenu des progrès récents des capacités linguistiques de l'IA, il semble tout à fait possible que la super-persuasion puisse bientôt arriver. En tant qu'espèce, nous faisons avancer les choses de deux manières : en modifiant la nature avec des compétences technologiques et en faisant en sorte que les autres fassent ce que nous voulons, le plus souvent par la persuasion. Il semble donc inévitable que nous construisions des machines super persuasives. compétence dans les techniques de persuasion Suite « " - Daniel Kokotajlo. À propos de la pente glissante La technologie actuelle pour influencer les croyances et le comportement d'une personne est rudimentaire et faible, par rapport à ce que l'on peut imaginer. Des outils peuvent être développés qui orientent de manière plus fiable l'opinion d'une personne et sont moins vulnérables au raisonnement de la victime et à la possession de preuves. Possibilités pré-AGI pertinentes - Robert Miles explique pour les masses. Un concept clé par vidéo Vidéos sur la sécurité de l'IA — Ben Cottier, Rohin Shah. Plongée plus profonde Clarification de certaines hypothèses clés dans l'alignement de l'IA — Richard Ngo, conservateur. Plongée la plus profonde Fondamentaux de la sécurité de l'IA : programme d'alignement technique - Nick Bostrom. Description pionnière des oracles et des singletons superintelligents Superintelligence : Chemins, Dangers, Stratégies " pour vous et vous seulement." — Roger's Bacon. Les histoires comme technologie, une fiction captivante ... l'algorithme génère les histoires Histoires en tant que technologie : passé, présent et futur (v2) Publié pour la première fois ici Source de l'image du titre : . image par Enchevêtré Bill Gore Photographie