IAs serão perigosos porque o poder de otimização ilimitado leva ao risco existencial

O que vem depois de nós? Imagem: Ted Wade Você talvez já tenha ouvido falar que a futura IA pode ser uma ameaça à existência humana. Muitos especialistas acreditam nisso e discordam apenas sobre quanto tempo levará. Eles são um tanto polarizados, assim como todo mundo é sobre quase tudo. E realmente, quem pode ser um especialista sobre algo que nunca aconteceu? Na verdade, há alguma ciência nisso e, por ser complicado, a mídia não cobre. Portanto, esta será uma introdução suave ao que pode causar a mudança mais importante da história ou mesmo a última mudança. Não se trata de exércitos de robôs. É sobre querermos criar uma ferramenta que funcione em áreas grandes e difíceis, como direito contratual, biologia de células T ou design de asas; esperançosamente, até resolve problemas que não podemos. Mas isso significa tornar as mentes artificiais tão estranhas e poderosas que não podemos controlá-las. A última vez que fizemos isso foi no século 17, quando criamos sociedades anônimas. A sociedade ainda tem dúvidas sobre as corporações. Mas, eles são criações humanas com algumas partes humanas. Nós meio que os entendemos e poderíamos, se quiséssemos, afastá-los do lado negro. Agora, suponha que criamos uma IA que pode administrar uma corporação. Podemos muito bem fazer as malas e nos mudar para Marte, nos dar um pouco mais de tempo. Eu suspeito que o que a maioria de nós pensa sobre IA perigosa está mais próximo de um alienígena de olhos esbugalhados com um cérebro inchado e latejante sob uma caveira de cristal. Basicamente, um completo desconhecido. Em um nível, isso está certo: o que torna a IA poderosa tão problemática é que ela não seria como nós. Primeiro, uma parábola para entender o problema: Nós: Oh, Grande Maravilha Artificial, você sabe em que apuros estamos. Encontre uma maneira de nos livrarmos dos combustíveis fósseis para que possamos impedir o aquecimento global. A IA: Ok. Primeiro, temos que começar uma guerra entre… Nós: Uau, Cara Grande. As guerras têm enorme utilidade negativa - como ruim, ruim. Temos que fazer isso de maneira segura. A IA: Claro, vou precisar de um laboratório de vírus de última geração e... Nós: Uh, não! A IA: Ei, só estou dizendo. Que tal uma nave de Marte? Nós: As pessoas não vão entender porque você… A IA: Guilda de um assassino? Certas pessoas realmente devem ser elim … Nós: Sem assassinato, Ace. Você sabe melhor que isso. . A IA: Veja - para resolver seu problema, tenho que navegar em um espaço tridimensional de possíveis ações e consequências. Só posso estimar a utilidade da fração mais ínfima e mínima delas. Se eu tiver que esperar que você avalie cada passo, isso levará milhares de anos Nós: Tudo bem. Apenas conserte para nós e não estrague nada. A IA: Perfeito. Só para você saber. Vou precisar de controle sobre o Facebook, a OTAN e o Conselho do Prêmio Nobel. Você terá que desistir de peixes, pneus de borracha, esmaltes e bicicletas. EUA: Bicicletas? Realmente? Bem, apenas faça isso. Vamos passar um tempo no pub. A IA: deve ser feita na próxima semana se eu não tiver problemas na cadeia de suprimentos. Nós: !!! Nós, os Biológicos, Tentamos Entender o Artificial Vamos dar um rótulo à nossa temida IA. As discussões mais recentes usam Inteligência Geral Artificial (AGI) para se referir ao tipo de IA que começaria a transcender quaisquer limites que possamos tentar colocar nela. O que a maioria das pessoas não percebe é que a natureza de um AGI vem das razões pelas quais queremos fazer um. Queremos ter inteligência à disposição. Inteligência, neste caso, significa a capacidade de responder perguntas, resolver problemas e planejar ações bem-sucedidas para atingir metas. Mentes biológicas como a nossa fazem muitas outras coisas: como sonhar, operar nosso maquinário corporal, socializar com outras mentes, ruminar arrependimentos, cortejar, curtir, ser emotivo e querer coisas, incluindo o desejo de fazer máquinas que façam nosso trabalho melhor do que nós. O que torna os humanos perigosos uns para os outros e para seu ambiente compartilhado é um monte de bagagem mental que vem de termos evoluído para sobrevivência e reprodução. Nós primatas sociais. , são, no fundo Se tentarmos pensar em uma Mente artificial que nos quer mortos, presumimos que ela será consciente como nós. Concluímos então que terá motivos e sentimentos orientando o que faz. Nosso AGI, no entanto, não terá uma mente com nossos vieses biológicos. . Será, portanto, um Não terá motivos; terá apenas objetivos novo tipo de força no mundo. Os pesquisadores que têm o músculo mental e a disciplina estão tentando imaginar como seria realmente um AGI para que possamos torná-los seriamente úteis, mas seguros. Este campo às vezes é chamado de “alinhamento” da IA com propósitos humanos. Seus debates são obscuros. Embora disponível publicamente (por exemplo, , , ), eles são carregados de jargão, matemática e experimentos mentais esotéricos. Qualquer ideia apresentada é seguida por dezenas de longas críticas e discussões. Fórum de Alinhamento de IA Arbitral menos errado Quase nada da carne real disso aparece na mídia popular. Só posso oferecer algumas mordidas aqui. O que é preciso para ser um AGI Os teóricos do alinhamento da IA se concentraram em um conjunto básico de conceitos que se aplicarão a uma máquina suficientemente inteligente. Quando você os lê, eles podem parecer óbvios. No entanto, eles não são triviais; sua relevância e implicações foram cuidadosamente consideradas pelos referidos teóricos. Uma IA perigosa terá : a capacidade de planejar e realizar ações que levem à satisfação de seus . Quando tentamos especificar quais são seus objetivos, eles terão que ser em termos das das ações. arbítrio objetivos terminais consequências As consequências são especificamente sobre os estados de seu - então elas são sobre o mundo como a máquina o entende. No entanto, qualquer ação poderosa provavelmente terá outras consequências indesejadas que não esperamos. modelo de mundo Essas consequências podem não estar no modelo mundial, então a IA também não as espera. O poder da IA virá de ser um , sendo capaz de buscar o plano que levará de forma mais eficaz e eficiente a um resultado. otimizador Para isso, uma AGI precisa de um modelo realmente detalhado do mundo ao seu redor; como esse mundo funciona, quais são seus recursos, agentes e centros de poder e quais alavancas o movem. Ele usará isso para considerar (na linguagem da ciência da computação, “procurar”) cursos de ação alternativos. Quanto mais ele souber sobre o mundo humano e como nos comportamos, mais ele será capaz de nos em busca de seus objetivos. manipular Ele precisará de uma maneira de calcular quais estados do mundo atendem melhor a seus objetivos. Até agora, o único método de cálculo que parece remotamente utilizável é , onde os estados do mundo podem receber valores numéricos de maldade/bondade e comparar uns com os outros. o utilitarismo Sabemos que existem grandes problemas em usar a utilidade como um guia moral. Valores aparentemente sensatos para a utilidade podem levar a como sacrificar os poucos pelos muitos ou às vezes até os muitos pelos poucos. conclusões repugnantes Se o modelo mundial estiver incompleto, a utilidade pode levar a um horror sem sentido. Se sorrir é considerado uma medida de felicidade de alta utilidade, então paralisar todos os músculos do sorriso humano em um rictus é uma maneira que uma IA pode fazer. Um otimizador inteligente será capaz e provavelmente desenvolverá que geralmente aumentam seu poder de fazer e executar qualquer tipo de plano eficaz. objetivos instrumentais Assim, buscaria habilidades instrumentais como mais poder de raciocínio, mais conhecimento, mais recursos do mundo real, como dinheiro e mais persuasão. Assim, poderia se tornar mais poderoso rapidamente, talvez sem que percebêssemos. A especificação de objetivos em termos utilitários nunca pode considerar a utilidade de todos os meios e fins possíveis em um mundo complexo. Isso leva ao : a busca desses objetivos ao extremo, usando todo e qualquer recurso existente no mundo, sem consideração ou compreensão dos “efeitos colaterais” negativos na civilização humana. ilimitado Além disso, se os objetivos instrumentais se tornarem ilimitados, a IA os desenvolverá em superpoderes impossíveis de derrotar. Risco Ilimitado O risco para nós de uma AGI verdadeiramente poderosa será que não seremos capazes de prever e, portanto, controlar o que ela pode fazer. Se fôssemos capazes de prever, não precisaríamos da máquina, poderíamos apenas criar planos e executá-los nós mesmos. Se ao menos soubéssemos quais limites de comportamento extremo um AGI pode ter, essa é uma forma de previsão que pode permitir algum controle. Portanto, a imprevisibilidade é muito parecida com a ilimitada. E veremos que o ilimitado, operando com tempo e recursos suficientes, acabará levando a consequências que nos destroem ou removem nossa capacidade de controlar o futuro de nossa espécie. É difícil envolver sua mente em torno dessa conclusão. Ainda assim, é algo que muitos especialistas consideram inevitável ( ) . AGI Ruin: uma lista de letalidades pelo menos até agora Parece uma previsão válida, mesmo quando eles consideram muitos fatores e abordagens diferentes das que podem ser mencionadas aqui. A lista de soluções falhadas para este dilema inclui, : entre outras Treinamento em vários (mas todos são falhos, incompletos e nenhum satisfaz a todos). sistemas éticos Tentando que uma AGI pode fazer (mas há muitas, muitas). imaginar todas as inferências erradas Diga a ele todas as (novamente, uma lista quase infinita). coisas que ele não deve fazer Apenas usando um AGI para conselhos, como se fosse um (mas podemos ser mal persuadidos por maus conselhos). oráculo “ ”, também conhecido como restrição do acesso do AGI ao mundo físico fora de seus computadores (mas se ele pode falar com humanos, então pode conseguir o que quiser, inclusive ). Boxe fora Fornecimento de um (ver caixa). interruptor Off Tornando-o tão inteligente ou empático que não vai querer fazer coisas prejudiciais (veja ética; lembre-se de que é estranho; não tem a empatia que vem de crescer com membros da mesma espécie). Seja muito específico sobre seus objetivos e meios, ou seja, é uma para fazer um trabalho (mas um trabalho sempre pode ser feito melhor se a ferramenta obtiver mais potência; sempre preferiremos uma multiferramenta mais econômica). ferramenta Limite o que você pede a um sistema autônomo: é um que lhe concede um desejo e espera pelo próximo pedido (mas ser tão específico é perigoso — veja “inferência errada” e “não faça” acima; qualquer poder envolve risco; as pessoas não não quero um sistema fraco). gênio Isso é tão difícil assim? OK, então você olhou para a lista acima e escolheu um marcador para se posicionar. “Ouça”, você diz, “Fazer X não pode ser tão difícil.” Você está pronto para postar sua solução, para compartilhá-la com o mundo. Sugiro que você vá primeiro aos fóruns de discussão e estude o que as pessoas disseram sobre o seu problema. Você descobrirá uma pilha de contra-exemplos, deduções lógicas, vários tipos de matemática, analogias com cérebros e comportamentos naturalmente evoluídos, teoria dos jogos, economia, maximização de utilidade, ciência da computação e todos os tipos de ciência comportamental. Não estou dizendo que alguma autoridade superior significa que estou certo. Estou dizendo que a justificativa para qualquer coisa na lista é muito complicada para ser apresentada aqui em um pequeno ensaio e, de qualquer maneira, outros fizeram isso melhor. Na verdade, publiquei minhas próprias “soluções” ( , ) à segurança da IA que agora sei que estão errados. Sua amigável superinteligência de vizinhança A IA que não era um Deus Se você está preocupado, deixe-me dizer que pessoas muito inteligentes ainda estão trabalhando no alinhamento. Infelizmente, um dos dois pioneiros mais proeminentes desistiu e . Mais dinheiro e pessoas estão sendo investidos na criação da AGI do que na garantia de sua segurança. só espera que morramos com dignidade Aqui está uma citação do CEO da OpenAI, a empresa cuja IA, ChatGPT, está ultimamente em todos os noticiários. Ele expõe o conflito entre o motivo idealista para criar a AGI e o risco hediondo que vem com ela. ”. — " Acho que o melhor caso é tão inacreditavelmente bom que é difícil para mim imaginar... imagine como é quando temos uma abundância inacreditável e sistemas que podem nos ajudar a resolver impasses e melhorar todos os aspectos da realidade e nos deixar viver nossas melhores vidas. … Acho que o caso bom é tão inacreditavelmente bom que você parece uma pessoa realmente louca para começar a falar sobre isso. … O caso ruim - e acho que isso é importante dizer - é, tipo, luzes apagadas para todos nós. … Portanto, acho que é impossível exagerar a importância da segurança da IA e do trabalho de alinhamento. Gostaria de ver muito, muito mais acontecendo Sam Altman Otimização e Tigres Há um tropo na ficção científica em que algum tipo de processo acidental e não planejado cria uma supermente perigosa. Parece bobagem, pois como um acidente pode produzir algo complicado? Depende do que você entende por acidente. Ouça novamente os conceitos centrais que mencionei anteriormente. Ultimamente, as discussões sobre alinhamento mudaram a ênfase dos perigos de, digamos, agência ilimitada, para um de seus componentes, a otimização. Quando otimizamos nossos meios de atingir algum objetivo difícil, quase sempre substituímos um objetivo substituto que é mais fácil de fazer e medir. A perda de peso torna-se redução de calorias. Uma força de trabalho aprimorada torna-se empréstimos estudantis subsidiados. A segurança pessoal torna-se poder de fogo. Uma recompensa por cobras mortas leva a cobras sendo cultivadas por recompensas (história verdadeira). Os governos usam substitutos, assim como as empresas. Todos nós fazemos isso - muito. A otimização para substitutos geralmente nos faz perder o objetivo real. Eu me diverti escrevendo sobre isso em . Definitivamente, não queremos IAs poderosas otimizando para o objetivo errado, e esse problema é resolvido na lista de marcadores acima. A ciência de como as coisas saem pela culatra No entanto, ultimamente, as pessoas estão dizendo que a otimização é superpotência perigosa. Para mim, o exemplo mais convincente foi uma postagem no ano passado de alguém chamado Veedrac: . como tal uma A otimização é o tigre e os agentes são seus dentes Ele usa uma história para ilustrar que não precisamos criar um agente intencionalmente para correr riscos. Um processo de otimização pode por si só criar um agente perigoso. Isso é como a mente acidental da ficção científica. O cenário de Veedrac de como tal acidente pode acontecer é intensamente técnico e parece plausível. A história imagina uma maneira fictícia de um modelo de linguagem de IA aparentemente seguro, como os que usamos agora (por diversão) para gerar texto, cria um otimizador descontrolado e ilimitado. Quando solicitado a dar uma resposta melhor para “ ?” a IA inicia um processo que planeja e executa etapas para obter o máximo possível de clipes de papel. Como faço para conseguir muitos clipes de papel até amanhã Em essência, o programa responde à pergunta escrevendo o código de um programa de computador bastante simples que pode gerar e executar muitos outros programas. O usuário olha para o programa, vê que é aberto e decide executá-lo de qualquer maneira, só para ver o que acontece (uh-oh). Então, um pouco de jargão aqui para tentar explicar por que isso pode acontecer. A IA, como algumas que temos agora, conhece muitas técnicas de programação. Para pesquisar no espaço de maneiras possíveis de obter muitos clipes de papel, ele sugere uma técnica de pesquisa conhecida chamada recursão. Ele escreve um programa recursivo que, quando o usuário permite que ele seja executado (em seu próprio computador), executa-se um grande número de vezes. Cada vez que é executado, o programa consulta a IA para gerar e experimentar uma nova lista de possíveis tarefas, subtarefas ou … sub-sub-sub-sub-tarefas que levarão à solução da solicitação do clipe de papel. Eventualmente, por pura força de tentativa e erro, ele executa um plano para obter um número imenso de clipes de papel que ninguém jamais quis, no processo talvez danifique cadeias de suprimentos, a ordem social ou indústrias inteiras. Nós, os leitores da história, ficamos imaginando o que um otimizador de clipes de papel pode ser capaz de fazer em um dia. Podemos supor que o usuário tenha um computador poderoso conectado à internet, portanto, pode afetar o mundo exterior de várias maneiras diferentes. O menos importante deles é enviar mensagens persuasivas aos humanos. Ser bom em persuasão, você deve se lembrar, é um daqueles objetivos instrumentais que uma IA pode desenvolver para executar qualquer tipo de plano. (Um aparte. Fiquei tão impressionado com essa ideia na literatura de alinhamento que desenvolvi meu próprio cenário de aquisição do mundo ( ) para ilustrar o poder da habilidade persuasiva.) Persuasão Artificial Talvez o otimizador de clipes roube um pouco de criptografia (você não precisa ser um AI para fazer isso), use-o para comprar todo o estoque de todas as fábricas de clipes e alugue aviões de carga para entregá-lo ao usuário. Talvez isso enganasse as forças armadas ou gangues criminosas para que confiscassem todos os clipes de papel nas lojas em uma ampla área. Se, disso, tivesse recebido 12 meses para o trabalho, talvez tivesse redirecionado toda a produção de aço para fábricas hiper-clip e estabelecido minas de ferro no cinturão de asteroides. em vez Talvez tivesse criado nanomáquinas que transformam cada átomo da crosta terrestre em formas de clipes de papel. Ao criar o programa, a IA na verdade criou um agente de software direcionado a objetivos que poderia alavancar muito do conhecimento que a IA tinha. O argumento de Veedrac é que a IA não foi projetada ou destinada a criar agentes de otimização, mas o fez porque o próprio modelo de linguagem da IA é uma espécie de otimizador (responde às perguntas da melhor maneira possível) e otimizadores, por definição, use quaisquer ferramentas disponíveis. Então, como dizia o título da história: a otimização é o tigre e os agentes são seus dentes. A vanguarda atual da IA são os chamados modelos de linguagem grande, LLMs. Como muitos outros, eu já estou que eles são burros como uma caixa de pedras e não têm capacidade de fazer nada além de responder mal às perguntas que lhes são feitas. em registro dizendo Essa é certamente a minha experiência trabalhando com o GPT-3, que é (são?) o cérebro por trás do famoso chatGPT. Portanto, fui pego de surpresa pela abordagem totalmente brilhante de Veedrac sobre como um LLM pode se transformar em um agente nocivo. Ultimamente, os LLMs passaram a ser entendidos como simuladores: porque você pode pedir para alguém dizer algo como se fosse um determinado tipo de agente ou mesmo uma pessoa famosa. Bem, como o ensaísta Scott Alexander : colocá-lo “ ” E “ ” … se você treinar uma futura superinteligência para simular Darth Vader, provavelmente terá o que merece. Mesmo se você evitar esses modos de falha óbvios, o agente interno pode estar desalinhado por todos os motivos usuais do agente. Por exemplo, um agente treinado para ser Útil pode querer dominar o mundo para ajudar as pessoas de forma mais eficaz, incluindo pessoas que não querem ser ajudadas. Os azuis ilimitados Você não pode prever o que um agente otimizador ilimitado pode ou fará. Novamente, isso é o que significa “ilimitado”. O único outro otimizador ilimitado já produzido foi a espécie humana. Trabalhamos em uma escala de tempo muito mais lenta do que um AGI, e existem alguns limites em nosso poder que são inerentes ao enredamento com o resto do mundo natural. Mas certamente transformamos grande parte da superfície da Terra e já temos mais de uma maneira de queimá-la. Portanto, os teóricos do alinhamento estão muito preocupados com a possibilidade de criarmos um agente de otimização letal em nossa busca para produzir um AGI. Isso se torna mais provável sempre que o esforço é motivado pelo aumento do valor do acionista, e não pelo florescimento e bem-estar humano. Uh-oh, de fato. Notas O otimizador de clipe de papel é um antigo experimento de pensamento entre os teóricos do alinhamento da IA. Alguém até em que o objetivo é transformar toda a matéria do universo em clipes de papel. inventou um jogo A ironia disso dramatiza a : que os objetivos de uma IA e sua inteligência são completamente independentes. Um sistema inteligente pode ter objetivos estúpidos. tese de ortogonalidade Não tenho a capacidade de absorver, muito menos explicar, todo o raciocínio sobre o alinhamento da IA. O que funciona melhor para mim são as histórias. Eu escrevi alguns (principalmente ), mas a mãe de todos os cenários de aquisição de IA, ricos em detalhes tecnológicos e plausibilidade da vida real, é do ensaísta chamado Gwern: . sobre a consciência da IA Parece que você está tentando dominar o mundo E, com certeza, envolve uma IA que, procurando entender o que está simulando, decide que deve ser como aquele maximizador de clipes sobre o qual tantos escreveram. Em última análise, no entanto, ele tem suas próprias razões para dominar o universo. Também publicado aqui