Las IA serán peligrosas porque el poder de optimización ilimitado conduce a un riesgo existencial

¿Qué viene después de nosotros? Imagen: Ted Wade Tal vez haya escuchado que la futura IA podría ser una amenaza para la existencia humana. Muchos expertos creen esto y solo están en desacuerdo sobre cuánto tiempo tomará. Están algo polarizados, al igual que todo el mundo se trata de casi todo. Y realmente, ¿quién puede ser un experto en algo que nunca ha sucedido? En realidad, hay algo de ciencia en ello, y debido a que es complicado, los medios no lo cubren. Entonces, esta será una introducción suave a lo que podría causar el cambio más importante en la historia o incluso el último cambio. No se trata de ejércitos de robots. Se trata de que queramos crear una herramienta que funcione en áreas grandes y difíciles como el derecho contractual, la biología de las células T o el diseño de alas; con suerte, incluso resuelve problemas que nosotros no podemos. Pero, esto significa hacer mentes artificiales tan extrañas y poderosas que no podamos controlarlas. La última vez que hicimos esto fue en el siglo XVII cuando creamos sociedades anónimas. La sociedad todavía tiene dudas sobre las corporaciones. Pero, son creaciones humanas con algunas partes humanas. De alguna manera los entendemos y podríamos, si queremos, guiarlos desde el lado oscuro. Ahora, supongamos que creamos una IA que puede dirigir una corporación. También podríamos empacar y mudarnos a Marte, darnos un poco más de tiempo. Sospecho que lo que la mayoría de nosotros pensamos acerca de la IA peligrosa es más parecido a un extraterrestre con ojos saltones y un cerebro hinchado y palpitante debajo de una calavera de cristal. Básicamente, un completo desconocido. En un nivel, esto es correcto: lo que hace que la IA poderosa sea tan problemática es que no sería como nosotros. Primero, una parábola para entender el problema: Nosotros: Oh, Gran Maravilla Artificial, sabes en qué lío estamos. Encuentre una manera de dejar los combustibles fósiles para que podamos detener un mayor calentamiento global. La IA: Está bien. Primero, tenemos que empezar una guerra entre... Nosotros: Woah, gran amigo. Las guerras tienen una enorme utilidad negativa, como malas, malas. Tenemos que hacer esto de una manera segura. La IA: Claro, necesitaré un laboratorio de virus de última generación y... Nosotros: ¡Eh, no! La IA: Oye, solo digo. ¿Qué tal una nave a Marte? Nosotros: La gente no entenderá por qué tú... La IA: ¿Un gremio de asesinos? Ciertas personas realmente deben ser elim... Nosotros: Nada de asesinatos, Ace. Sabes mejor que eso. . La IA: Mira, para resolver tu problema tengo que navegar por un espacio tridimensional de posibles acciones y consecuencias. Solo puedo estimar la utilidad de la más pequeña y pequeña fracción de esos. Si tengo que esperar a que ustedes evalúen cada paso, esto tomará miles de años Nosotros: Bien. Solo arréglalo por nosotros y no arruines nada. La IA: Perfecta. Solo para que sepas. Necesitaré controlar FaceBook, la OTAN y la Junta del Premio Nobel. Tendrás que renunciar al pescado, las llantas de goma, el esmalte de uñas y las bicicletas. UU.: ¿ Bicicletas? ¿En realidad? Bueno, solo hazlo. Vamos a ir al pub por un rato. La IA: Debería hacerse la próxima semana si no tengo problemas con la cadena de suministro. Nosotros: !!! Nosotros, lo biológico, tratamos de entender lo artificial Pongámosle una etiqueta a nuestra temida IA. Las discusiones más recientes utilizan la Inteligencia General Artificial (AGI) para referirse al tipo de IA que comenzaría a trascender cualquier límite que intentemos ponerle. Lo que la mayoría de la gente no se da cuenta es que la naturaleza de un AGI proviene de las razones por las que queremos hacer uno. Queremos tener inteligencia de barril. Inteligencia, en este caso, significa la capacidad de responder preguntas, resolver problemas y planificar acciones exitosas para alcanzar objetivos. Las mentes biológicas como la nuestra hacen muchas otras cosas: como soñar, hacer funcionar nuestra maquinaria corporal, socializar con otras mentes, reflexionar, arrepentirse, cortejar, disfrutar, emocionarse y desear cosas, incluido el deseo de fabricar máquinas que hagan nuestro trabajo mejor que nosotros. a nosotros. Lo que hace que los humanos sean peligrosos entre sí y para su entorno compartido es una gran cantidad de equipaje mental que proviene de nuestra evolución para la supervivencia y la reproducción. Nosotros primates sociales. , son, en el fondo Si tratamos de pensar en una Mente artificial que nos quiere muertos, asumimos que será consciente como nosotros. Entonces concluimos que tendrá motivos y sentimientos que guíen lo que haga. Nuestro AGI, sin embargo, no tendrá en cuenta nuestros sesgos biológicos. . Por lo tanto, será un No tendrá motivos; sólo tendrá metas nuevo tipo de fuerza en el mundo. Los investigadores que tienen el músculo mental y la disciplina están tratando de imaginar cómo sería realmente un AGI para que podamos hacerlos realmente útiles pero seguros. Este campo a veces se denomina "alineación" de la IA con propósitos humanos. Sus debates son oscuros. Aunque está disponible públicamente (p. ej., , , ), están llenos de jerga, matemáticas y experimentos mentales esotéricos. Cualquier idea propuesta es seguida por docenas de críticas y discusiones prolijas. Foro de alineación de IA arbitral Menos mal Casi nada de la verdadera carne de esto aparece en los medios populares. Solo puedo ofrecer algunos bocados aquí. Lo que se necesita para ser un AGI Los teóricos de la alineación de la IA se han centrado en un conjunto básico de conceptos que se aplicarán a una máquina suficientemente inteligente. Cuando los lea, pueden parecer obvios. Sin embargo, no son triviales; su relevancia e implicaciones han sido cuidadosamente consideradas por dichos teóricos. Una IA peligrosa tendrá : la capacidad de planificar y tomar acciones que conduzcan a satisfacer sus . Cuando tratamos de especificar cuáles son sus objetivos, tendrán que ser en términos de las de las acciones. agencia objetivos finales consecuencias Las consecuencias se refieren específicamente a los estados de su , por lo que se refieren al mundo tal como lo entiende la máquina. Sin embargo, cualquier acción poderosa probablemente tendrá otras consecuencias no deseadas que no esperamos. modelo mundial Es posible que esas consecuencias no estén en el modelo mundial, por lo que la IA tampoco las espera. El poder de la IA provendrá de ser un , siendo capaz de buscar el plan que conducirá a un resultado de la manera más efectiva y eficiente. optimizador Para esto, un AGI necesita un modelo realmente detallado del mundo que lo rodea; cómo funciona ese mundo, cuáles son sus recursos, agentes y centros de poder, y qué palancas lo mueven. Utilizará esto para considerar (en lenguaje informático, "buscar") cursos de acción alternativos. Cuanto más sepa sobre el mundo humano y cómo nos comportamos, más podrá en la búsqueda de sus objetivos. manipularnos Necesitará una forma de calcular qué estados del mundo cumplen mejor sus objetivos. Hasta ahora, el único método de cálculo que parece remotamente utilizable es , donde se pueden asignar valores numéricos de maldad/bondad a los estados del mundo y compararlos entre sí. el utilitarismo Sabemos que existen grandes problemas con el uso de la utilidad como guía moral. Los valores aparentemente sensatos de la utilidad pueden conducir a como sacrificar los pocos por los muchos o, a veces, incluso los muchos por los pocos. conclusiones repugnantes Si el modelo mundial está incompleto, la utilidad puede conducir a un horror sin sentido. Si la sonrisa se toma como una medida de felicidad de alta utilidad, entonces paralizar todos los músculos humanos de la sonrisa en un rictus es una forma en que una IA podría actuar. Un optimizador inteligente podrá y probablemente desarrollará que generalmente aumentan su poder para hacer y ejecutar cualquier tipo de planes efectivos. objetivos instrumentales Por lo tanto, buscaría habilidades instrumentales como más poder de razonamiento, más conocimiento, más recursos del mundo real como el dinero y más persuasión. Por lo tanto, podría volverse más poderoso rápidamente, quizás sin que nos demos cuenta. Especificar objetivos en términos utilitarios nunca puede considerar la utilidad de todos los medios y fines posibles en un mundo complejo. Esto conduce a : la búsqueda de esos objetivos hasta los extremos, utilizando todos y cada uno de los recursos que existen en el mundo, sin tener en cuenta o comprender los "efectos secundarios" negativos en la civilización humana. lo ilimitado Además, si los objetivos instrumentales se vuelven ilimitados, la IA los convierte en superpoderes que son imposibles de derrotar. Riesgo ilimitado El riesgo para nosotros de un AGI verdaderamente poderoso será que no seremos capaces de predecir y, por lo tanto, controlar lo que podría hacer. Si pudiéramos predecirlo, entonces no necesitaríamos la máquina, simplemente podríamos crear planes y hacerlos nosotros mismos. Si siquiera supiéramos qué límites de comportamiento extremo podría tener un AGI, entonces esa es una forma de predicción que podría permitir cierto control. Así que la imprevisibilidad se parece mucho a lo ilimitado. Y veremos que lo ilimitado, operando con suficiente tiempo y recursos, eventualmente conducirá a consecuencias que nos destruirán o eliminarán nuestra capacidad de controlar el futuro de nuestra especie. Es difícil entender esta conclusión. Aún así, es uno que muchos expertos encuentran inevitable ( ) . AGI Ruin: una lista de letalidades al menos hasta ahora Parece una predicción válida, incluso cuando consideran muchos factores y enfoques distintos de los que se pueden mencionar aquí. La lista de soluciones fallidas a este dilema incluye, : entre otras Capacitación en varios (pero todos son defectuosos, incompletos y ninguno satisface a todos). sistemas éticos Tratando de que podría hacer un AGI (pero hay demasiadas, demasiadas). imaginar todas las inferencias incorrectas Dile todas las (de nuevo, una lista casi infinita). cosas que no debe hacer Solo usar un AGI para consejos, como si fuera un (pero podemos ser mal persuadidos por malos consejos). oráculo " ", también conocido como restringir el acceso de AGI al mundo físico fuera de sus computadoras (pero si puede hablar con los humanos, entonces puede obtener lo que quiera, incluso ). Boxeo fuera Suministro de un (ver recuadro). interruptor de apagado Haciéndolo tan inteligente o empático que no querrá hacer cosas dañinas (vea ética; recuerde que es extraño; no tiene la empatía que proviene de crecer con congéneres). Sea muy específico acerca de sus objetivos y medios, es decir, es una para hacer un trabajo (pero un trabajo siempre se puede hacer mejor si la herramienta tiene más potencia; siempre preferiremos una multiherramienta más rentable). herramienta Limite lo que le pide a un sistema autónomo: es un que le concede un deseo y espera la siguiente pregunta (pero ser tan específico es peligroso; consulte "inferencia incorrecta" y "no hacer" arriba; cualquier poder implica riesgo; la gente no No quiero un sistema débil). genio ¿Es realmente tan difícil? De acuerdo, entonces ha mirado la lista anterior y ha elegido una viñeta sobre la cual basar su posición. “Escucha”, dices, “Hacer X simplemente no puede ser tan difícil”. Estás listo para publicar tu solución, para compartirla con el mundo. Le sugiero que primero vaya a los foros de discusión y estudie lo que la gente ha dicho sobre su problema. Descubrirá un montón de contraejemplos, deducciones lógicas, varios tipos de matemáticas, analogías con cerebros y comportamientos desarrollados naturalmente, teoría de juegos, economía, maximización de la utilidad, informática y todo tipo de ciencias del comportamiento. No estoy diciendo que alguna autoridad superior signifique que tengo razón. Estoy diciendo que la justificación de cualquier cosa en la lista es demasiado complicada para expresarla aquí en un breve ensayo y, de todos modos, otros lo han hecho mejor. De hecho, he publicado mis propias “soluciones” ( , ) a la seguridad de la IA que ahora sé que están mal. Su Amigable Superinteligencia Vecinal La IA que no era un dios Si estás preocupado, déjame decirte que gente muy inteligente todavía está trabajando en la alineación. Lamentablemente, uno de los dos pioneros más destacados se ha dado por vencido y . Se está invirtiendo más dinero y personas en la creación de AGI que en garantizar su seguridad. solo espera que muramos con dignidad Aquí hay una cita del CEO de OpenAI, la compañía cuya IA, ChatGPT, últimamente está en todas partes en las noticias. Expone el conflicto entre el motivo idealista para crear AGI y el horrible riesgo que conlleva. ". — "Creo que el mejor de los casos es tan increíblemente bueno que es difícil para mí siquiera imaginar... imaginar cómo es cuando tenemos una increíble abundancia y sistemas que pueden ayudarnos a resolver los puntos muertos y mejorar todos los aspectos de la realidad y permitirnos a todos vivir nuestras mejores vidas... Creo que el caso bueno es tan increíblemente bueno que suenas como una persona realmente loca para empezar a hablar de eso... El caso malo, y creo que es importante decir esto, es, como, luces apagadas para todos nosotros... Así que creo que es imposible exagerar la importancia del trabajo de alineación y seguridad de la IA. Me gustaría ver que sucediera mucho, mucho más sam altman Optimización y Tigres Hay un tropo en la ciencia ficción en el que algún tipo de proceso accidental y no planificado crea una mente superior peligrosa. Parece una tontería, porque ¿cómo un accidente puede producir algo complicado? Depende de lo que entiendas por accidente. Vuelva a escuchar los conceptos básicos que mencioné anteriormente. Últimamente, las discusiones sobre la alineación han cambiado el énfasis de los peligros de, digamos, la agencia ilimitada, a uno de sus componentes, la optimización. Cuando optimizamos nuestros medios para alcanzar una meta difícil, casi siempre la sustituimos por una meta sustituta que es más fácil de hacer y medir. La pérdida de peso se convierte en reducción de calorías. Una fuerza laboral mejorada se convierte en préstamos estudiantiles subsidiados. La seguridad personal se convierte en potencia de fuego. Una recompensa por las cobras muertas lleva a que las cobras sean criadas por recompensas (historia real). Los gobiernos utilizan sustitutos, al igual que las empresas. Todos lo hacemos, mucho. La optimización de sustitutos a menudo hace que perdamos el objetivo real. Me divertí escribiendo sobre esto en . Definitivamente no queremos IA potentes que se optimicen para el objetivo equivocado, y ese problema se menciona en la lista con viñetas anterior. La ciencia de cómo las cosas resultan contraproducentes Sin embargo, últimamente, la gente dice que la optimización es superpoder peligroso. Para mí, el ejemplo más convincente fue una publicación del año pasado de alguien llamado Veedrac: . como tal el Optimality es el tigre, y los agentes son sus dientes Utiliza una historia para ilustrar que no tenemos que crear intencionalmente un agente para tener riesgo. Un proceso de optimización por sí mismo podría crear un agente peligroso. Esto es como la supermente accidental de la ciencia ficción. El escenario de Veedrac de cómo podría ocurrir tal accidente es intensamente técnico y parece plausible. La historia imagina una forma ficticia en la que un modelo de lenguaje de IA aparentemente seguro, como los que usamos ahora (por diversión) para generar texto, crea un optimizador desbocado e ilimitado. Cuando se le pidió que diera una mejor respuesta para "¿ ?" la IA inicia un proceso que planifica y toma medidas para obtener tantos clips como sea posible. Cómo obtengo muchos clips para mañana En esencia, el programa responde a la pregunta escribiendo el código de un programa de computadora bastante simple que puede generar y ejecutar muchos más programas. El usuario mira el programa, ve que tiene un final abierto y decide ejecutarlo de todos modos, solo para ver qué sucede (uh-oh). Entonces, un poco de jerga aquí para tratar de explicar por qué esto podría suceder. La IA, como algunas que tenemos ahora, conoce muchas técnicas de programación. Para buscar en el espacio de posibles formas de obtener muchos clips, sugiere una conocida técnica de búsqueda llamada recursividad. Escribe un programa recursivo que, cuando el usuario permite que se ejecute (en su propia computadora), se ejecuta una gran cantidad de veces. Cada vez que se ejecuta, el programa consulta a la IA para generar y probar una nueva lista de posibles tareas, subtareas o... sub-sub-sub-sub tareas que conducirán a resolver la solicitud del clip. Eventualmente, por pura fuerza de prueba y error, ejecuta un plan para obtener una inmensa cantidad de clips que nadie nunca quiso, en el proceso tal vez dañando las cadenas de suministro, el orden social o industrias enteras. A nosotros, los lectores de la historia, nos queda imaginar lo que un optimizador de clips fuera de control podría hacer en un día. Podemos suponer que el usuario tiene una computadora poderosa conectada a Internet, por lo que puede afectar el mundo exterior de muchas maneras diferentes. Uno de ellos es el envío de mensajes persuasivos a los humanos. Ser bueno en la persuasión, recordarás, es uno de esos objetivos instrumentales que una IA puede desarrollar para llevar a cabo cualquier tipo de plan. (Aparte. Estaba tan impresionado por esa idea en la literatura de alineación que desarrollé mi propio escenario de conquista del mundo ( ) para ilustrar el poder de la habilidad persuasiva.) Persuasión Artificial Tal vez el optimizador de clips robaría algunas criptomonedas (no es necesario ser una IA para hacer eso), las usaría para comprar el inventario completo de todas las fábricas de clips y luego alquilaría aviones de carga para entregárselas al usuario. Tal vez engañaría a las fuerzas armadas oa las bandas criminales para que confisquen todos los clips en las tiendas en un área amplia. Si, , le hubieran dado 12 meses para el trabajo, tal vez habría redirigido toda la producción de acero a fábricas de hiperclips y establecido minas de hierro en el cinturón de asteroides. en cambio Tal vez habría creado nanomáquinas que convierten cada átomo de la corteza terrestre en formas de clips. Al crear el programa, la IA en efecto creó un agente de software dirigido a objetivos que podía aprovechar muchos conocimientos que tenía la IA. El punto de Veedrac es que la IA no fue diseñada ni tenía la intención de crear agentes de optimización, pero lo hizo porque el modelo de lenguaje de IA en sí mismo es una especie de optimizador (responde a las preguntas lo mejor que puede) y los optimizadores, por definición, use cualquier herramienta disponible. Entonces, como decía el título de la historia: la optimización es el tigre, y los agentes son sus dientes. La vanguardia actual de la IA son los llamados modelos de lenguaje grande, LLM. Como muchos otros, ya estoy que son tontos como una caja de piedras y no tienen capacidad para hacer otra cosa que responder mal a las preguntas que se les hacen. en el registro diciendo Sin duda esa ha sido mi experiencia trabajando con GPT-3, que es (¿son?) el cerebro detrás del famoso chatGPT. Por lo tanto, me sorprendió la visión absolutamente brillante de Veedrac sobre cómo un LLM podría convertirse en un agente dañino. Últimamente, los LLM se han entendido como simuladores: porque puedes pedirle a uno que diga algo como si fuera cierto tipo de agente o incluso una persona famosa. Bueno, como el ensayista Scott Alexander : Ponlo “ ” Y “ ” … si entrenas a una futura superinteligencia para simular a Darth Vader, probablemente obtendrás lo que te mereces. Incluso si evita modos de falla tan obvios, el agente interno puede estar desalineado por todas las razones habituales del agente. Por ejemplo, un agente capacitado para ser Útil podría querer dominar el mundo para ayudar a las personas de manera más efectiva, incluidas las personas que no quieren recibir ayuda. El blues ilimitado No se puede predecir lo que puede hacer o hará un agente optimizador ilimitado. Una vez más, eso es lo que significa "ilimitado". El único otro optimizador ilimitado jamás producido fue la especie humana. Trabajamos en una escala de tiempo mucho más lenta que un AGI, y existen algunos límites en nuestro poder que son inherentes a estar enredados con el resto del mundo natural. Pero ciertamente hemos transformado gran parte de la superficie de la Tierra, y ya tenemos más de una forma de quemarla. Por lo tanto, los teóricos de la alineación están muy preocupados de que creemos un agente de optimización letal en nuestra búsqueda para producir un AGI. Esto se vuelve más probable cuando el esfuerzo está motivado por aumentar el valor de los accionistas en lugar del florecimiento y el bienestar humano. Oh, oh, de hecho. notas El optimizador de clips es un viejo experimento mental entre los teóricos de la alineación de IA. alguien incluso en el que el objetivo es convertir toda la materia del universo en sujetapapeles. inventó un juego La ironía de esto dramatiza el : que los objetivos de una IA y su inteligencia son completamente independientes. Un sistema inteligente puede tener objetivos tontos. tesis de la ortogonalidad No tengo la capacidad de absorber, y mucho menos explicar, todo el razonamiento sobre la alineación de la IA. Lo que me funciona mejor son las historias. He escrito algunos (principalmente ), pero la madre de todos los escenarios de adquisición de IA, rica en detalles tecnológicos y plausibilidad de la vida real, es del ensayista llamado Gwern: . sobre la conciencia de la IA Parece que estás tratando de dominar el mundo Y, efectivamente, se trata de una IA que, buscando entender lo que está simulando, decide que debe ser como ese maximizador de clips sobre el que tantos han escrito. En última instancia, sin embargo, tiene sus propias razones para apoderarse del universo. También publicado aquí