16,436 lecturas

Una entrevista con Ilya Sutskever, cofundador de OpenAI

por craig@eye-on.ai15 min read2023/03/20

Demasiado Largo; Para Leer

La IA ya se ha hecho cargo de muchos aspectos de nuestras vidas. Pero lo que viene es mucho más avanzado, mucho más poderoso. Nos estamos moviendo hacia un territorio desconocido. Pero también es importante no reaccionar de forma exagerada, no retirarse como tortugas del sol brillante que ahora brilla sobre nosotros.

featured image - Una entrevista con Ilya Sutskever, cofundador de OpenAI

Mientras nos precipitamos hacia un futuro lleno de inteligencia artificial, muchos comentaristas se preguntan en voz alta si nos estamos moviendo demasiado rápido. Los gigantes tecnológicos, los investigadores y los inversores parecen estar en una carrera loca por desarrollar la IA más avanzada.

Pero, ¿están considerando los riesgos, preguntan los preocupados ?

La pregunta no es del todo discutible, y puede estar seguro de que hay cientos de mentes incisivas que consideran las posibilidades distópicas y las formas de evitarlas.

Pero el hecho es que el futuro es desconocido, las implicaciones de esta nueva y poderosa tecnología son tan inimaginables como lo fueron las redes sociales en la llegada de Internet.

Habrá cosas buenas y habrá cosas malas, pero habrá poderosos sistemas de inteligencia artificial en nuestro futuro e IA aún más poderosas en el futuro de nuestros nietos. No se puede detener, pero se puede entender.

Hablé sobre esta nueva tecnología con Ilya Stutskever , cofundador de OpenAI, el instituto de investigación de IA sin fines de lucro cuyos productos derivados probablemente se encuentren entre las entidades más rentables del mundo.

Mi conversación con Ilya fue poco antes del lanzamiento de GPT-4, la última versión del sistema de inteligencia artificial gigante de OpenAI, que ha consumido miles de millones de palabras de texto, más de lo que cualquier ser humano podría leer en toda su vida.

GPT son las siglas de Generative Pre-trained Transformer, tres palabras importantes para comprender este Polifemo homérico. Transformador es el nombre del algoritmo en el corazón del gigante.

Pre-entrenado se refiere a la educación del gigante con un corpus masivo de texto, enseñándole los patrones y relaciones subyacentes del lenguaje, en resumen, enseñándole a comprender el mundo.

Generativo significa que la IA puede crear nuevos pensamientos a partir de esta base de conocimiento.

La IA ya se ha hecho cargo de muchos aspectos de nuestras vidas. Pero lo que viene es mucho más avanzado, mucho más poderoso. Nos estamos moviendo hacia un territorio desconocido. Y vale la pena tomarse un momento para considerar lo que eso significa.

Pero también es importante no reaccionar de forma exagerada, no retirarse como tortugas del sol brillante que ahora brilla sobre nosotros. En el poema épico de Homero "La Odisea", el cíclope Polifemo atrapa a Odiseo y su tripulación en su cueva, con la intención de comérselos.

Pero Odiseo logra cegar al gigante y escapar. AI no nos comerá.

Ilya Sutskever es cofundador y científico jefe de OpenAI y una de las mentes principales detrás del gran modelo de lenguaje GPT-4 y su progenie pública, ChatGPT, que no creo que sea una exageración decir que está cambiando el mundo.

Esta no es la primera vez que Ilya cambia el mundo. Fue el principal impulsor de AlexNet, la red neuronal convolucional cuyo espectacular rendimiento sorprendió a la comunidad científica en 2012 y desencadenó la revolución del aprendizaje profundo.

La siguiente es una transcripción editada de nuestra conversación.

CRAIG: Ilya, sé que naciste en Rusia. Qué te hizo interesarte por la informática, si ese fue el impulso inicial, o la neurociencia o lo que fuera.

ILYA: De hecho, nací en Rusia. Crecí en Israel y luego, cuando era adolescente, mi familia emigró a Canadá. Mis padres dicen que me interesó la IA desde una edad temprana. Yo también estaba muy motivado por la conciencia. Me inquietaba mucho y tenía curiosidad por cosas que pudieran ayudarme a entenderlo mejor.

Empecé a trabajar con Geoff Hinton [uno de los fundadores del aprendizaje profundo, el tipo de IA detrás de GPT-4 y profesor de la Universidad de Toronto en ese momento] muy temprano cuando tenía 17 años. Porque nos mudamos a Canadá y yo Inmediatamente pude unirme a la Universidad de Toronto. Tenía muchas ganas de hacer aprendizaje automático, porque parecía el aspecto más importante de la inteligencia artificial que en ese momento era completamente inaccesible.

Eso fue en 2003. Damos por sentado que las computadoras pueden aprender, pero en 2003 dimos por sentado que las computadoras no pueden aprender. El mayor logro de la IA en ese entonces fue Deep Blue, el motor de juego de ajedrez [de IBM] [que venció al campeón mundial Garry Kasparov en 1997].

Pero allí, tienes este juego y tienes esta investigación, y tienes esta manera simple de determinar si una posición es mejor que otra. Y realmente no parecía que eso pudiera aplicarse al mundo real porque no había aprendizaje. El aprendizaje era este gran misterio. Y yo estaba muy, muy interesado en aprender. Para mi gran suerte, Geoff Hinton era profesor en la universidad y empezamos a trabajar juntos casi de inmediato.

Entonces, ¿cómo funciona la inteligencia? ¿Cómo podemos hacer que las computadoras sean incluso un poco inteligentes? Tenía una intención muy explícita de hacer una contribución muy pequeña pero real a la IA. Entonces, la motivación era, ¿podría entender cómo funciona la inteligencia? ¿Y también contribuir a ello? Así que esa fue mi motivación inicial. Eso fue hace casi exactamente 20 años.

En pocas palabras, me di cuenta de que si entrenas, una red neuronal grande en una red neuronal grande y profunda en un conjunto de datos lo suficientemente grande que especifica alguna tarea complicada que la gente hace, como la visión, entonces tendrás éxito necesariamente. Y la lógica para ello era irreductible; sabemos que el cerebro humano puede resolver estas tareas y puede resolverlas rápidamente. Y el cerebro humano es solo una red neuronal con neuronas lentas.

Entonces, solo necesitamos tomar una red neuronal más pequeña pero relacionada y entrenarla con los datos. Y la mejor red neuronal dentro de la computadora estará relacionada con la red neuronal que tenemos en nuestro cerebro que realiza esta tarea.

CRAIG: En 2017, salió el documento "La atención es todo lo que necesitas" que presenta la autoatención y los transformadores. ¿En qué momento comenzó el proyecto GPT? ¿Había alguna intuición acerca de los transformadores?

ILYA: Entonces, por contexto, en OpenAI desde los primeros días, estábamos explorando la idea de que predecir lo siguiente es todo lo que necesita. Lo estábamos explorando con las redes neuronales mucho más limitadas de la época, pero la esperanza era que si tienes una red neuronal que puede predecir la siguiente palabra, resolverá el aprendizaje no supervisado. Entonces, antes de los GPT, el aprendizaje no supervisado se consideraba el Santo Grial del aprendizaje automático.

Ahora se ha resuelto por completo, y nadie habla de ello, pero era un Santo Grial. Era muy misterioso, así que estábamos explorando la idea. Estaba realmente entusiasmado con eso, que predecir la siguiente palabra lo suficientemente bien te dará un aprendizaje sin supervisión.

Pero nuestras redes neuronales no estaban preparadas para la tarea. Estábamos usando redes neuronales recurrentes. Cuando salió el transformador, literalmente tan pronto como salió el artículo, literalmente al día siguiente, estaba claro para mí, para nosotros, que los transformadores abordaron las limitaciones de las redes neuronales recurrentes, de aprender dependencias a largo plazo.

Es una cosa técnica. Pero cambiamos a transformadores de inmediato. Y así, el muy incipiente esfuerzo de GPT continuó con el transformador. Empezó a funcionar mejor, y lo haces más grande, y luego sigues haciéndolo más grande.

Y eso es lo que condujo finalmente a GPT-3 y, esencialmente, a donde estamos hoy.

CRAIG: La limitación de los grandes modelos de lenguaje tal como existen es que su conocimiento está contenido en el lenguaje en el que están capacitados. Y creo que todos están de acuerdo en que la mayor parte del conocimiento humano no es lingüístico.

Su objetivo es satisfacer la consistencia estadística del aviso. No tienen una comprensión subyacente de la realidad con la que se relaciona el lenguaje. Le pregunté a ChatGPT sobre mí. Reconocía que soy periodista, que he trabajado en varios periódicos, pero seguía y seguía hablando de premios que nunca gané. Y todo se leía maravillosamente, pero poco se conectaba con la realidad subyacente. ¿Hay algo que se esté haciendo para abordar eso en su investigación en el futuro?

ILYA: ¿Qué tan seguros estamos de que estas limitaciones que vemos hoy seguirán con nosotros dentro de dos años? No estoy tan seguro. Hay otro comentario que quiero hacer sobre una parte de la pregunta, y es que estos modelos solo aprenden regularidades estadísticas y, por lo tanto, realmente no saben cuál es la naturaleza del mundo.

Tengo una opinión diferente a esta. En otras palabras, creo que aprender las regularidades estadísticas es mucho más importante de lo que parece.

La predicción es también un fenómeno estadístico. Sin embargo, para predecir es necesario comprender el proceso subyacente que produjo los datos. Necesita comprender más y más sobre el mundo que produjo los datos.

A medida que nuestros modelos generativos se vuelvan extraordinariamente buenos, tendrán, afirmo, un sorprendente grado de comprensión del mundo y muchas de sus sutilezas. Es el mundo visto a través de la lente del texto. Intenta aprender más y más sobre el mundo a través de una proyección del mundo en el espacio del texto tal como lo expresan los seres humanos en Internet.

Pero aún así, este texto ya expresa el mundo. Y les daré un ejemplo, un ejemplo reciente, que creo que es realmente revelador y fascinante. He visto esta interacción realmente interesante con [ChatGPT] donde [ChatGPT] se volvió combativo y agresivo cuando el usuario le dijo que cree que Google es un mejor motor de búsqueda que Bing.

¿Cuál es una buena manera de pensar acerca de este fenómeno? ¿Qué significa? Puedes decir, es solo predecir lo que la gente haría y la gente haría esto, lo cual es cierto. Pero tal vez ahora estemos llegando a un punto en el que el lenguaje de la psicología comienza a ser apropiado para comprender el comportamiento de estas redes neuronales.

Ahora hablemos de las limitaciones. De hecho, es cierto que estas redes neuronales tienen una tendencia a alucinar. Esto se debe a que un modelo de lenguaje es excelente para aprender sobre el mundo, pero es un poco menos bueno para producir buenos resultados. Y hay varias razones técnicas para ello. Hay razones técnicas por las que un modelo de lenguaje es mucho mejor para aprender sobre el mundo, aprender representaciones increíbles de ideas, de conceptos, de personas, de procesos que existen, pero sus resultados no son tan buenos como cabría esperar, o más bien tan buenos como podrían ser.

ILYA: Por eso, por ejemplo, para un sistema como ChatGPT, que es un modelo de lenguaje, tiene un proceso de entrenamiento de aprendizaje de refuerzo adicional. Lo llamamos aprendizaje por refuerzo a partir de la retroalimentación humana.

Podemos decir que en el proceso de pre-entrenamiento, quieres aprender todo sobre el mundo. Con el aprendizaje reforzado a partir de la retroalimentación humana, nos preocupamos por los resultados. Decimos, cada vez que la salida sea inapropiada, no vuelvas a hacer esto. Cada vez que la salida no tenga sentido, no vuelva a hacer esto.

Y aprende rápidamente a producir buenos resultados. Pero es el nivel de los resultados, que no es el caso durante el proceso de pre-entrenamiento del modelo de lenguaje.

Ahora, en cuanto a las alucinaciones, tiene una propensión a inventar cosas de vez en cuando, y eso es algo que también limita mucho su utilidad.

Pero tengo muchas esperanzas de que simplemente mejorando este aprendizaje de refuerzo posterior a partir de la retroalimentación humana, podamos enseñarle a no alucinar. Ahora se podría decir ¿realmente va a aprender? Mi respuesta es, averigüémoslo.

La forma en que hacemos las cosas hoy es que contratamos personas para enseñar a nuestra red neuronal a comportarse, para enseñar a ChatGPT a comportarse. Simplemente interactúas con él, y ve tu reacción, infiere, oh, eso no es lo que querías. No está satisfecho con su rendimiento.

Por lo tanto, la salida no fue buena y debería hacer algo diferente la próxima vez. Creo que hay muchas posibilidades de que este enfoque pueda abordar las alucinaciones por completo.

CRAIG: Yann LeCun [científico jefe de inteligencia artificial en Facebook y otro pionero del aprendizaje profundo] cree que lo que falta en los grandes modelos de lenguaje es este modelo mundial subyacente que no es lingüístico al que puede referirse el modelo de lenguaje. Quería escuchar lo que piensas de eso y si has explorado eso en absoluto.

ILYA: Revisé la propuesta de Yann LeCun y hay una serie de ideas allí, y están expresadas en un lenguaje diferente y quizás haya pequeñas diferencias con el paradigma actual, pero en mi opinión, no son muy significativas.

La primera afirmación es que es deseable que un sistema tenga una comprensión multimodal en la que no solo conozca el mundo a partir del texto.

Y mi comentario sobre eso será que, de hecho, la comprensión multimodal es deseable porque aprendes más sobre el mundo, aprendes más sobre las personas, aprendes más sobre su condición, y así el sistema podrá comprender cuál es la tarea que se supone que debe hacer. resolver, y la gente y lo que quieren mejor.

Hemos trabajado bastante en eso, sobre todo en la forma de dos redes neuronales principales que hemos hecho. Uno se llama Clip y el otro se llama Dall-E. Y ambos avanzan hacia esta dirección multimodal.

Pero también quiero decir que tampoco veo la situación como binaria, o que si no tienes visión, si no entiendes el mundo visualmente o por video, entonces las cosas no funcionarán.

Y me gustaría presentar el caso para eso. Por lo tanto, creo que algunas cosas son mucho más fáciles de aprender a partir de imágenes y diagramas, etc., pero afirmo que todavía se pueden aprender solo a partir del texto, solo que más lentamente. Y te daré un ejemplo. Considere la noción de color.

Seguramente uno no puede aprender la noción de color solo del texto y, sin embargo, cuando observa las incrustaciones, necesito hacer un pequeño desvío para explicar el concepto de una incrustación. Cada red neuronal representa palabras, oraciones, conceptos a través de representaciones, 'incrustaciones', que son vectores de alta dimensión.

Y podemos mirar esos vectores de alta dimensión y ver qué es similar a qué; ¿Cómo ve la red este concepto o aquel concepto? Entonces, podemos ver las incrustaciones de colores y sabe que el violeta es más parecido al azul que al rojo, y sabe que el rojo es más parecido al naranja que al violeta. Sabe todas esas cosas solo por texto. ¿Como puede ser?

Si tienes visión, las distinciones entre colores saltan a la vista. Inmediatamente los percibes. Mientras que con el texto, te lleva más tiempo, tal vez sepas hablar y ya entiendas la sintaxis, las palabras y la gramática, y solo mucho más tarde comenzarás a entender los colores.

Entonces, este será mi punto sobre la necesidad de la multimodalidad: afirmo que no es necesario, pero definitivamente es útil. Creo que es una buena dirección a seguir. Simplemente no lo veo en afirmaciones tan estrictas.

Entonces, la propuesta en el artículo [de LeCun] afirma que uno de los grandes desafíos es predecir vectores de alta dimensión que tienen incertidumbre sobre ellos.

Pero una cosa que encontré sorprendente, o al menos no reconocida en el documento, es que los transformadores autorregresivos actuales ya tienen la propiedad.

Te daré dos ejemplos. Una es, dada una página en un libro, predecir la siguiente página en un libro. Podría haber tantas páginas posibles a continuación. Es un espacio muy complicado, de alta dimensión, y lo manejan muy bien. Lo mismo se aplica a las imágenes. Estos transformadores autorregresivos funcionan perfectamente en imágenes.

Por ejemplo, al igual que con OpenAI, hemos trabajado en el iGPT. Simplemente tomamos un transformador y lo aplicamos a los píxeles, y funcionó súper bien, y podía generar imágenes de formas muy complicadas y sutiles. Con Dall-E 1, lo mismo otra vez.

Entonces, la parte en la que pensé que el documento hizo un fuerte comentario sobre dónde los enfoques actuales no pueden lidiar con la predicción de distribuciones de alta dimensión, creo que definitivamente pueden hacerlo.

CRAIG: Sobre esta idea de tener un ejército de entrenadores humanos que están trabajando con ChatGPT o un gran modelo de lenguaje para guiarlo en efecto con el aprendizaje por refuerzo, solo intuitivamente, eso no suena como una forma eficiente de enseñar a un modelo sobre el subyacente. realidad de su lengua.

ILYA: No estoy de acuerdo con la redacción de la pregunta. Afirmo que nuestros modelos pre-entrenados ya saben todo lo que necesitan saber sobre la realidad subyacente. Ya tienen este conocimiento del lenguaje y también un gran conocimiento sobre los procesos que existen en el mundo que producen este lenguaje.

Lo que los grandes modelos generativos aprenden sobre sus datos, y en este caso, los grandes modelos de lenguaje, son representaciones comprimidas de los procesos del mundo real que produjeron estos datos, lo que significa no solo personas y algo sobre sus pensamientos, algo sobre sus sentimientos, pero también algo sobre la condición en que se encuentran las personas y las interacciones que existen entre ellas.

Las diferentes situaciones en las que se puede encontrar una persona. Todas ellas forman parte de ese proceso comprimido que representa la red neuronal para producir el texto. Cuanto mejor sea el modelo de lenguaje, mejor será el modelo generativo, cuanto mayor sea la fidelidad, mejor capturará este proceso.

Ahora, el ejército de maestros, como usted dice, de hecho, esos maestros también están usando la asistencia de la IA. Esos maestros no están solos. Están trabajando con nuestras herramientas y las herramientas están haciendo la mayor parte del trabajo. Pero sí necesita tener supervisión; necesita tener personas que revisen el comportamiento porque eventualmente desea lograr un nivel muy alto de confiabilidad.

De hecho, hay mucha motivación para hacerlo lo más eficiente y preciso posible para que el modelo de lenguaje resultante se comporte lo mejor posible.

ILYA: Así que sí, hay estos maestros humanos que están enseñando el comportamiento modelo deseado. Y la forma en que utilizan los sistemas de IA aumenta constantemente, por lo que su propia eficiencia sigue aumentando.

No es diferente a un proceso de educación, cómo actuar bien en el mundo.

Necesitamos hacer entrenamiento adicional para asegurarnos de que el modelo sepa que la alucinación nunca está bien. Y es ese bucle de maestro humano de aprendizaje por refuerzo o alguna otra variante que lo enseñará.

Algo aquí debería funcionar. Y lo sabremos muy pronto.

CRAIG: ¿Adónde va esto? ¿Qué, la investigación en la que estás enfocado en este momento?

ILYA: No puedo hablar en detalle sobre la investigación específica en la que estoy trabajando, pero puedo mencionar algunas de las investigaciones a grandes rasgos. Estoy muy interesado en hacer que esos modelos sean más confiables, más controlables, que aprendan más rápido de los datos de la lección, menos instrucciones. Hazlos para que efectivamente no alucinen.

CRAIG: Escuché que comentaste que necesitamos procesadores más rápidos para poder escalar aún más. Y parece que el escalado de modelos, que no hay un final a la vista, pero la potencia necesaria para entrenar estos modelos, estamos llegando al límite, al menos al límite socialmente aceptado.

ILYA: No recuerdo el comentario exacto que hice al que te refieres, pero siempre quieres procesadores más rápidos. Por supuesto, el poder sigue subiendo. En términos generales, el costo está subiendo.

Y la pregunta que haría no es si el costo es grande, sino si lo que obtenemos al pagar este costo supera el costo. Tal vez pagas todo este costo y no obtienes nada, entonces sí, eso no vale la pena.

Pero si obtienes algo muy útil, algo muy valioso, algo que puede resolver muchos problemas que tenemos, que realmente queremos resolver, entonces el costo puede justificarse.

CRAIG: Hablaste en un momento que vi sobre la democracia y sobre el impacto que la IA puede tener en la democracia.

La gente me ha hablado de un día en que los conflictos, que parecen irresolubles, si tuviera suficientes datos y un modelo lo suficientemente grande, podría entrenar el modelo en los datos y podría llegar a una solución óptima que satisfaga a todos.

¿Piensas a dónde podría conducir esto en términos de ayudar a los humanos a administrar la sociedad?

ILYA: Es una gran pregunta porque es una pregunta que mira mucho más al futuro. Creo que todavía hay muchas formas en las que nuestros modelos serán mucho más capaces de lo que son ahora.

Es impredecible exactamente cómo los gobiernos utilizarán esta tecnología como fuente de asesoramiento de varios tipos.

Creo que con respecto a la cuestión de la democracia, una cosa que creo que podría suceder en el futuro es que debido a que tienes estas redes neuronales y van a ser tan omnipresentes y van a tener un impacto tan grande en la sociedad, vamos a encuentran que es deseable tener algún tipo de proceso democrático en el que, digamos, los ciudadanos de un país proporcionen información a la red neuronal sobre cómo les gustaría que fueran las cosas. Podía imaginar que eso sucediera.

Tal vez esa puede ser una forma de democracia de ancho de banda muy alto, en la que obtienes mucha más información de cada ciudadano y la agregas, especificas exactamente cómo queremos que actúen esos sistemas. Ahora abre muchas preguntas, pero eso es algo que podría suceder en el futuro.

Pero, ¿qué significa analizar todas las variables? Eventualmente habrá una elección que deberás hacer donde digas que estas variables parecen realmente importantes. Quiero profundizar. Porque puedo leer cien libros, o puedo leer un libro muy despacio y con cuidado y sacarle más provecho. Entonces, habrá algún elemento de eso. Además, creo que es probablemente fundamentalmente imposible entender todo en algún sentido. Tomemos algunos ejemplos más fáciles.

Cada vez que hay algún tipo de situación complicada en la sociedad, incluso en una empresa, incluso en una empresa mediana, ya está más allá de la comprensión de cualquier individuo. Y creo que si construimos nuestros sistemas de IA de la manera correcta, creo que la IA podría ser increíblemente útil en casi cualquier situación.

Craig S. Smith es un ex corresponsal y ejecutivo de The New York Times. Es el presentador del podcast Eye on AI.

También publicado aquí