paint-brush
Rascando la superficie de la singularidad: el pasado, el presente y el futuro misterioso de los LLMpor@ivanilin
1,736 lecturas
1,736 lecturas

Rascando la superficie de la singularidad: el pasado, el presente y el futuro misterioso de los LLM

por Ivan Ilin14m2023/05/16
Read on Terminal Reader

Demasiado Largo; Para Leer

Este es un ensayo con algunas reflexiones de fin de semana sobre el estado actual de la tecnología de aprendizaje automático con un enfoque particular en los LLM, también conocidos como IA. Este no es un informe completo de la industria ni estaba destinado a serlo, pero espero que sea una lectura interesante tanto para los ingenieros de aprendizaje automático como para una audiencia más amplia interesada en el levantamiento actual de la IA. Hay tres partes en la historia:
featured image - Rascando la superficie de la singularidad: el pasado, el presente y el futuro misterioso de los LLM
Ivan Ilin HackerNoon profile picture

Este es un ensayo con algunas reflexiones de fin de semana sobre el estado actual de la tecnología de aprendizaje automático con un enfoque particular en los LLM, también conocidos como IA, y nuestro punto actual en la historia.


Antes de pasar a esta emocionante singularidad, me gustaría mencionar que, como ensayo, este es un escrito más personal y menos formal, compartiendo mi perspectiva sobre la evolución de la comprensión del lenguaje natural y destacando algunas ideas que parecen importantes en ese contexto. . Este no es un informe completo de la industria ni estaba destinado a serlo, pero espero que sea una lectura interesante tanto para los ingenieros de aprendizaje automático como para una audiencia más amplia interesada en el levantamiento actual de la IA.


Hay tres partes en la historia:


  • La parte de la historia nos recuerda brevemente cómo llegamos a nuestro estado AGI actual desde un perceptrón multicapa en solo doce años.


  • La sección de actualidad se centra en los últimos logros de los LLM y las tendencias actuales de la industria. Si tiene un contexto profundo y busca ideas nuevas, salte a esa parte.


  • La parte misteriosa presenta algunas ideas sobre lo que podría seguir a la etapa actual de AGI.


La historia

Entonces, antes que nada, el aprendizaje automático ha existido por un tiempo, aproximadamente una década o un duodecenio, dependiendo de si se cuenta desde la publicación word2vec de Tomas Mikolov o desde el curso de aprendizaje automático de Andrew Ng en Coursera. Kaggle se lanzó en 2010 y Fei-Fei Li reunió a Imagenet en 2009. No hace mucho tiempo, probablemente estarías de acuerdo si tienes más de 30 años.


Algunas personas argumentarían que el aprendizaje automático ha existido por mucho más tiempo, pero ahora me refiero a la adopción de la industria de algoritmos de aprendizaje profundo, también conocido como el impulso tecnológico, no a la investigación pura. Y aquí no estamos tocando cosas como los algoritmos clásicos de ML cubiertos en scikitlearn, todo el tipo de regresión, agrupación y pronóstico de series temporales. Están haciendo su importante trabajo en silencio, pero la gente no los llama IA, no hay exageración, ya sabes.


¿Por qué sucedió esa primavera de IA hace 12 años? El aprendizaje profundo (entrenamiento de una red neuronal de múltiples capas con propagación de errores hacia atrás) finalmente se volvió factible en una GPU promedio. En 2010, la arquitectura de red neuronal más simple, un perceptrón multicapa, superó a otros algoritmos en el reconocimiento de dígitos escritos a mano (el famoso conjunto de datos MNIST), un resultado logrado por Juergen Schmidhuber et al.


Desde ese momento alrededor de 2010, la tecnología se volvió cada vez más robusta. Ha habido algunos momentos que cambiaron el juego, dijo el lanzamiento del modelo word2vec que trajo la comprensión semántica al mundo del procesamiento del lenguaje natural (NLP), el lanzamiento público de los marcos de aprendizaje profundo de Tensorflow y Keras un poco más tarde y, por supuesto, la invención de Transformer en 2017, que todavía es una arquitectura de red neuronal SOTA, que se ha expandido más allá del mundo de la PNL. ¿Porqué es eso? Porque Transformer tiene atención y es capaz de manejar secuencias como textos con complejidad O(n2) que está habilitado por el enfoque de multiplicación de matrices que nos permite ver la secuencia de entrada completa. En mi opinión, la segunda razón del éxito de Transformer es la arquitectura flexible de codificador-decodificador que nos permite entrenar y usar modelos de forma conjunta y por separado (secuencia a secuencia o secuencia a vector).


Los modelos de la familia OpenAI GPT (el decodificador de transformador) han hecho algo de ruido yendo más allá de la industria tecnológica, ya que GPT-3 ya podía producir textos bastante parecidos a los humanos y era capaz de aprender con pocos disparos y cero disparos. La última parte es más importante, el documento GPT-3 incluso se llama "Los modelos de lenguaje son aprendices de pocas oportunidades": esta capacidad de los modelos de lenguaje grandes para aprender rápidamente de los ejemplos fue declarada por primera vez por OpenAI en 2020.


Pero ¡bang!


El lanzamiento de ChatGPT ha llegado con una exageración que nunca antes habíamos visto, y finalmente atrajo una gran atención del público. Y ahora, el GPT-4 va más allá.


¿Porqué es eso? Durante los últimos 7 años, desde que las redes neuronales comenzaron a mostrar resultados decentes, lo que llamamos IA era en realidad una inteligencia artificial estrecha : nuestros modelos fueron entrenados para resolver un conjunto específico de tareas: reconocer objetos, realizar clasificaciones o predecir los siguientes tokens en la secuencia. Y la gente solo ha estado soñando con AGI , una inteligencia general artificial, capaz de completar múltiples tareas a nivel humano.


En la actualidad

Las habilidades de razonamiento de los LLM cambian las reglas del juego

De hecho, lo que sucedió con el ajuste de LLM basado en instrucciones o, como lo llaman en OpenAI, el aprendizaje de refuerzo a partir de la retroalimentación humana :
Los modelos GPT-3.5+ finalmente aprendieron la capacidad de razonar sobre la información proporcionada. Y eso cambia las cosas: antes, los LLM estaban más cerca de un loro estadístico razonablemente bueno, pero aún así son muy útiles para muchas aplicaciones, como incrustaciones de texto, búsqueda de vectores, chatbots, etc. Pero con capacitación basada en instrucciones, efectivamente aprenden a razonar de los humanos. .


¿Qué es exactamente el razonamiento?


La capacidad de utilizar la información proporcionada para obtener conclusiones a través de algunas operaciones lógicas. Digamos que A está conectado a B y B está conectado a C, entonces, ¿A está conectado a C? GPT-4 presenta un ejemplo de razonamiento mucho más complejo en su página oficial de productos. La capacidad de razonar del modelo es tan fuerte y flexible que puede producir una secuencia estructurada de instrucciones u operaciones lógicas a seguir para lograr un objetivo dado utilizando el "conocimiento común" o el "sentido común" en el camino, no solo la información proporcionada. en el aviso.


Antes de los LLM con tales habilidades de razonamiento, la otra herramienta bien diseñada para el razonamiento era un gráfico de conocimiento , con nodos que contenían entidades y bordes como predicados o relaciones de entidades. Esta es una forma de almacenamiento de información que proporciona habilidades de razonamiento explícito. En algún momento, estuve involucrado en la construcción de un sistema de preguntas y respuestas que, entre otras cosas, usaba un gráfico de conocimiento para encontrar la información solicitada: solo tenía que detectar la intención, ver si tenemos este tipo de relaciones en el gráfico, verificar si hay las entidades particulares mencionadas, y, si existieran, consultar este inciso. De hecho, esta tubería proporcionó una traducción de la consulta en lenguaje natural a una consulta SPARQL.


Ahora puede proporcionar esta información fáctica al modelo en texto sin formato como parte del contexto de su mensaje y lo "aprenderá" en cero y podrá razonar sobre eso. Guau, ¿verdad?


Y no está limitado al número de entidades y tipos de relaciones contenidos en el gráfico. Además, tiene ese "sentido común", la comprensión general de los conceptos de nuestro mundo y sus relaciones, que fue la parte más complicada de separar los modelos de aprendizaje automático de la cognición humana. Ni siquiera nos dimos cuenta de cómo llegamos a ser capaces de dar instrucciones en lenguaje natural y empezaron a funcionar correctamente sin explicaciones demasiado explícitas.


El razonamiento más el conocimiento son los dos componentes cruciales de la inteligencia. Durante los últimos 20 años, hemos puesto casi todo el conocimiento humano en Internet en forma de Wikipedia, publicaciones científicas, descripciones de servicios, blogs, miles de millones de líneas de código y respuestas de Stackoverflow, y miles de millones de opiniones en las redes sociales.
Ahora podemos razonar con ese conocimiento.



GPT-4 es el AGI

Estas habilidades de razonamiento están bien demostradas en el informe técnico oficial de OpenAI sobre GPT4 :


GPT-4 exhibe un desempeño a nivel humano en la mayoría de estos exámenes profesionales y académicos. En particular, aprueba una versión simulada del Examen Uniforme de Abogados con una puntuación en el 10% superior de los examinados.


De acuerdo con los resultados de GPT-4 en una serie de pruebas en humanos, estamos en algún lugar alrededor de AGI: OpenAI incluso usa estas palabras en su página web, y un documento reciente de Microsoft de más de 150 páginas con un estudio en profundidad de las capacidades de GPT-4 en diferentes dominios llamados "Sparks of Artificial General Intelligence: Early experiments with GPT-4" afirma cuidadosamente pero explícitamente que AGI está aquí:


Dada la amplitud y profundidad de las capacidades de GPT-4, creemos que podría verse razonablemente como una versión temprana (pero aún incompleta) de un sistema de inteligencia general artificial (AGI).


y después:


La combinación de la generalidad de las capacidades de GPT-4, con numerosas habilidades que abarcan una amplia gama de dominios, y su desempeño en un amplio espectro de tareas a nivel humano o más allá, nos hace sentir cómodos al decir que GPT-4 es un paso significativo. hacia AGI.


El motivo de esa afirmación es:

A pesar de ser puramente un modelo de lenguaje, esta primera versión de GPT-4 demuestra capacidades notables en una variedad de dominios y tareas, que incluyen abstracción, comprensión, visión, codificación, matemáticas, medicina, derecho, comprensión de los motivos y emociones humanos y más.


Y para clavarlo:

Sin embargo, incluso como primer paso, GPT-4 desafía un número considerable de suposiciones ampliamente difundidas sobre la inteligencia artificial y exhibe comportamientos y capacidades emergentes cuyas fuentes y mecanismos son, en este momento, difíciles de discernir con precisión <…>. Nuestro objetivo principal al redactar este documento es compartir nuestra exploración de las capacidades y limitaciones de GPT-4 para respaldar nuestra evaluación de que se ha logrado un salto tecnológico. Creemos que la inteligencia de GPT-4 señala un verdadero cambio de paradigma en el campo de la informática y más allá.



Le recomiendo que dedique algún tiempo a este estudio, ya que detrás de estas fuertes afirmaciones hay un análisis muy interesante de cómo funcionan dichos modelos y una comparación exhaustiva de los resultados de GPT-4 con ChatGPT en una variedad de tareas no triviales de diferentes dominios.


LLM más búsqueda

Si necesitamos aplicar las habilidades de razonamiento de LLM para sacar conclusiones sobre cierta información específica que el modelo no debe aprender durante el entrenamiento, podemos usar cualquier tipo de mecanismo de búsqueda : recuperación más clasificación, sin importar si almacena sus datos como incrustaciones de vectores en algún índice ANN como Faiss o en un índice de texto completo de la vieja escuela como Elastic, y luego alimenta estos resultados de búsqueda a un LLM como contexto, inyectándolo en un aviso. Eso es más o menos lo que hacen ahora las búsquedas de Bing 2.0 y Bard (ahora con la tecnología de PaLM2 ).


He implementado este sistema de llamadas de búsqueda + LLM con una arquitectura DPR , donde ChatGPT reemplazó el modelo de Reader, y con la búsqueda de texto completo de Elastic, en ambos casos, la calidad general del sistema depende de la calidad de los datos que tiene en su índice : si es específico y completo, puede contar con mejores respuestas que las que proporciona ChatGPT vainilla.


Algunos incluso lograron hacer una biblioteca de navajas suizas alrededor de GPT, llamarlo una base de datos vectorial y plantear una buena ronda sobre eso : ¡me quito el sombrero!
Pero debido a la interfaz textual de los modelos GPT, puede crear cualquier cosa a su alrededor con cualquier herramienta con la que esté familiarizado, sin necesidad de adaptadores.


Análisis del modelo

Una de las preguntas que podría dar una pista para futuros avances en los modelos es cómo aprenden realmente estos grandes modelos y dónde se almacenan esas impresionantes habilidades de razonamiento en los pesos de los modelos .


Esta semana, OpenAI ha publicado un documento "Los modelos de lenguaje pueden explicar las neuronas en los modelos de lenguaje" y un proyecto de código abierto que tiene como objetivo responder a estas preguntas quitando las capas de LLM. La forma en que funciona: observan la actividad de alguna parte de la red neuronal del modelo activada con frecuencia en algún dominio de conocimiento, luego un modelo GPT-4 más poderoso escribe sus explicaciones sobre qué es esta parte particular o una neurona del LLM que se está estudiando. responsable y luego intentan predecir la salida del LLM original en una serie de secuencias de texto relevantes con GPT-4, lo que da como resultado que se asigne una puntuación a cada una de sus explicaciones.


Sin embargo, esta técnica tiene algunos inconvenientes. Primero, como afirman los autores, su método dio buenas explicaciones solo para 1000 neuronas de alrededor de 300000 neuronas que se estudiaron.


Aquí está la cita en papel:

Sin embargo, descubrimos que tanto las explicaciones basadas en GPT-4 como las de contratistas humanos todavía obtienen una puntuación baja en términos absolutos. Al observar las neuronas, también encontramos que la neurona típica parecía bastante polisemántica. Esto sugiere que deberíamos cambiar lo que estamos explicando.


El segundo punto es que esta técnica actualmente no proporciona información sobre cómo se podría mejorar el proceso de capacitación. Pero es un buen esfuerzo en términos de estudio de interpretabilidad del modelo.


Tal vez si las neuronas estudiadas se unieran en algunos grupos en función de sus interdependencias y estos grupos mostraran algunos patrones de comportamiento que podrían cambiar debido a diferentes procedimientos de entrenamiento, eso nos daría una idea de cómo ciertas capacidades del modelo se correlacionan con los datos de entrenamiento y política de formación. De alguna manera, este agrupamiento y diferenciación podría parecerse a la segmentación del cerebro en diferentes áreas responsables de habilidades particulares. Eso podría brindarnos información sobre cómo ajustar eficientemente un LLM para que adquiera alguna nueva habilidad en particular.


Agentes

Otra idea de moda es crear un agente autónomo con un LLM en bucle: Twitter está lleno de experimentos como AutoGPT, AgentGPT, BabyAGI , et al. La idea es establecer un objetivo para dicho agente y proporcionarle algunas herramientas externas, como las API de otros servicios, para que pueda entregar el resultado deseado a través de un bucle de iteraciones o modelos de encadenamiento.


La semana pasada, Huggingface lanzó Agents en su famosa biblioteca de Transformers para:

“construya fácilmente aplicaciones GenerativeAI y agentes autónomos utilizando LLM como OpenAssistant, StarCoder, OpenAI y más”. (c) Felipe Schmid


La biblioteca proporciona una interfaz para encadenar modelos y API capaces de responder consultas complejas en lenguaje natural y admitir datos multimodales (texto, imágenes, video, audio). El aviso en este caso incluye la descripción del agente, un conjunto de herramientas (principalmente algunas otras redes neuronales de casos limitados), algunos ejemplos y una tarea. Los agentes facilitarían el uso del modelo para quienes no son ingenieros, pero también son un buen comienzo para construir un sistema más complejo además de los LLM. Y, por cierto, aquí está la API de Natural Language, un tipo de Internet diferente a lo que conoces.


Por cierto, Twitter se está volviendo realmente loco en estos días con la IA, todo el mundo está construyendo algo sobre los modelos LLM y mostrándolo al mundo. Nunca había visto tanto entusiasmo en la industria. Si quieres investigar qué pasa, te recomiendo que empieces a bucear en la madriguera del conejo con el tweet reciente de Andrew Karpathy.


Copilotos de codificación

Codex , el copiloto de Github ha existido por un tiempo, y hace unos días, como suscriptor de Colab Pro, recibí una carta de Google, diciendo que en junio lo harían (citando la carta)


comience a agregar gradualmente funciones de programación de IA a Colab Entre los primeros en aparecer:

  • sugerencias de una o varias líneas para completar el código;
  • generación de código de lenguaje natural, que le permite enviar solicitudes de generación de código a los modelos de Google y pegarlo en un cuaderno.


Por cierto, la semana pasada Google anunció la familia de modelos PaLM 2 , entre los que se encuentra Codey, el modelo especializado de Google para codificación y depuración, que probablemente estaría potenciando estas funciones anunciadas.


Para concluir esta sección, me gustaría decir que mi elección personal de PNL sobre CV alrededor de 2016 se debió al hecho de que el lenguaje es la forma universal y definitiva en que las personas transfieren información . Incluso pensamos con los conceptos de nuestro idioma, por lo que el sistema es lo suficientemente complejo como para definirnos a nosotros mismos y al mundo que nos rodea. Y eso brinda la posibilidad de crear un sistema impulsado por el lenguaje con habilidades de razonamiento y conciencia que son similares a las humanas o incluso superan ese nivel. Acabamos de arañar la superficie de ese verdadero razonamiento hace aproximadamente medio año. Imagina dónde estamos y lo que seguirá .


El misterio

Si por alguna razón no está familiarizado con Tim Urban, el autor del blog waitbutwhy , lea su publicación sobre AGI , fechada en 2015: vea cómo se veía esto en el pasado, hace solo 7 años, cuando NO había LLM ni Transformer. modelos tampoco. Citaré algunas líneas de su publicación aquí, solo para recordarles dónde estábamos hace 7 años.


¿Hacer una IA que pueda vencer a cualquier humano en el ajedrez? Hecho. ¿Hacer uno que pueda leer un párrafo de un libro ilustrado de un niño de seis años y no solo reconocer las palabras sino comprender su significado? Google actualmente está gastando miles de millones de dólares tratando de hacerlo.


Pero después de lograr AGI, las cosas comenzarán a moverse a un ritmo mucho más rápido, promete. Esto se debe a la ley de rendimientos acelerados formulada por Ray Kurzweil:


Ray Kurzweil llama a la Ley de retornos acelerados de la historia humana. Esto sucede porque las sociedades más avanzadas tienen la capacidad de progresar a un ritmo más rápido que las sociedades menos avanzadas, porque son más avanzadas.


Aplicando esta ley a los LLM actuales, es fácil ir más allá y decir que la capacidad de aprender y razonar sobre todos los datos guardados en Internet llevaría esta memoria sobrehumana al razonamiento a nivel humano y pronto las personas más inteligentes serían burladas por el máquina de la misma manera que el campeón de ajedrez Kasparov fue derrotado por la computadora Deep Blue en 1997.


Esto nos llevaría a la Súper Inteligencia Artificial (ASI), pero aún no sabemos cómo se ve. Tal vez necesitaríamos otro circuito de retroalimentación para entrenarlo, ya que el aprendizaje de retroalimentación humana GPT-4 proporciona solo un razonamiento a nivel humano. Es muy posible que los mejores modelos enseñen a los más débiles y esto sería un proceso iterativo. **Solo especulando, ya veremos.

Lo que Tim realmente describe en la segunda parte de su publicación sobre AGI es que, debido a esta ley de retornos acelerados, es posible que ni siquiera notemos el punto en el que nuestros sistemas superan a AGI y que las cosas estarían un poco fuera de nuestro entendimiento en ese momento.


Por ahora, solo un pequeño porcentaje de personas que trabajan en tecnología entienden el ritmo real del progreso y el asombroso potencial que trae el ajuste de LLM basado en instrucciones. Geoffrey Hinton es uno de ellos, hablando públicamente de riesgos como la presión del mercado laboral, la producción de contenido falso y el uso malicioso. Lo que encuentro aún más importante es que él señala que los sistemas actuales capaces de aprender habilidades complejas sin esfuerzo podrían tener un mejor algoritmo de aprendizaje que los humanos .


La preocupación con los LLM modernos proviene del hecho de que, si bien brindan una gran ventaja en muchas tareas, las habilidades para trabajar con estos modelos (entrenamiento previo, ajuste fino, sugerencias significativas o incorporarlos en productos digitales) es obviamente desigual en la sociedad, tanto en términos de capacitación/costos de uso como de habilidades. Algunas personas de la comunidad de twitter o huggingface argumentarían que ahora tenemos LLM de código abierto bastante capaces como una alternativa a la hegemonía de OpenAI, pero aún así, están siguiendo la tendencia y son menos poderosos, además de que requieren ciertas habilidades para manejar. Y aunque los modelos de OpenAI son un éxito, Microsoft y Google invertirían aún más en esa investigación para tratar de detenerlos. Oh, Meta también, si finalmente dejan ir el Metaverso.


Una de las habilidades más demandadas hoy en día es escribir código: la ingeniería de software dominó la escena tecnológica y los salarios durante los últimos 20 años. Con el estado actual de los copilotos de codificación, parece que una buena parte del código repetitivo pronto se generará o se recuperará y adaptará de manera eficiente, lo que se vería de la misma manera para un usuario, ahorrando mucho tiempo a los desarrolladores y tal vez tomando algún tiempo. oportunidades laborales fuera del mercado.


Hay otra idea en esa muy buena publicación sobre AGI y más allá que suena como que AGI sería capaz de automejorarse de manera autónoma . Por ahora, los LLM de vainilla todavía no son agentes autónomos y de ninguna manera incorporan ninguna fuerza de voluntad, las dos ideas que asustan a la gente. Por si acaso. No confunda el proceso de entrenamiento del modelo que involucra el aprendizaje por refuerzo con la retroalimentación humana, donde el algoritmo RL utilizado es la Optimización de política proximal de OpenAI, y el modelo final es solo una parte del Decodificador del Transformador que predice secuencias de tokens.


Probablemente haya notado que algunos artículos que he citado se publicaron la semana pasada. Estoy seguro de que las próximas semanas traerán nuevos lanzamientos e ideas que desearía haber cubierto en esta publicación, pero esa es la señal del tiempo.


Parece que estamos entrando rápidamente en la nueva era del software y hemos dado algunos pasos hacia el punto de singularidad , ya que las innovaciones en la industria del aprendizaje automático ya están ocurriendo a un ritmo sin precedentes , como varias al mes, mientras que el año pasado vimos solo algunos grandes lanzamientos. ¡Disfruta el viaje!


PD: La próxima explosión sería cuando Musk nos conecte con LLM a través de Neuralink.

pps No se hizo ni una sola llamada a la API de OpenAI para escribir este texto. Te apuesto.