¡Prepárate para un terremoto de IA! Un equipo de investigadores de UCLA ( n, , , ) ha revelado algunas claves importantes sobre AGI. No es solo el código para una IA que suena seriamente humana, sino que también han abierto todo el código. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu Ahora puede desarrollar mejores LLM sin necesidad de alimentarlos con toneladas de datos nuevos anotados por humanos. Primero, centrémonos en lo que cambia las reglas del juego: un modelo de lenguaje de autoaprendizaje. Este método permite que un modelo de lenguaje y sea cada vez mejor sin cantidades masivas de datos nuevos seleccionados externamente. se aprenda por sí solo Presentamos SPIN: el ajuste fino de reproducción automática convierte modelos de lenguaje débiles en modelos de lenguaje fuertes Profundicé por completo: leí su artículo (" "), busqué información en foros como , y con Google Gemini Ultra y GPT-4. Turbo, y el concepto central de SPIN me dejó boquiabierto metafóricamente amante de la tecnología: El autoajuste fino convierte modelos de lenguaje débiles en modelos de lenguaje fuertes HackerNews X Reddit El truco del 'compañero de conversación' Imagínese comenzar con un modelo de lenguaje que domina las habilidades básicas (digamos etiqueta conversacional). Con SPIN, el modelo construye un conjunto de datos a partir de lo que ya sabe. genera "conversaciones" internas y ¡Expansión instantánea del conocimiento! El segundo paso implica lanzar un nuevo modelo y asignarle una tarea: detectar la diferencia entre y la comunicación humana genuina. Esto obliga al modelo original a mejorar su juego, volviéndose cada vez más con cada respuesta para evitar la detección. los chats generados por máquinas humano Aquí es donde las cosas se ponen interesantes. Comenzaron con (ya ajustado con ). SPIN lanzó un sistema de entrenamiento iterativo con este modelo base, mejorándolo exponencialmente sin depender de toneladas de nuevos datos creados externamente. zephyr-7b-sft-full el corpus UltraChat SPIN versus entrenamiento tradicional de IA (DPO): ¿un nuevo campeón? Generalmente pensamos que el aprendizaje automático, particularmente para estos enormes modelos de lenguaje, requiere una gran cantidad de datos cuidadosamente seleccionados y etiquetados. Los métodos implican que los humanos califiquen minuciosamente las respuestas de la IA entre sí para entrenar. Esto no sólo requiere mucha mano de obra, sino que también aumenta los costos a medida que crece el conjunto de datos. de optimización de preferencias directas (DPO) La optimización de preferencias directas (DTO) es un método de entrenamiento en el que un modelo se ajusta utilizando un conjunto de datos de preferencias, que a menudo implica juicios humanos que deciden cuáles de las respuestas generadas por el modelo son las preferidas. Este método requiere recopilar nuevos datos donde cada pieza se etiqueta en función de estas preferencias, lo que puede consumir muchos recursos. Por el contrario, SPIN utiliza , lo que reduce significativamente la necesidad de nuevos datos. reproducción automática iterativa En la primera iteración, , lo que destaca su eficiencia y eficacia a la hora de aprovechar los datos existentes para mejorar el rendimiento del modelo. el rendimiento de SPIN ya supera al de DPO en la mayoría de los casos SPIN muestra su fortaleza al lograr . El proceso de mejora metódicamente el rendimiento del modelo a través de múltiples iteraciones, , especialmente en puntos de referencia desafiantes como TruthfulQA y GSM8k. un rendimiento a la par con modelos entrenados en conjuntos de datos más extensos entrenamiento iterativo mostrando mejoras sustanciales Por lo tanto, SPIN supera a los métodos de entrenamiento convencionales, incluido DPO, al aprovechar de manera eficiente los conjuntos de datos sintéticos generados a través del juego automático, sin la necesidad de datos adicionales anotados por humanos. ¿Cuáles son las fortalezas y los costos de SPIN? SPIN lanza una bola curva con su dinámica de juego autónomo. Piense en ello como un modelo de lenguaje que entrena consigo mismo en un ring de boxeo lingüístico, y en cada ronda le enseña nuevos trucos. La eficiencia de los datos de SPIN evita la necesidad de nuevos conjuntos de datos anotados por humanos. Pero lo más importante es que , . acelera el ciclo de mejora haciendo que el modelo sea cada vez más apto para generar texto similar al humano SPIN no sólo parece coincidir con modelos entrenados en conjuntos de datos externos más grandes, sino que su poder iterativo significa ganancias consistentes, ya que esencialmente estudia su propia producción. Alucinante, ¿verdad? Bien, hablemos del elefante en la habitación – COSTO El cofundador de Nous Research tiene razón. Estos grandes modelos de lenguaje no se vuelven más inteligentes gratis. El reentrenamiento iterativo con SPIN implica el costoso proceso de ajuste fino supervisado (SFT) cada vez. @ Teknium1 Sin embargo, también menciona que "¡Creo que vale la pena!". Además, ¿los beneficios a largo plazo de una evolución más rápida y una dependencia potencialmente menor de los datos anotados por humanos superan la inversión inicial? ¡Ésa es la pregunta apasionante! ¡AUGE! Es hora de utilizar IA de código abierto Ayer mismo, , profesor asociado de informática en UCLA y director de investigación de IA en ByteDance, anunció que . Esto no significa solo código y conjuntos de datos, sino modelos previamente entrenados para impulsar sus propios viajes de IA. Quanquan Gu ahora cualquiera puede utilizar el modelo y el conjunto de datos SPIN SPIN refleja los procesos de pensamiento humano. Al generar texto que parece humano, SPIN insinúa los elementos fundamentales del razonamiento que podría hacer la futura IA. ¿Sabes que algunos resultados de LLM parecen robóticos, verdad? Bueno, SPIN es diferente. En realidad, refleja la forma en que piensan los humanos. La forma en que escribe se siente tan natural que es como un vistazo a cómo la IA del futuro podría razonar por sí misma. No se trata sólo de hacer que los chatbots suenen mejor. Se trata de crear un tipo de pensamiento digital que funcione como el nuestro. Ese tipo de IA sería mucho más flexible y capaz de lograr una comprensión real. Si bien SPIN es un gran paso adelante para hacer que los modelos de lenguaje suenen más naturales, . es fácil entusiasmarse y sobreestimar lo que significa El texto que produce es impresionante (puedes echar un vistazo a la base de datos), pero es importante recordar que la IA aún no tiene la capacidad de un verdadero razonamiento independiente. Si bien SPIN no es un verdadero , la forma en que imita la escritura humana demuestra avances impresionantes en cómo la IA podría procesar y usar el lenguaje en el futuro. AGI Aun así, sugiere posibilidades asombrosas sobre cómo la IA y el lenguaje podrían desarrollarse en el futuro (si recuerdas que estamos en el comienzo del palo de hockey, el futuro no está lejos de hoy...) El efecto dominó será enorme y aquí tienes tu pase de acceso: Código: Disponible en : GitHub https://github.com/uclaml/SPIN Datos: alojado en , el conjunto de datos es fácilmente accesible para aquellos interesados en aplicar metodologías SPIN: Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… Modelos: también hay disponibles modelos previamente entrenados, que ofrecen una ventaja para experimentar con modelos de lenguaje mejorados con SPIN: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… Página del proyecto: para obtener conocimientos completos y más información, la página del proyecto es un recurso invaluable: https://uclaml.github.io/SPIN/ En resumen, su metodología iterativa y de mejora personal es un avance significativo hacia la creación de un LLM que pueda participar en una comunicación genuinamente humana. Compartido originalmente en mi cuenta X.