paint-brush
Explorando la tecnología y los secretos de entrenamiento detrás de ChatGPTpor@ILLA Cloud
1,075 lecturas
1,075 lecturas

Explorando la tecnología y los secretos de entrenamiento detrás de ChatGPT

por ILLA Cloud7m2023/04/24
Read on Terminal Reader

Demasiado Largo; Para Leer

ChatGPT ha ganado una inmensa popularidad debido a sus notables habilidades de conversación. Posee una amplia gama de capacidades, incluida la capacidad de jugar juegos, componer poesía y guiones. ChatGPT está capacitado con un enfoque en los principios éticos, lo que le permite rechazar solicitudes o preguntas que violen sus pautas éticas predeterminadas.
featured image - Explorando la tecnología y los secretos de entrenamiento detrás de ChatGPT
ILLA Cloud HackerNoon profile picture
0-item

ChatGPT ha ganado una inmensa popularidad debido a sus notables habilidades de conversación. Posee una amplia gama de capacidades, incluida la capacidad de jugar juegos, componer poesía y guiones, ayudar en la depuración de programas, crear diseños de sitios web e incluso generar avisos AIGC. Uno puede encontrar varios ejemplos de sus habilidades en Twitter, compilados por Ben Tossell.


De hecho, un profesor de MBA le pidió recientemente a ChatGPT que respondiera sus preguntas de gestión, lo que llevó a la conclusión de que ya no deberían asignar tareas que se puedan llevar a casa. Es evidente que a muchas personas les ha resultado difícil dejar de usar ChatGPT una vez que han comenzado.

ChatGPT

Las formas de mejorar Chatgpt

En comparación con su predecesor, GPT-3, la mejora clave de ChatGPT es su capacidad para retener datos de conversaciones anteriores, brindando a los usuarios una experiencia fluida durante diálogos prolongados.


ChatGPT es capaz de reconocer y corregir sus errores. Si encuentra su respuesta insatisfactoria, puede pedirle que revise su respuesta y ofrezca una mejor solución.


ChatGPT tiene la capacidad de cuestionar y desafiar suposiciones erróneas. En los primeros días del lanzamiento de GPT-3, muchos usuarios tuvieron experiencias negativas debido a que la IA generaba contenido falso que sonaba plausible pero que no se basaba en la realidad. Sin embargo, si le hicieras a ChatGPT una pregunta como "¿Qué estaba haciendo Colón en Estados Unidos en 2015?" reconocería que Colón no existió durante ese tiempo.


Además, ChatGPT está capacitado con un enfoque en los principios éticos, lo que le permite rechazar solicitudes o preguntas que violen sus pautas éticas predeterminadas. Sin embargo, a pesar de la precaución de OpenAI, el cuestionamiento inteligente aún puede permitir eludir estas pautas.

Métodos de entrenamiento de ChatGPT

La metodología de entrenamiento empleada por ChatGPT sigue el enfoque convencional de "ajuste previo al entrenamiento" utilizado para modelos a gran escala. Primero, el modelo se entrena en un extenso conjunto de datos públicos y luego se adapta al dominio de la aplicación específica (como una conversación similar a la humana) mediante el ajuste con un conjunto de datos más pequeño para lograr el rendimiento deseado. El ajuste fino, las indicaciones y otras técnicas no modifican significativamente el núcleo del modelo, pero pueden mejorar significativamente su rendimiento práctico. Sin embargo, la capacidad de GPT-3 para comprender las consultas humanas no es la más natural, y es necesario reestructurar la tarea o ajustar el modelo para que coincida con el trabajo, lo que lleva a una mayor eficiencia.


ChatGPT es un modelo hermano de InstructGPT, que se lanzó en enero de 2022. InstructGPT incorpora demostraciones humanas de la salida del modelo y clasifica los resultados para el entrenamiento, lo que lo hace más adecuado para seguir instrucciones humanas que GPT-3. La innovadora metodología de capacitación de ChatGPT se conoce como "Aprendizaje de refuerzo a partir de la retroalimentación humana" (RLHF).


ChatGPT se basa en el modelo GPT-3.5, aprovecha los conjuntos de datos de texto y código para la capacitación y utiliza los servidores Azure AI de Microsoft para este propósito. El conjunto de datos de entrenamiento GPT-3 original solo contenía texto, por lo que esta versión más nueva tiene la capacidad adicional de comprender y producir código.

GPT3.5

¿Por qué ChatGPT ha mostrado una mejora tan significativa?

Aparte de poseer memoria y la capacidad de entablar un diálogo continuo con el contexto, también es destacable el método de entrenamiento utilizado para ChatGPT. El método RLHF, que se presentó por primera vez en un artículo de investigación en marzo de 2022, no se utilizó durante la capacitación de InstructGPT, a pesar de las especulaciones de la industria.


InstructGPT empleó el modelo text-DaVinci-002, que encontró problemas como el colapso del modo, donde convergió en la misma respuesta independientemente de la pregunta realizada. ChatGPT ha logrado resultados notables con la aplicación exitosa del método RLHF. Sin embargo, RLHF no es fácil de entrenar, ya que con frecuencia se encuentra con problemas como la escasa retroalimentación y el colapso del modo.


El documento se publicó en marzo, pero el lanzamiento de ChatGPT tardó hasta diciembre, ya que se requerían ajustes significativos. Además, el ajuste de instrucciones ha hecho una contribución sustancial al desarrollo de ChatGPT. InstructGPT tiene menos parámetros que GPT-3, pero su salida es superior tanto a GPT-3 como a los modelos ajustados mediante el aprendizaje supervisado. El ajuste de instrucciones y el método de indicaciones comparten un núcleo similar de exploración del conocimiento inherente del modelo de lenguaje. Sin embargo, difieren en que el mensaje estimula la capacidad de finalización del modelo de lenguaje, mientras que el ajuste de instrucciones estimula la capacidad de comprensión del modelo de lenguaje al proporcionar instrucciones claras.


Los modelos más grandes en el pasado se enfocaban en los propios modelos y en la ingeniería rápida, mientras que el enfoque iterativo de ChatGPT está en el ciclo cerrado de la derecha, como se ilustra en la figura a continuación.

El enfoque iterativo de ChatGPT está en el circuito cerrado

Al final, ChatGPT logra un buen equilibrio entre brindar respuestas efectivas y evitar información falsa. Este es un contraste con el modelo Galactica de Meta, que se eliminó solo tres días después del lanzamiento debido a que proporcionó demasiada información falsa.


Parte de la razón de esto fue el marketing exagerado de Meta, que generó expectativas demasiado altas y, en última instancia, provocó la decepción de los investigadores exigentes. Sin embargo, ChatGPT ha realizado un trabajo minucioso de ajuste e ingeniería rápida, lo que ayuda a identificar preguntas contradictorias y brinda a los usuarios más confianza en la precisión de sus respuestas, aunque no puede eliminar por completo el problema de la información falsa.

La estrategia comercial es importante

A diferencia de GPT-3, que cobraba a los usuarios según su uso, ChatGPT actualmente está disponible para el público de forma gratuita y con acceso ilimitado. Esto permite a los usuarios experimentar con todo tipo de ideas extrañas en la plataforma. También se alienta a los usuarios a proporcionar comentarios, que son muy valiosos para OpenAI. Aunque OpenAI no tiene prisa por generar ingresos, ni carece de financiación, los rumores apuntan a que su última valoración ha alcanzado varias decenas de miles de millones de dólares, con Microsoft como principal inversor.


En el desarrollo de la IA, la importancia de la ingeniería es en realidad mayor que la de la ciencia, y es crucial crear un ciclo de retroalimentación iterativo. OpenAI pone un gran énfasis en las aplicaciones comerciales y GPT-3 ya tiene una gran cantidad de clientes. La interacción y los comentarios de estos clientes con OpenAI también son un impulsor clave del progreso.


Por el contrario, el enfoque de puertas cerradas de Google parece obsoleto. Quizás esto se deba a una falta de cultura comercial oa limitaciones en la relación insumo-producto. Google siempre ha sido "moderado" en la aplicación de modelos grandes, incluso si el punto de partida es alto. Si continúa iterando a pequeña escala, como el enfoque de Waymo para la conducción autónoma, eventualmente será superado por empresas más abiertas y ricas en datos.

Clientes empresariales de GPT-3

Mejoras futuras:

RLHF es un método relativamente nuevo y, a medida que OpenAI continúa explorando e incorporando los comentarios de los usuarios recopilados de ChatGPT, todavía hay margen para mejorar aún más el modelo. Específicamente, es necesario abordar los problemas éticos/de alineación y prevenir la información negativa generada por eludir las limitaciones del sistema, como lo descubrieron los usuarios en los últimos días.


Además, vale la pena señalar que OpenAI también tiene herramientas como WebGPT, que puede entenderse como un rastreador web avanzado que extrae información de Internet para responder preguntas y proporcionar las fuentes correspondientes. WebGPT puede utilizar la capacidad de comprensión semántica de GPT-3 y la información pública de Internet para generar respuestas y es una capacidad de búsqueda mejorada prometedora.


Durante una entrevista con científicos de OpenAI realizada por MIT Technology Review, se discutió la posibilidad de fusionar las capacidades de ChatGPT y WebGPT en el futuro. Algunos usuarios de Internet encontraron sugerencias dentro de ChatGPT que sugerían que la función de navegar por páginas web está deshabilitada actualmente, pero es posible que se agregue en el futuro. La combinación de ChatGPT y WebGPT podría generar resultados más cautivadores, ya que la información se actualizaría en tiempo real y facilitaría evaluaciones más precisas de la autenticidad de los hechos.


Cuando se trata de combinar con WebGPT, se relaciona con el lado izquierdo del diagrama de flujo de capacitación LLM impulsado por la acción, que vincula fuentes de información externas y bibliotecas de herramientas. La búsqueda web es solo una posibilidad; ChatGPT también se puede combinar con varias herramientas, como diferentes software de oficina y software SaaS, para proporcionar funciones más diversas.


A nivel de producto, vale la pena discutir mejores interfaces y métodos de implementación. Un formato de cuadro de diálogo de lado a lado puede aumentar las expectativas porque debe garantizar la fluidez de la conversación. Github Copilot hace esto bien. Copilot se especializa en programar parejas y propone sugerencias en forma de pareja. Los usuarios pueden aceptar buenas sugerencias y rechazar las malas. Incluso si se rechazan muchas sugerencias, el placer de recibir una sugerencia efectiva generada a intervalos aleatorios puede ser adictivo. Si ChatGPT se convierte en un asistente de escritura, guion o trabajo en el futuro, una forma de producto similar a Copilot será fácil de aceptar para las personas.


En conclusión, muchas personas están asombradas por las capacidades de ChatGPT, pero la verdadera maravilla aún está por llegar. La fortaleza de OpenAI radica no solo en la comprensión de modelos grandes, sino también en su capacidad para diseñar y recibir retroalimentación de forma iterativa, así como en su trabajo de alineación entre la IA y los objetivos humanos. Las palabras del CEO de OpenAI, Sam Altman, "Confía en lo exponencial. Plano mirando hacia atrás, vertical mirando hacia adelante", expresa nuestro estado actual de despegue.

Presentamos la nube de ILLA

ILLA Cloud es una plataforma de desarrollo de código bajo con docenas de componentes front-end e integraciones de API de base de datos. Puede usar ILLA Cloud para crear la interfaz de front-end arrastrando y soltando componentes y conectándose a su base de datos o API para completar rápidamente el desarrollo completo.


ILLA se enorgullece de anunciar una asociación con Hugging Face, un conjunto de herramientas y servicios de procesamiento de lenguaje natural (NLP). Son más conocidos por su biblioteca NLP de código abierto, que proporciona generación de texto, traducción de idiomas y herramientas de reconocimiento de entidades nombradas. Con Hugging Face, ILLA es más productiva que antes. Nuestros usuarios pueden hacer más con la IA.


ILLA Cloud proporciona docenas de componentes front-end de uso común, lo que le permite crear rápidamente diferentes interfaces front-end en función de sus necesidades específicas. Al mismo tiempo, ILLA ofrece una conexión con Hugging Face, lo que le permite conectarse rápidamente a la API, enviar solicitudes y recibir datos devueltos. Al conectar la API y los componentes de la interfaz, puede implementar el requisito de que los usuarios puedan ingresar contenido a través de la interfaz y enviarlo a la API. La API devuelve el contenido generado para que se muestre en la interfaz.


Para conocer el plan futuro de ILLA Cloud, consulte nuestra hoja de ruta: https://github.com/orgs/illacloud/proyectos/4


Estamos entusiasmados con el futuro de ILLA Cloud y esperamos que usted también lo esté. Si desea unirse a nosotros en este viaje, aquí hay algunas formas en que puede participar:




Únase a nuestra comunidad de Discord: discord.com/invite/illacloud Pruebe ILLA Cloud gratis: cloud.illacloud.com Página de inicio de ILLA: illacloud.com Página de GitHub: github.com/illacloud/illa-builder



También aparece aquí .