¡Hola a todos! Soy Nataraj y, al igual que tú, me han fascinado los recientes avances de la inteligencia artificial. Al darme cuenta de que necesitaba estar al tanto de todos los avances que ocurrían, decidí embarcarme en un viaje personal de aprendizaje, ¡así nació 100 días de IA ! Con esta serie, aprenderé sobre los LLM y compartiré ideas, experimentos, opiniones, tendencias y aprendizajes a través de las publicaciones de mi blog. Puede seguir el viaje en HackerNoon aquí o en mi sitio web personal aquí . En el artículo de hoy, buscaremos construir un kernel semántico con la ayuda de GPT-4.
Si ha estado siguiendo la IA generativa o el espacio LLM, ya habrá oído hablar de Finetuning. En esta publicación, intentemos comprender qué es el ajuste y cuál es su papel en el desarrollo de aplicaciones de IA genérica.
El ajuste es un proceso de modificación de un modelo base de propósito general para que funcione en un caso de uso especializado. Por ejemplo, tomemos el modelo gpt-3 de Open AI. Gpt-3 es un modelo base que fue perfeccionado con el propósito de ser un bot de chat que resultó en lo que la gente ahora llama aplicación chat-gpt. Otro ejemplo sería modificar el modelo GPT-4 para que sea copiloto para codificadores, lo que se hizo para crear el copiloto de GitHub.
El ajuste nos permite superar la limitación de los modelos base. Los modelos base como gpt-3 de Open AI o Llama de Meta generalmente se entrenan con todos los datos de Internet. Pero no tienen el contexto de los datos internos de su organización. Y no es posible proporcionar todos los datos que son relevantes para su organización o caso de uso propietario mediante un mensaje. El ajuste fino nos permite incluir muchos más datos de los que nos permite la ingeniería rápida. El ajuste también permite que el modelo genere resultados consistentes, reduzca las alucinaciones y personalice el modelo para un caso de uso particular.
Hemos visto lo poderosa que puede ser la ingeniería rápida en publicaciones anteriores . Entonces, ¿en qué se diferencia el ajuste fino? El ajuste fino es para casos de uso de aplicaciones empresariales, mientras que la ingeniería rápida es para casos de uso generales y no requiere datos. Se puede utilizar con datos adicionales con RAG como técnica, pero no se puede utilizar con datos de gran tamaño que existen en casos de uso empresarial. El ajuste permite datos ilimitados, hace que el modelo aprenda nueva información y también se puede utilizar junto con un RAG.
Tomemos un ejemplo que podría darle una mejor intuición de la diferencia entre modelos ajustados y no ajustados. Estoy usando las bibliotecas de Lamini para llamar a modelos Llama ajustados y no ajustados para mostrar la diferencia. Necesitará la clave API de Lamini para este propósito. Lamini proporciona una manera sencilla y fácil de interactuar con LLM de código abierto. Échale un vistazo aquí si quieres saber más al respecto.
En este ejemplo, les he hecho a ambos modelos la misma pregunta: "¿Qué piensas de la muerte?" y aquí están las respuestas.
Notarás que la primera respuesta fue solo la repetición de una sola línea, mientras que la segunda respuesta fue mucho más coherente. Antes de hablar de lo que está sucediendo aquí, tomemos otro ejemplo en el que le pregunto al modelo "¿Cuál es tu nombre?". Esto es lo que tengo.
En las respuestas del modelo no ajustadas, las respuestas son extrañas porque el modelo solo hace una cosa. Está tratando de predecir el siguiente texto probable basándose en el texto ingresado, sin darse cuenta de que le planteó una pregunta. Los modelos basados en datos de Internet son máquinas de predicción de texto e intentan predecir el siguiente mejor texto. Con el ajuste, el modelo se entrena para basar su respuesta proporcionando datos adicionales y aprende un nuevo comportamiento que consiste en actuar como un chatbot destinado a responder preguntas. También tenga en cuenta que en la mayoría de los modelos cerrados, como gpt-3 o gpt-4 de Open AI, no sabemos exactamente con qué datos están entrenados. Pero existen algunos conjuntos de datos abiertos interesantes que se pueden utilizar para entrenar sus modelos. Más sobre eso más adelante.
Eso es todo por el día 11 de 100 días de IA.
Escribo un boletín llamado Above Average donde hablo sobre los conocimientos de segundo orden detrás de todo lo que está sucediendo en la gran tecnología. Si estás en tecnología y no quieres ser promedio, suscríbete .
Sígueme en Twitter , LinkedIn o HackerNoon para obtener las últimas actualizaciones sobre 100 días de IA. Si está en tecnología, es posible que le interese unirse a mi comunidad de profesionales de la tecnología aquí .