3,643 lecturas

LLM para principiantes: guía paso a paso y glosario

por Renee4m2024/01/26

Demasiado Largo; Para Leer

Hay palabras que quizás no conozcas en IA: así es como se las explicaría a un niño de 5 años.

featured image - LLM para principiantes: guía paso a paso y glosario

¿Eres tú 👆? No hiciste CompSci, así que ahora eres el bufón de la corte, tratando rápidamente de ampliar el conocimiento en la __ industria de más rápido movimiento __ que el mundo haya visto jamás.

Toma un respiro. Aquí hay una publicación que vuelve a lo básico donde puedes hacer " una pregunta realmente tonta" y no sentirte juzgado.

Un pequeño glosario de términos de LLM para quienes aprenden

Transformador : más de lo que parece... Un tipo de modelo utilizado en el aprendizaje automático, especialmente para manejar secuencias de datos como texto o audio. Es bueno para comprender el contexto de las oraciones y puede usarse para traducir idiomas, resumir texto o generar respuestas de chatbot.

Modelo de lenguaje grande (LLM): es como una enorme base de datos de conocimientos de idiomas que puede escribir artículos, responder preguntas o crear diálogos realistas.

Un Transformer es una técnica utilizada en IA para procesar el lenguaje. Un LLM es un gran modelo de IA para tareas lingüísticas, a menudo creado utilizando la técnica Transformer.

Interfaz : la parte de un sistema informático o software que permite a los usuarios interactuar con él. Piense en ello como la interfaz de un programa donde escribe su pregunta o comando y el programa responde.

Inferencia : en IA, esto significa utilizar un modelo entrenado para hacer predicciones o decisiones. Por ejemplo, después de entrenar a un modelo para que reconozca gatos en imágenes, la inferencia es cuando el modelo mira una imagen nueva y decide si hay un gato en ella.🐈‍⬛

Aprendizaje supervisado : una forma de entrenar máquinas en la que se dan ejemplos del modelo con respuestas. Como mostrarle a un programa muchas imágenes de gatos y decirle "Esto es un gato" para que aprenda cómo son los gatos.

Aprendizaje no supervisado ( heeeyo) : entrenar una máquina sin darle las respuestas. El modelo analiza los datos e intenta encontrar patrones o grupos por sí solo. Por ejemplo, podría clasificar diferentes tipos de música en géneros sin que se le indiquen los nombres de los géneros.

Aprendizaje por refuerzo : enseñar a las máquinas mediante prueba y error. La máquina toma decisiones en una situación y obtiene recompensas o penalizaciones en función de si sus decisiones son buenas o malas, aprendiendo con el tiempo a tomar mejores decisiones ( o a volverse resentida y reservada).

Red neuronal : diseñada para funcionar un poco como un cerebro humano. Consta de muchas unidades pequeñas (como células cerebrales) que trabajan juntas para procesar información y resolver problemas.

Creando un LLM

Recopilando sus datos

Comience recopilando una amplia variedad de datos de texto. Esto podría incluir libros, artículos en línea o datos de bases de datos. Cuanto más diversos sean sus datos, mejor comprenderá su LLM los diferentes aspectos del lenguaje.

Kaggle tiene excelentes datos para proyectos de ciencia de datos y aprendizaje automático. Echa un vistazo al local australiano y gran maestro de Kaggle, Jeremy Howard .

GitHub suele alojar conjuntos de datos publicados por investigadores y desarrolladores. Buen lugar para buscar.

Vale la pena mencionar : Google Scholar para conjuntos de datos relacionados con artículos y sitios gubernamentales

Preprocesamiento de datos

Ahora, limpia estos datos. Este paso consiste en corregir errores, eliminar partes que no son útiles y organizarlas para que su IA pueda aprender de ellas de manera efectiva.

Consideraciones

¿Cómo manejará los valores faltantes, solucionará problemas de formato y manejará datos duplicados?

Elegir una arquitectura modelo

La arquitectura del modelo es esencialmente el diseño o estructura del modelo, que actúa como modelo que guía cómo la IA procesa la información.

La arquitectura Transformer está particularmente diseñada para manejar datos secuenciales como texto, enfocándose en comprender el contexto dentro de los datos, y nos quedaremos con eso por hoy.

Entrenando el modelo

Introduzca los datos preparados en su modelo de IA. Aquí es donde tu IA comienza a aprender las complejidades del lenguaje. La capacitación puede consumir mucho tiempo y recursos, especialmente si se trata de una gran cantidad de datos. (Aquí es donde me gustaría mencionar a mis amigos de Unsloth , el podcast estará disponible próximamente)

Pruebas y refinamiento

Después de la capacitación, evalúe qué tan bien su IA comprende y genera el lenguaje. Dependiendo de los resultados, es posible que deba realizar ajustes y volver a entrenar para mejorar su rendimiento.

Ejecutando el LLM

Ahora bien, ¿cómo se maneja a la bestia?

En lugar de crear un LLM desde cero, puede utilizar Hugging Face para acceder a modelos ya entrenados con cantidades increíbles de datos. Puede ejecutar estos modelos en su servicio en la nube o descargarlos para ejecutarlos localmente en su máquina.

Independientemente de su elección, la clave es tener un modelo LLM capacitado y los medios para interactuar con él, ya sea a través de Internet o directamente en su computadora.