paint-brush
LLM para principiantes: guía paso a paso y glosariopor@reneeeshaw
2,439 lecturas
2,439 lecturas

LLM para principiantes: guía paso a paso y glosario

por Renee4m2024/01/26
Read on Terminal Reader

Demasiado Largo; Para Leer

Hay palabras que quizás no conozcas en IA: así es como se las explicaría a un niño de 5 años.
featured image - LLM para principiantes: guía paso a paso y glosario
Renee HackerNoon profile picture
0-item

¿Eres tú 👆? No hiciste CompSci, así que ahora eres el bufón de la corte, tratando rápidamente de ampliar el conocimiento en la __ industria de más rápido movimiento __ que el mundo haya visto jamás.

Toma un respiro. Aquí hay una publicación que vuelve a lo básico donde puedes hacer " una pregunta realmente tonta" y no sentirte juzgado.

Un pequeño glosario de términos de LLM para quienes aprenden

Transformador : más de lo que parece... Un tipo de modelo utilizado en el aprendizaje automático, especialmente para manejar secuencias de datos como texto o audio. Es bueno para comprender el contexto de las oraciones y puede usarse para traducir idiomas, resumir texto o generar respuestas de chatbot.


Modelo de lenguaje grande (LLM): es como una enorme base de datos de conocimientos de idiomas que puede escribir artículos, responder preguntas o crear diálogos realistas.

crédito: autor realizado en excallidraw


Un Transformer es una técnica utilizada en IA para procesar el lenguaje. Un LLM es un gran modelo de IA para tareas lingüísticas, a menudo creado utilizando la técnica Transformer.


Interfaz : la parte de un sistema informático o software que permite a los usuarios interactuar con él. Piense en ello como la interfaz de un programa donde escribe su pregunta o comando y el programa responde.


Inferencia : en IA, esto significa utilizar un modelo entrenado para hacer predicciones o decisiones. Por ejemplo, después de entrenar a un modelo para que reconozca gatos en imágenes, la inferencia es cuando el modelo mira una imagen nueva y decide si hay un gato en ella.🐈‍⬛


Aprendizaje supervisado : una forma de entrenar máquinas en la que se dan ejemplos del modelo con respuestas. Como mostrarle a un programa muchas imágenes de gatos y decirle "Esto es un gato" para que aprenda cómo son los gatos.


Aprendizaje no supervisado ( heeeyo) : entrenar una máquina sin darle las respuestas. El modelo analiza los datos e intenta encontrar patrones o grupos por sí solo. Por ejemplo, podría clasificar diferentes tipos de música en géneros sin que se le indiquen los nombres de los géneros.

un ejemplo de crédito de “aprendizaje de pocas posibilidades”: autor realizado en excallidraw



Aprendizaje por refuerzo : enseñar a las máquinas mediante prueba y error. La máquina toma decisiones en una situación y obtiene recompensas o penalizaciones en función de si sus decisiones son buenas o malas, aprendiendo con el tiempo a tomar mejores decisiones ( o a volverse resentida y reservada).


Red neuronal : diseñada para funcionar un poco como un cerebro humano. Consta de muchas unidades pequeñas (como células cerebrales) que trabajan juntas para procesar información y resolver problemas.

Creando un LLM

Recopilando sus datos


Comience recopilando una amplia variedad de datos de texto. Esto podría incluir libros, artículos en línea o datos de bases de datos. Cuanto más diversos sean sus datos, mejor comprenderá su LLM los diferentes aspectos del lenguaje.


Kaggle tiene excelentes datos para proyectos de ciencia de datos y aprendizaje automático. Echa un vistazo al local australiano y gran maestro de Kaggle, Jeremy Howard .


GitHub suele alojar conjuntos de datos publicados por investigadores y desarrolladores. Buen lugar para buscar.


Vale la pena mencionar : Google Scholar para conjuntos de datos relacionados con artículos y sitios gubernamentales

Preprocesamiento de datos


Ahora, limpia estos datos. Este paso consiste en corregir errores, eliminar partes que no son útiles y organizarlas para que su IA pueda aprender de ellas de manera efectiva.


Consideraciones

¿Cómo manejará los valores faltantes, solucionará problemas de formato y manejará datos duplicados?


Elegir una arquitectura modelo

La arquitectura del modelo es esencialmente el diseño o estructura del modelo, que actúa como modelo que guía cómo la IA procesa la información.


La arquitectura Transformer está particularmente diseñada para manejar datos secuenciales como texto, enfocándose en comprender el contexto dentro de los datos, y nos quedaremos con eso por hoy.

Entrenando el modelo

Introduzca los datos preparados en su modelo de IA. Aquí es donde tu IA comienza a aprender las complejidades del lenguaje. La capacitación puede consumir mucho tiempo y recursos, especialmente si se trata de una gran cantidad de datos. (Aquí es donde me gustaría mencionar a mis amigos de Unsloth , el podcast estará disponible próximamente)

Pruebas y refinamiento

Después de la capacitación, evalúe qué tan bien su IA comprende y genera el lenguaje. Dependiendo de los resultados, es posible que deba realizar ajustes y volver a entrenar para mejorar su rendimiento.


crédito: autor realizado en excallidraw


Ejecutando el LLM

Ahora bien, ¿cómo se maneja a la bestia?

En lugar de crear un LLM desde cero, puede utilizar Hugging Face para acceder a modelos ya entrenados con cantidades increíbles de datos. Puede ejecutar estos modelos en su servicio en la nube o descargarlos para ejecutarlos localmente en su máquina.


Independientemente de su elección, la clave es tener un modelo LLM capacitado y los medios para interactuar con él, ya sea a través de Internet o directamente en su computadora.

crédito autor realizado en excallidraw


Esta es la primera parte de una serie de publicaciones destinadas a reducir la barrera de comprensión y adopción de la IA de código abierto.


Escribo y produzco podcasts aquí.

(aprendizaje sin supervisión


Otros enlaces aquí https://linktr.ee/Unsupervisedlearning


También publicado aquí