paint-brush
Las nociones detrás del aprendizaje "basado en modelos" y "basado en instancias" en AI y MLpor@sanjaykn170396
2,110 lecturas
2,110 lecturas

Las nociones detrás del aprendizaje "basado en modelos" y "basado en instancias" en AI y ML

por Sanjay Kumar9m2022/12/15
Read on Terminal Reader

Demasiado Largo; Para Leer

Un artículo de preludio que aclara los principios fundamentales y las diferencias entre el aprendizaje "basado en modelos" y el "aprendizaje" basado en Instagram en las ramas de la inteligencia artificial y el aprendizaje automático. Hay 2 enfoques diferentes utilizados por los algoritmos para aprender sobre los datos: 'Generalización' y 'Memorización'. El patrón de aprendizaje seguido para las matemáticas se llama "Generalización" y "Memorización" son dos tipos diferentes de enfoques de aprendizaje.
featured image - Las nociones detrás del aprendizaje "basado en modelos" y "basado en instancias" en AI y ML
Sanjay Kumar HackerNoon profile picture
Un artículo de preludio que aclara los principios fundamentales y las diferencias entre el aprendizaje "basado en modelos" y "basado en instancias" en las ramas de la inteligencia artificial y el aprendizaje automático.

Tabla de contenido

  • Introducción
  • La idea instintiva detrás de "Generalización" y "Memorización"
  • El concepto detrás del aprendizaje "basado en modelos"
  • El concepto detrás del aprendizaje "basado en instancias"
  • resumen
  • Referencias

Introducción

"Basado en instancias" y "Basado en modelos" son 2 tipos diferentes de enfoques de aprendizaje utilizados por varios algoritmos de aprendizaje automático para realizar su tarea.

Sabemos que el objetivo final de cualquier modelo predictivo es aprender los patrones ocultos dentro de los datos y predecir los valores con una precisión razonable basada en su conocimiento aprendido. Hay 2 enfoques diferentes utilizados por los algoritmos para aprender sobre los datos:

  • Generalización
  • Memorización

La idea instintiva detrás de "Generalización" y "Memorización"

Repasemos una historia simple antes de pasar a los conceptos matemáticos. John y Joseph son mejores amigos que siempre sacan buenas notas en los exámenes. Había otro estudiante en su escuela llamado Kevin. Dado que Kevin es un poco pobre en sus estudios, les pidió a ambos que lo ayudaran con sus estudios, para que él también pudiera obtener buenas calificaciones en el examen. Tanto John como Joseph acordaron que ellos le enseñarán las materias.

El primer día, Kevin fue a la casa de John para aprender matemáticas. John explicó todos los conceptos en profundidad a Kevin y le enseñó varios escenarios y enfoques para resolver diferentes tipos de problemas. También capacitó a Kevin para resolver muchos problemas de muestra y le hizo comprender temas y preguntas con contenido y peso similares en el examen. Kevin se sintió muy confiado y feliz. Además, agradeció a John y salió de su casa.

Foto de Tra Nguyen

El segundo día, Kevin fue a la casa de Joseph para aprender ciencias. Joseph le preguntó si quería entender todos los conceptos y teorías en profundidad sobre el tema o si solo quería la lista de preguntas que aparecerán en el cuestionario porque al memorizar todas las preguntas importantes, es posible obtener buenas calificaciones. incluso sin entender el concepto detrás de cada respuesta. Kevin era intrínsecamente un chico perezoso. Entonces, dijo que no quiere esforzarse en aprender los conceptos y que solo necesita la lista de preguntas importantes para poder memorizar esas respuestas. Joseph dio una lista de 50 preguntas y respuestas importantes y pidió que memorizara todo el contenido.

Foto por Dmitry Ratushny

Finalmente, llegaron los días de exámenes. El primer examen fue de matemáticas. El cuestionario tenía muchas preguntas difíciles, pero Kevin tenía una buena comprensión conceptual que aprendió de John. Resolvió casi todos los problemas y confiaba en obtener el 90 % de las calificaciones.

El segundo examen era de ciencias. Cuando Kevin recibió el cuestionario, se sorprendió porque la mayoría de los problemas provenían de la lista de preguntas y respuestas que ya había memorizado. Recogió todas las respuestas y las escribió cuidadosamente. Por lo tanto, también en ciencias, tenía mucha confianza en obtener una calificación del 90%. Aunque no hizo nada conceptualmente, escribió todo lo que memorizó y logró su objetivo.

Foto de Green Chameleon en Unsplash

El patrón de aprendizaje seguido para las matemáticas se llama "Generalización" y el patrón de aprendizaje seguido para las ciencias se llama "Memorización" . Espero que les haya gustado la historia. Ahora podemos pasar a la explicación del aprendizaje automático.

El concepto detrás del aprendizaje "basado en modelos"

En la generalización, los modelos siempre intentan aprender sobre el patrón intrínseco, el comportamiento y el concepto general del problema.

Por ejemplo,

Todos conocemos la fórmula de la "regresión lineal" . Se representa como-

Y = m1x1 + m2x2 +... mnxn + c

Dónde,

  • Y = variable dependiente
  • x1,x2 ..xn son variables independientes
  • m1, m2 ...mn son las pendientes de las correspondientes variables independientes.
  • c es la intersección

Supongamos que desarrollamos un modelo de regresión lineal que puede predecir el peso de una persona en función de su edad, estatura y la estatura de sus padres. La representación matemática del modelo será la siguiente:

Peso = 0,3*(Altura) + 0,2*(Edad) + 0,4*(Altura del padre) + 0,1*(Altura de la madre) + 2

Aquí, 0,3, 0,2, 0,4 y 0,1 son los valores de las pendientes que derivamos después de un extenso proceso de ajuste de hiperparámetros. De manera similar, 2 es el valor de la intersección para el plano de regresión.

La representación visual se verá algo así:

Imagen ilustrada por el autor

Aquí, cada característica será una dimensión y los puntos de datos se proyectarán en este espacio multidimensional. Después de este proceso, derivaremos un plano de regresión que puede pasar por estas dimensiones. El valor predicho (Peso) para una "Altura", "Edad", "Altura del padre" y "Altura de la madre" en particular no es más que el valor de este plano de regresión correspondiente a los ejes de coordenadas de las dimensiones de la característica.

En otro aspecto, este modelo trató de comprender la relación lineal entre las variables como edad, altura, etc., y derivó un hiperplano imaginario que puede indicar aproximadamente un valor predicho basado en muchas formaciones de diseño natural en este espacio como Linealidad, Homocedasticidad, Autocorrelación , etc.

El modelo intentará hacer el hiperplano de forma generalizada de modo que el error global en la predicción sea bajo, es decir, la distancia entre los puntos de datos y el plano de regresión sea lo más baja posible. Pudo derivar este hiperplano generalizado debido al aprendizaje que hizo sobre los datos para encontrar varios patrones en el espacio como parte de la actividad de entrenamiento de ML.

Veamos un ejemplo más con otro algoritmo llamado "Máquina de vectores de soporte" .

La máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se usa popularmente para predecir la categoría de puntos de datos etiquetados.

Por ejemplo-

  • Predecir si una persona es hombre o mujer
  • Predecir si la fruta es una manzana o una naranja
  • Predecir si un estudiante aprobará o reprobará los exámenes, etc.

SVM utiliza un plano imaginario que puede viajar a través de múltiples dimensiones para su propósito de predicción. Estos planos imaginarios que pueden viajar a través de múltiples dimensiones se llaman hiperplanos. Es muy difícil imaginar dimensiones superiores usando cerebros humanos ya que nuestro cerebro es naturalmente capaz de visualizar solo hasta 3 dimensiones.

Tomemos un ejemplo simple para entender este escenario.

Tenemos un problema de clasificación para predecir si un estudiante aprobará o reprobará el examen. Tenemos las siguientes características como variables independientes:

  • Notas en exámenes internos
  • Marcas en proyectos
  • porcentaje de asistencia

Entonces, estas 3 variables independientes se convierten en 3 dimensiones de un espacio como este:

Imagen ilustrada por el autor

Consideremos que nuestros puntos de datos se ven así donde:

  • El color verde representa a los alumnos que aprobaron el examen.
  • El color rojo representa a los alumnos que reprobaron el examen

Imagen ilustrada por el autor

Ahora, SVM creará un hiperavión que viaje a través de estas 3 dimensiones para diferenciar a los estudiantes reprobados y aprobados.

Imagen ilustrada por el autor

Entonces, técnicamente ahora el modelo entiende que todos los puntos de datos que caen en un lado del hiperplano pertenecen a los estudiantes que aprobaron los exámenes y viceversa. Como vimos en la regresión lineal, el hiperplano SVM también se crea como resultado final del ajuste de hiperparámetros complejos y el aprendizaje realizado por el modelo ML como parte de su actividad de entrenamiento.

¿Encuentra alguna similitud en el enfoque de aprendizaje de los 2 algoritmos mencionados anteriormente?

Ambos intentaron aprender sobre la naturaleza de todo el espacio, los patrones ocultos entre los puntos de datos y varias técnicas de optimización para minimizar los errores, derivando así una función matemática generalizada para resolver el problema. Este enfoque se denomina "aprendizaje basado en modelos" .

El enfoque de aprendizaje de los modelos que siguen el procedimiento de generalización con fines de predicción se denomina aprendizaje basado en modelos.

El concepto detrás del aprendizaje "basado en instancias"

Ahora veamos otro ejemplo donde necesitamos implementar el algoritmo "K vecino más cercano" .

Podemos considerar el mismo escenario que asumimos para el ejemplo de SVM. Aquí también, necesitamos predecir si un estudiante aprobará o reprobará el examen. Nuestros datos se ven así:

Imagen ilustrada por el autor

Ahora, según el algoritmo KNN, debemos decidir un valor para "K" (el número de vecinos) y anotar la clase de los vecinos más cercanos 'K' para cada uno de los puntos de datos no etiquetados. El valor predicho para el punto de datos sin etiquetar será la clase que tenga una participación mayoritaria entre los vecinos más cercanos “K'”.

Supongamos que le asignamos el valor de K =3. Además, los puntos de datos "a", "b" y "c" son puntos de datos sin etiqueta para los que necesitamos predecir la clase usando este modelo.

    Imagen ilustrada por el autor

  • Para el punto de datos "a", los 3 vecinos son "rojos". Por lo tanto, podemos predecir que este estudiante probablemente suspenderá el examen.
  • Para el punto de datos "b", 2 de los 3 vecinos son "rojos" y 1 vecino es "verde". La mayoría de los vecinos más cercanos "K" pertenecen a la clase "fallida". Por lo tanto, podemos predecir que este estudiante probablemente suspenderá el examen. Si al menos 2 de 3 vecinos fueran “verdes”, habríamos pronosticado que este alumno aprobará el examen ya que la mayoría apoyará la clase “aprobado” en ese caso.
  • Para el punto de datos "c", todos los 3 vecinos son "verdes". Por lo tanto, podemos predecir que este estudiante probablemente aprobará el examen.

¿Observó alguna diferencia significativa entre el procedimiento de trabajo de KNN y los otros 2 algoritmos mencionados anteriormente?

En realidad, KNN no pasó por ningún proceso de formación. No aprendió sobre los patrones entre los puntos de datos o suposiciones matemáticas sobre el espacio o incluso no trató de derivar ninguna función matemática para mapear las variables independientes y la variable dependiente. La única variable que un investigador necesita optimizar cuidadosamente es el valor de “K”. Es simplemente memorizar el procedimiento de elegir la clase mayoritaria entre sus vecinos y reclamarla como el valor predicho. No utiliza ninguna técnica de generalización como parte de ninguna función matemática. En su lugar, simplemente memorice el principio de votar y repita esa tarea para cada punto de datos sin etiquetar. Este proceso se llama "Memorización" .

El enfoque de aprendizaje de los modelos que siguen el procedimiento de memorización con fines de predicción se denomina aprendizaje basado en instancias. 

resumen

  • El aprendizaje basado en modelos se centra en el proceso de descubrir los patrones ocultos entre los puntos de datos, optimizando así los parámetros a través del entrenamiento de todo el conjunto de datos . El aprendizaje basado en instancias no entrena todo el conjunto de datos. En cambio, solo hace la predicción para un punto de datos sin etiquetar en particular siguiendo algunas reglas simples configuradas por el investigador.
  • En el aprendizaje basado en modelos, podemos eliminar los datos de entrenamiento del sistema ya que el modelo ya ha aprendido todos los patrones de ese conjunto de datos. Sin embargo, en el aprendizaje basado en instancias, los datos de entrenamiento deben mantenerse como están, ya que el modelo usa las etiquetas de la totalidad o parte de las muestras de entrenamiento con fines de predicción.
  • En el aprendizaje basado en modelos, la predicción será un proceso rápido . Sin embargo, en el aprendizaje basado en instancias, la predicción será comparativamente lenta porque no tiene ninguna función matemática para pasar rápidamente los valores de entrada y derivar la salida. En su lugar, debe dedicar algo de tiempo a la comparación y la toma de decisiones basada en reglas para cada uno de los puntos de datos no etiquetados comparándolos con varias muestras de capacitación. En otras palabras, estos modelos retrasan el procesamiento hasta que se debe clasificar una nueva instancia. Por esta razón, también se les llama aprendices perezosos.
  • Los estudiantes basados en instancias pueden ser fácilmente engañados al proporcionar características irrelevantes . Sin embargo, en el aprendizaje basado en modelos, los modelos llegarán a conocer la importancia de varias características, ya que pasan por varias técnicas de optimización.
  • Los estudiantes basados en instancias son buenos para manejar datos ruidosos y no pierden ninguna información. Sin embargo, los estudiantes basados en modelos no pueden manejar bien los puntos de datos ruidosos. Los valores atípicos y las anomalías generalmente se eliminan del conjunto de datos en la etapa de modelado previo para contrarrestar este desafío. Pero debe tenerse en cuenta que la eliminación de los valores atípicos puede provocar la pérdida de cierta información sobre las características generales del conjunto de datos que podría afectar la capacidad predictiva del modelo.

Referencias