Un artículo de preludio que aclara los principios fundamentales y las diferencias entre el aprendizaje "basado en modelos" y "basado en instancias" en las ramas de la inteligencia artificial y el aprendizaje automático.
"Basado en instancias" y "Basado en modelos" son 2 tipos diferentes de enfoques de aprendizaje utilizados por varios algoritmos de aprendizaje automático para realizar su tarea.
Sabemos que el objetivo final de cualquier modelo predictivo es aprender los patrones ocultos dentro de los datos y predecir los valores con una precisión razonable basada en su conocimiento aprendido. Hay 2 enfoques diferentes utilizados por los algoritmos para aprender sobre los datos:
Repasemos una historia simple antes de pasar a los conceptos matemáticos. John y Joseph son mejores amigos que siempre sacan buenas notas en los exámenes. Había otro estudiante en su escuela llamado Kevin. Dado que Kevin es un poco pobre en sus estudios, les pidió a ambos que lo ayudaran con sus estudios, para que él también pudiera obtener buenas calificaciones en el examen. Tanto John como Joseph acordaron que ellos le enseñarán las materias.
El primer día, Kevin fue a la casa de John para aprender matemáticas. John explicó todos los conceptos en profundidad a Kevin y le enseñó varios escenarios y enfoques para resolver diferentes tipos de problemas. También capacitó a Kevin para resolver muchos problemas de muestra y le hizo comprender temas y preguntas con contenido y peso similares en el examen. Kevin se sintió muy confiado y feliz. Además, agradeció a John y salió de su casa.
Foto de Tra Nguyen
El segundo día, Kevin fue a la casa de Joseph para aprender ciencias. Joseph le preguntó si quería entender todos los conceptos y teorías en profundidad sobre el tema o si solo quería la lista de preguntas que aparecerán en el cuestionario porque al memorizar todas las preguntas importantes, es posible obtener buenas calificaciones. incluso sin entender el concepto detrás de cada respuesta. Kevin era intrínsecamente un chico perezoso. Entonces, dijo que no quiere esforzarse en aprender los conceptos y que solo necesita la lista de preguntas importantes para poder memorizar esas respuestas. Joseph dio una lista de 50 preguntas y respuestas importantes y pidió que memorizara todo el contenido.
Foto por Dmitry Ratushny
Finalmente, llegaron los días de exámenes. El primer examen fue de matemáticas. El cuestionario tenía muchas preguntas difíciles, pero Kevin tenía una buena comprensión conceptual que aprendió de John. Resolvió casi todos los problemas y confiaba en obtener el 90 % de las calificaciones.
El segundo examen era de ciencias. Cuando Kevin recibió el cuestionario, se sorprendió porque la mayoría de los problemas provenían de la lista de preguntas y respuestas que ya había memorizado. Recogió todas las respuestas y las escribió cuidadosamente. Por lo tanto, también en ciencias, tenía mucha confianza en obtener una calificación del 90%. Aunque no hizo nada conceptualmente, escribió todo lo que memorizó y logró su objetivo.
Foto de Green Chameleon en Unsplash
El patrón de aprendizaje seguido para las matemáticas se llama "Generalización" y el patrón de aprendizaje seguido para las ciencias se llama "Memorización" . Espero que les haya gustado la historia. Ahora podemos pasar a la explicación del aprendizaje automático.
En la generalización, los modelos siempre intentan aprender sobre el patrón intrínseco, el comportamiento y el concepto general del problema.
Por ejemplo,
Todos conocemos la fórmula de la "regresión lineal" . Se representa como-
Y = m1x1 + m2x2 +... mnxn + c
Dónde,
Supongamos que desarrollamos un modelo de regresión lineal que puede predecir el peso de una persona en función de su edad, estatura y la estatura de sus padres. La representación matemática del modelo será la siguiente:
Peso = 0,3*(Altura) + 0,2*(Edad) + 0,4*(Altura del padre) + 0,1*(Altura de la madre) + 2
Aquí, 0,3, 0,2, 0,4 y 0,1 son los valores de las pendientes que derivamos después de un extenso proceso de ajuste de hiperparámetros. De manera similar, 2 es el valor de la intersección para el plano de regresión.
La representación visual se verá algo así:
Imagen ilustrada por el autor
Aquí, cada característica será una dimensión y los puntos de datos se proyectarán en este espacio multidimensional. Después de este proceso, derivaremos un plano de regresión que puede pasar por estas dimensiones. El valor predicho (Peso) para una "Altura", "Edad", "Altura del padre" y "Altura de la madre" en particular no es más que el valor de este plano de regresión correspondiente a los ejes de coordenadas de las dimensiones de la característica.
En otro aspecto, este modelo trató de comprender la relación lineal entre las variables como edad, altura, etc., y derivó un hiperplano imaginario que puede indicar aproximadamente un valor predicho basado en muchas formaciones de diseño natural en este espacio como Linealidad, Homocedasticidad, Autocorrelación , etc.
El modelo intentará hacer el hiperplano de forma generalizada de modo que el error global en la predicción sea bajo, es decir, la distancia entre los puntos de datos y el plano de regresión sea lo más baja posible. Pudo derivar este hiperplano generalizado debido al aprendizaje que hizo sobre los datos para encontrar varios patrones en el espacio como parte de la actividad de entrenamiento de ML.
Veamos un ejemplo más con otro algoritmo llamado "Máquina de vectores de soporte" .
La máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se usa popularmente para predecir la categoría de puntos de datos etiquetados.
Por ejemplo-
SVM utiliza un plano imaginario que puede viajar a través de múltiples dimensiones para su propósito de predicción. Estos planos imaginarios que pueden viajar a través de múltiples dimensiones se llaman hiperplanos. Es muy difícil imaginar dimensiones superiores usando cerebros humanos ya que nuestro cerebro es naturalmente capaz de visualizar solo hasta 3 dimensiones.
Tomemos un ejemplo simple para entender este escenario.
Tenemos un problema de clasificación para predecir si un estudiante aprobará o reprobará el examen. Tenemos las siguientes características como variables independientes:
Entonces, estas 3 variables independientes se convierten en 3 dimensiones de un espacio como este:
Imagen ilustrada por el autor
Consideremos que nuestros puntos de datos se ven así donde:
Imagen ilustrada por el autor
Ahora, SVM creará un hiperavión que viaje a través de estas 3 dimensiones para diferenciar a los estudiantes reprobados y aprobados.
Imagen ilustrada por el autor
Entonces, técnicamente ahora el modelo entiende que todos los puntos de datos que caen en un lado del hiperplano pertenecen a los estudiantes que aprobaron los exámenes y viceversa. Como vimos en la regresión lineal, el hiperplano SVM también se crea como resultado final del ajuste de hiperparámetros complejos y el aprendizaje realizado por el modelo ML como parte de su actividad de entrenamiento.
¿Encuentra alguna similitud en el enfoque de aprendizaje de los 2 algoritmos mencionados anteriormente?
Ambos intentaron aprender sobre la naturaleza de todo el espacio, los patrones ocultos entre los puntos de datos y varias técnicas de optimización para minimizar los errores, derivando así una función matemática generalizada para resolver el problema. Este enfoque se denomina "aprendizaje basado en modelos" .
El enfoque de aprendizaje de los modelos que siguen el procedimiento de generalización con fines de predicción se denomina aprendizaje basado en modelos.
Ahora veamos otro ejemplo donde necesitamos implementar el algoritmo "K vecino más cercano" .
Podemos considerar el mismo escenario que asumimos para el ejemplo de SVM. Aquí también, necesitamos predecir si un estudiante aprobará o reprobará el examen. Nuestros datos se ven así:
Imagen ilustrada por el autor
Ahora, según el algoritmo KNN, debemos decidir un valor para "K" (el número de vecinos) y anotar la clase de los vecinos más cercanos 'K' para cada uno de los puntos de datos no etiquetados. El valor predicho para el punto de datos sin etiquetar será la clase que tenga una participación mayoritaria entre los vecinos más cercanos “K'”.
Supongamos que le asignamos el valor de K =3. Además, los puntos de datos "a", "b" y "c" son puntos de datos sin etiqueta para los que necesitamos predecir la clase usando este modelo.
Imagen ilustrada por el autor
¿Observó alguna diferencia significativa entre el procedimiento de trabajo de KNN y los otros 2 algoritmos mencionados anteriormente?
En realidad, KNN no pasó por ningún proceso de formación. No aprendió sobre los patrones entre los puntos de datos o suposiciones matemáticas sobre el espacio o incluso no trató de derivar ninguna función matemática para mapear las variables independientes y la variable dependiente. La única variable que un investigador necesita optimizar cuidadosamente es el valor de “K”. Es simplemente memorizar el procedimiento de elegir la clase mayoritaria entre sus vecinos y reclamarla como el valor predicho. No utiliza ninguna técnica de generalización como parte de ninguna función matemática. En su lugar, simplemente memorice el principio de votar y repita esa tarea para cada punto de datos sin etiquetar. Este proceso se llama "Memorización" .
El enfoque de aprendizaje de los modelos que siguen el procedimiento de memorización con fines de predicción se denomina aprendizaje basado en instancias.