Calibración: aunque es uno de los conceptos más importantes en el aprendizaje automático, no se habla lo suficiente entre los entusiastas principiantes en el espacio AI/ML. La calibración nos dice cuánto podemos confiar en la predicción de un modelo, especialmente en los modelos de clasificación. Tener una buena comprensión de la calibración es una necesidad para la interpretación significativa de los resultados numéricos de los clasificadores de aprendizaje automático. En este artículo, discutiremos la teoría detrás de la calibración del modelo de aprendizaje automático y su importancia a través de algunos ejemplos simples de la vida real.
Un modelo de aprendizaje automático está calibrado si produce probabilidades calibradas. Más específicamente, las probabilidades se calibran donde una predicción de una clase con confianza p es correcta 100*p porcentaje del tiempo
¿Parece complicado?
Entendamos a través de un ejemplo simple:
Consideremos que necesitamos construir un modelo de aprendizaje automático para predecir si lloverá o no en un día en particular. Dado que solo hay 2 resultados posibles: "Lluvia" y "No lluvia", podemos considerar esto como un modelo de clasificación binaria.
Aquí, "Rain" es una clase positiva que se representa como 1 y "No Rain" es una clase negativa que se representa como 0.
Si la predicción del modelo para un día en particular es 1 entonces podemos considerar que se espera que el día sea lluvioso.
De manera similar, si la predicción del modelo para un día en particular es 0, entonces podemos considerar que espera que el día no llueva.
En tiempo real, los modelos de aprendizaje automático a menudo representan la predicción como un vector numérico que representa algunos valores de probabilidad.
Por lo tanto, no es necesario que siempre obtengamos un valor de 0 o 1. Por lo general, si el valor predicho es mayor o igual a 0,5, entonces se considera 1 y si el valor predicho es menor que 0,5, entonces se considera 0 .
Por ejemplo, si la predicción del modelo para un día en particular es 0,66, entonces podemos considerarlo como 1. De manera similar, si la predicción del modelo para un día en particular es 0,24, entonces podemos considerarlo como 0.
Supongamos que nuestro modelo predijo el resultado para los próximos 10 días de esta manera:
Podemos ver que si el valor de probabilidad es mayor o igual a 0.5 entonces la predicción es “Lluvia”.
De manera similar, podemos ver que si el valor de probabilidad es menor que 0.5, entonces la predicción es "No Rain".
Ahora, la pregunta estadística es...
“¿Son los valores de probabilidad valores de probabilidad real para el resultado?”
En otras palabras, si tengo un valor de probabilidad de 0,8, ¿significa que hay un 80 % de posibilidades de que el día sea lluvioso?
Si tengo un valor de probabilidad de 0,2, ¿significa que hay un 20 % de posibilidades de que el día sea lluvioso?
Estadísticamente, si afirmo que mi modelo está calibrado, la respuesta debería ser "Sí".
Los valores de probabilidad no deben ser meros valores umbral para decidir la clase de salida. En su lugar, debe representar la probabilidad real del resultado.
Aquí, el día 1 tiene un valor de probabilidad de 0,81 pero el día 10 tiene un valor de probabilidad de solo 0,76. Esto significa que aunque existe la posibilidad de lluvia en ambos días, el día 1 tiene un 5 % más de posibilidades que el día 10 de ser lluvioso. Esto muestra la fuerza del pronóstico probabilístico del resultado. Un buen estadístico inferirá muchos patrones a partir de una gran cantidad de resultados similares a este si tiene un modelo como este.
Veamos cómo los estadísticos están interpretando la calibración del modelo de forma gráfica.
Considere un gráfico como este con los valores de 0 a 1 divididos por igual en el eje X:
Ahora, en cada cubeta, trace el resultado de acuerdo con sus valores de probabilidad.
Por ejemplo,
En los cubos 0.6-0.8, tenemos 4 puntos de datos: Día 4, Día 8, Día 9 y Día 10.
Del mismo modo, podemos seguir el mismo procedimiento para todos los demás cubos:
Hasta ahora, hemos trazado solo valores pronosticados.
Dado que nuestra clase positiva es "Lluvia", diferenciemos los valores en cada cubo cuyo valor real es "Lluvia".
Ahora, encuentre la fracción de clase positiva en cada cubo:
Una vez que se alcanza esta etapa, solo trace estos valores fraccionarios como una línea a lo largo del eje Y-
La línea no tiene una estructura lineal adecuada. Esto significa que nuestro modelo no está bien calibrado. El gráfico de un modelo bien calibrado se vería así:
Idealmente, un modelo bien calibrado espera una probabilidad de "lluvia" de alrededor del 40 % al 60 % en el tercer cubo (0,4-0,6). Sin embargo, nuestro modelo da solo un 30% de probabilidad de que el resultado sea "Lluvia". Esta es una desviación significativa. Este tipo de desviación también se puede ver en otros cubos.
Algunos estadísticos utilizan el área entre la curva calibrada y la curva de probabilidad del modelo para evaluar el rendimiento del modelo. Cuando el área se vuelve más pequeña, el rendimiento será mayor ya que la curva del modelo estará más cerca de una curva calibrada.
Hay muchos escenarios en tiempo real en los que los usuarios finales de las aplicaciones de ML dependen de la calibración del modelo para una toma de decisiones eficaz y perspicaz, como:
Consideremos que estamos construyendo un modelo basado en clasificaciones para una plataforma de comercio electrónico. Si un modelo está bien calibrado, se puede confiar en sus valores de probabilidad para el propósito de la recomendación. Por ejemplo, el modelo dice que hay un 80 % de posibilidades de que al usuario le guste el Producto A y un 65 % de posibilidades de que al usuario le guste el Producto B. Por lo tanto, podemos recomendar el Producto A al usuario como primera preferencia y el Producto B como segunda preferencia.
En el caso de los ensayos clínicos, considere que algunos médicos están desarrollando medicamentos. Si el modelo predice que 2 medicamentos son muy efectivos para el tratamiento: el medicamento A y el medicamento B. Ahora, los médicos deben elegir la mejor opción disponible de la lista, ya que no pueden correr riesgos, ya que este es un ensayo de alto riesgo que trata con vida humana. Si el modelo da un valor de probabilidad del 95 % para el fármaco A y del 90 % para el fármaco B, entonces los médicos obviamente seguirán adelante con el fármaco A.
En este artículo, analizamos la base teórica de la calibración del modelo y discutimos la importancia de comprender si un clasificador está calibrado o no a través de algunos ejemplos simples de la vida real. Desarrollar la "confiabilidad" para los modelos de aprendizaje automático suele ser un desafío mayor para los investigadores que desarrollarlo o implementarlo en los servidores. La calibración del modelo es extremadamente valiosa en los casos en los que la probabilidad predicha es de interés. Brinda información o comprensión de la incertidumbre en la predicción del modelo y, a su vez, la confiabilidad del modelo para ser entendido por el usuario final, especialmente en aplicaciones críticas.
Espero que este artículo te haya ayudado a obtener un prefacio de este concepto y comprender su importancia. Puede consultar los materiales mencionados en la sección de referencia para obtener una comprensión profunda de los mismos.