11,767 lecturas

Multicolinealidad y su importancia en el aprendizaje automático

por Nikola O.2022/01/04

Demasiado Largo; Para Leer

La multicolinealidad es un desafío bien conocido en la regresión múltiple. El término se refiere a la alta correlación entre dos o más variables explicativas, es decir, predictoras. Puede ser un problema en el aprendizaje automático, pero lo que realmente importa es su caso de uso específico. En muchos casos, la regresión múltiple se usa con el propósito de comprender algo. Por ejemplo, un ecólogo podría querer saber qué tipo de factores ambientales y biológicos provocan cambios en el tamaño de la población de chimpancés. Pensamos en los algoritmos de aprendizaje automático como cajas negras que necesitan predecir, pero esa caja negra a veces también necesita ser entendida. Ahí es cuando la multicolinealidad es un problema.

Company Mentioned

multicolinealidad

De acuerdo a estudio de graham , la multicolinealidad en la regresión múltiple conduce a:

Estimaciones de parámetros inexactas,
poder disminuido
Exclusión de predictores significativos

Como puede ver, todos estos se relacionan con la importancia variable. En muchos casos, la regresión múltiple se usa con el propósito de comprender algo. Por ejemplo, un ecólogo podría querer saber qué tipo de factores ambientales y biológicos provocan cambios en el tamaño de la población de chimpancés. Si el objetivo es la comprensión, la comprobación de la correlación entre los predictores es una práctica estándar. Dicen que una imagen vale más que mil palabras así que veamos algo de multicolinealidad.

Imagine que desea comprender qué impulsa el consumo de combustible en los automóviles. Podemos usar un conjunto de datos llamado mtcars que tiene información sobre millas por galón (mpg) y otros detalles sobre diferentes modelos de automóviles. Cuando graficamos las correlaciones de todas las variables continuas, podemos ver muchas correlaciones fuertes, es decir, multicolinealidad.

Cuando realicé una regresión lineal simple con estos datos, el peso del automóvil (wt) apareció como un predictor estadísticamente significativo. También vemos que otras variables se correlacionan fuertemente con nuestro objetivo (mpg). Aún así, el modelo no los reconoció como predictores importantes debido a la multicolinealidad.

Cuando pensamos en la regresión, debemos hacer una suposición sobre la distribución, la forma de los datos. Cuando necesitamos especificar una distribución, este es un método paramétrico. por ejemplo, el distribución de veneno podría representar recuentos semanales de casos de infección. Por otro lado, los métodos no paramétricos funcionan con distribuciones no especificadas, lo que suele ser el caso de los algoritmos de aprendizaje automático.

Multicolinealidad y Machine Learning

Los algoritmos de aprendizaje automático (ML) generalmente tienen como objetivo lograr la mejor precisión o un error de predicción bajo, no para explicar la verdadera relación entre los predictores y la variable objetivo. Esto puede hacerle creer que la multicolinealidad no es un problema en el aprendizaje automático. De hecho, al buscar "multicolinealidad y aprendizaje automático", uno de los principales resultados de búsqueda fue un historia titulado "Por qué la multicolinealidad no es un problema en el aprendizaje automático".

Yo no sería tan directo.

La multicolinealidad puede ser un problema en el aprendizaje automático.

Por ejemplo, Veaux y Ungar compare dos enfoques no lineales y no paramétricos: red neuronal feedforward y splines de regresión adaptativa multivariante (MARS). El segundo tiene una ventaja sobre las redes neuronales porque mantiene el rendimiento predictivo y ofrece explicabilidad. Por otro lado, MARS lucha con la multicolinealidad mientras que las redes neuronales con su arquitectura redundante no.

Bueno, usemos redes neuronales para todo, ¿no?

Multicolinealidad y explicabilidad de ML

El problema es que, en la práctica, debe explicar el comportamiento de su sistema, especialmente si toma decisiones. Explicabilidad de ML es importante para que las tecnologías inteligentes no hereden sesgos sociales . Además, suponga que sus usuarios viven dentro de la Unión Europea y usted usa toma de decisiones automatizada , por ejemplo, la disminución de la solicitud de crédito en línea. En ese caso, debe poder explicar cómo obtuvo el resultado.

Pero, ¿y si realmente no te importa explicar y entender nada? Solo desea una bonita caja negra que tenga un rendimiento excepcional. Si ese es el caso, usted está fuera de peligro; puede ignorar los predictores correlacionados pero luego no verificar la importancia de la variable cuando alguien le pregunte al respecto.

Para aquellos interesados en manejar características correlacionadas, aquí hay algunos consejos.

Lidiando con la multicolinealidad

Puedes lidiar con la multicolinealidad por

eliminando variables altamente correlacionadas
extraer nuevas características con el análisis de componentes principales (PCA)

PCA es un método de preprocesamiento donde sus predictores se transforman en vectores ortogonales. En palabras humanas, PCA crea nuevos predictores que explican la varianza en las observaciones mejor que el original. Estos nuevos predictores son combinaciones de los datos originales y los llamamos componentes principales.

Ambas soluciones lo limitarán de manera diferente. Como bueno y duro señalar, la eliminación de las variables correlacionadas puede conducir a una pérdida de poder estadístico, es decir, el modelo puede extrañar significativa predictores como con el ejemplo del automóvil de antes. PCA hace que el modelo sea difícil de interpretar, aunque no imposible. Desafortunadamente, no existe una solución milagrosa, pero a menudo no será posible desentrañar completamente las variables explicativas.

Conclusión

Las variables predictivas correlacionadas pueden ser un problema en el aprendizaje automático y los métodos no paramétricos. La multicolinealidad no es su amiga, por lo que siempre debe verificar dos veces si su método elegido puede manejarla automáticamente. Aún así, la solución dependerá de su caso de uso; principalmente, si necesita explicar lo que el modelo ha aprendido o no.

Para una inmersión profunda en el tema, recomiendo leer estudio de graham .