Este es un artículo introductorio que explica la intuición básica, la idea matemática y el alcance de las funciones de base radial en el desarrollo de modelos predictivos de aprendizaje automático.
En el aprendizaje automático, la resolución de problemas basada en algoritmos basados en hiperplanos depende en gran medida de la distribución de los puntos de datos en el espacio. Sin embargo, es un hecho conocido que los datos del mundo real rara vez siguen suposiciones teóricas.
Hay muchas funciones de transformación que pueden convertir la forma natural de los puntos de datos en distribuciones teóricamente recomendadas que perseveran en los patrones ocultos de los datos. Radial Basis es una de esas funciones reconocidas que se analiza en muchos libros de texto de aprendizaje automático. En este artículo, aprenderemos sobre la intuición básica, los tipos y el uso de la función de base radial.
La función de base radial es una función matemática que toma una entrada de valor real y genera una salida de valor real basada en la distancia entre el valor de entrada proyectado en el espacio desde un punto fijo imaginario ubicado en otro lugar.
Esta función se usa popularmente en muchos algoritmos de aprendizaje automático y aprendizaje profundo, como máquinas de vectores de soporte, redes neuronales artificiales, etc.
Entendamos el concepto y el uso de esta función matemática.
En tiempo real, cada vez que resolvemos problemas complejos de aprendizaje automático utilizando algoritmos como SVM, necesitamos proyectar todos nuestros puntos de datos en un espacio multidimensional imaginario donde cada característica será una dimensión.
Supongamos que tenemos un problema de clasificación para predecir si un estudiante aprobará o reprobará el examen.
Tenemos las siguientes características como variables independientes:
Entonces, estas 3 variables independientes se convierten en 3 dimensiones de un espacio como este:
Consideremos que nuestros puntos de datos se ven así donde:
El color verde representa a los alumnos que aprobaron el examen.
El color rojo representa a los alumnos que reprobaron el examen.
Ahora, SVM creará un hiperavión que viaje a través de estas 3 dimensiones para diferenciar a los estudiantes reprobados y aprobados.
Entonces, técnicamente ahora el modelo entiende que todos los puntos de datos que caen en un lado del hiperplano pertenecen a los estudiantes que aprobaron los exámenes y viceversa.
En nuestro ejemplo, fue fácil crear el hiperplano porque un hiperplano lineal y recto fue suficiente para discriminar las 2 categorías. Pero en proyectos complejos en tiempo real, estas relaciones pueden violarse en muchos escenarios. Especialmente cuando tiene cientos de variables independientes, no hay posibilidad de obtener una relación lineal entre los puntos de datos, por lo que será difícil crear un hiperplano óptimo.
En tales escenarios, los investigadores generalmente aplican la función de base radial a cada uno de los puntos de datos para que puedan pasar un hiperplano lineal a través de los puntos de datos para resolver el problema fácilmente.
Considere que nuestros puntos de datos se ven así en el espacio-
Está claro que no podemos usar un hiperplano lineal de modo que pueda agrupar los puntos de datos según sus clases.
RBF nos ayudará en este tipo de escenarios.
Algunos investigadores generalmente proyectarán estos puntos de datos en dimensiones mucho más altas para que la distancia entre los puntos de datos aumente y puedan aplicar alguna función (RBF o cualquier otra función) para construir un hiperplano. Pero no es necesario construir dimensiones altas ya que siempre es decisión del estadístico/investigador quien entiende los patrones en los datos.
A continuación, tenemos que marcar un punto imaginario en el espacio como este en cualquier lugar que necesitemos.
Después de eso, necesitamos dibujar algunos círculos concéntricos basados en este punto imaginario.
La distancia entre el centro y cualquier punto de datos ubicado en el límite del círculo se llama radio.
Después de calcular el radio, debemos pasar este valor dentro de una función matemática (RBF) que devolverá un valor real. El valor devuelto será la magnitud transformada de un punto de datos en particular utilizado para procedimientos posteriores.
Existen varios tipos de funciones de base radial. Cada uno de ellos transformará el valor de entrada de una manera diferente. Algunos de ellos son-
Donde,
La función se verá así con respecto al tiempo,
Donde,
Donde,
Explicaré intuitivamente qué harán estas funciones intuitivamente en el espacio. Hay 2 procesos diferentes que se realizan mediante estas funciones:
El proceso de expansión se verá visualmente algo así:
El proceso de compresión se verá visualmente algo así:
Después de la expansión y la compresión, los puntos de datos se habrían transformado así:
Ahora, podemos construir fácilmente un hiperplano lineal que pueda clasificar los puntos de datos como este:
A veces, RBF también se usa junto con redes neuronales artificiales con una capa oculta. En tales tipos de redes, RBF se utilizará como funciones de activación en las capas ocultas. Aparte de la capa oculta, habrá una capa de entrada que contiene varias neuronas donde cada una de ellas representa una variable característica y la capa de salida tendrá una suma ponderada de salidas de la capa oculta para formar las salidas de la red.
Estas redes se denominan redes RBF.
En este artículo, discutimos una de las funciones de transformación más útiles en el aprendizaje automático. He tratado de explicar este concepto complicado sin muchos cálculos matemáticos profundos de una manera lúcida dirigida a los principiantes en el espacio de aprendizaje de AIML.
Esta función está disponible como una biblioteca incorporada en la mayoría de los lenguajes de programación orientados a la ciencia de datos, como Python o R. Por lo tanto, es fácil de implementar una vez que comprende la intuición teórica. He agregado los enlaces a algunos de los materiales avanzados en la sección de referencias donde puede profundizar en los cálculos complejos si está interesado.