Este é um artigo introdutório que explica a intuição básica, a ideia matemática e o escopo das funções de base radial no desenvolvimento de modelos preditivos de aprendizado de máquina.
No aprendizado de máquina, a solução de problemas baseada em algoritmos baseados em hiperplanos depende muito da distribuição dos pontos de dados no espaço. No entanto, é um fato conhecido que os dados do mundo real raramente seguem suposições teóricas.
Existem muitas funções de transformação que podem converter a forma natural dos pontos de dados em distribuições teoricamente recomendadas, preservando os padrões ocultos dos dados. Radial Basis é uma dessas funções renomadas que é discutida em muitos livros didáticos de aprendizado de máquina. Neste artigo, aprenderemos sobre intuição básica, tipos e uso da função de base radial.
A função de base radial é uma função matemática que recebe uma entrada de valor real e gera uma saída de valor real com base na distância entre o valor de entrada projetado no espaço de um ponto fixo imaginário colocado em outro lugar.
Essa função é popularmente usada em muitos algoritmos de aprendizado de máquina e aprendizado profundo, como máquinas de vetores de suporte, redes neurais artificiais, etc.
Vamos entender o conceito e o uso dessa função matemática.
Em tempo real, sempre que resolvemos problemas complexos de aprendizado de máquina usando algoritmos como SVM, precisamos projetar todos os nossos pontos de dados em um espaço multidimensional imaginário onde cada recurso será uma dimensão.
Vamos supor que temos um problema de classificação para prever se um aluno será aprovado ou reprovado no exame.
Temos as seguintes características como variáveis independentes:
Então, essas 3 variáveis independentes tornam-se 3 dimensões de um espaço como este-
Vamos considerar que nossos pontos de dados se parecem com isso onde-
A cor verde representa os alunos que passaram no exame
A cor vermelha representa os alunos que falharam no exame
Agora, o SVM criará um hiperplano que percorre essas 3 dimensões para diferenciar os alunos reprovados dos aprovados.
Portanto, tecnicamente agora o modelo entende que todos os pontos de dados que caem em um lado do hiperplano pertencem aos alunos que passaram nos exames e vice-versa.
Em nosso exemplo, foi fácil criar o hiperplano porque um hiperplano linear e reto era suficiente para discriminar as 2 categorias. Mas em projetos complexos em tempo real, essas relações podem ser violadas em muitos cenários. Especialmente quando você tem centenas de variáveis independentes, não há possibilidade de obter uma relação linear entre os pontos de dados de forma que seja difícil criar um hiperplano ideal.
Nesses cenários, os pesquisadores geralmente aplicam a função de base radial a cada um dos pontos de dados para que possam passar um hiperplano linear pelos pontos de dados para resolver facilmente o problema.
Considere que nossos pontos de dados estão assim no espaço-
É claro que não podemos usar um hiperplano linear de forma que ele possa agrupar os pontos de dados de acordo com suas classes.
O RBF nos ajudará nesses tipos de cenários.
Alguns pesquisadores geralmente projetam esses pontos de dados em dimensões muito maiores para que a distância entre os pontos de dados seja crescente para que possam aplicar alguma função (RBF ou qualquer outra função) para construir um hiperplano. Mas não é necessário construir dimensões altas, pois é sempre decisão do estatístico/pesquisador que entende os padrões dos dados.
Em seguida, temos que marcar um ponto imaginário no espaço como este onde precisarmos.
Depois disso, precisamos desenhar alguns círculos concêntricos com base nesse ponto imaginário.
A distância entre o centro e qualquer ponto de dados posicionado no limite do círculo é chamada de raio.
Após calcular o raio, precisamos passar esse valor dentro de uma função matemática (RBF) que retornará um valor real. O valor retornado será a magnitude transformada de um determinado ponto de dados usado para procedimentos posteriores.
Existem vários tipos de funções de base radial. Cada um deles transformará o valor de entrada de uma maneira diferente. Alguns deles são-
Onde,
A função ficará assim em relação ao tempo,
Onde,
Onde,
Vou explicar intuitivamente o que essas funções farão intuitivamente no espaço. Existem 2 processos diferentes que são feitos por essas funções-
O processo de expansão será visualmente mais ou menos assim-
O processo de compactação será visualmente semelhante a este:
Após a expansão e compactação, os pontos de dados teriam sido transformados assim-
Agora, podemos facilmente construir um hiperplano linear que pode classificar os pontos de dados como este-
Às vezes, o RBF também é usado junto com redes neurais artificiais com uma camada oculta. Nesses tipos de redes, o RBF será usado como funções de ativação nas camadas ocultas. Além da camada oculta, haverá uma camada de entrada que contém vários neurônios onde cada um deles representa uma variável de característica e a camada de saída terá uma soma ponderada das saídas da camada oculta para formar as saídas da rede.
Essas redes são chamadas de redes RBF.
Neste artigo, discutimos uma das funções de transformação mais úteis no aprendizado de máquina. Tentei explicar esse conceito complicado sem muitos cálculos matemáticos aprofundados de maneira lúcida, visando iniciantes no espaço de aprendizado AIML.
Essa função está disponível como uma biblioteca embutida na maioria das linguagens de programação orientadas para a ciência de dados, como Python ou R. Portanto, é fácil implementá-la depois que você entende a intuição teórica. Adicionei os links para alguns dos materiais avançados na seção de referências, onde você pode se aprofundar nos cálculos complexos, se estiver interessado.