Um artigo introdutório elucidando os princípios fundamentais e as diferenças entre aprendizado “baseado em modelo” e “baseado em instância” nos ramos de Inteligência Artificial e aprendizado de máquina.
“Baseado em instância” e “Baseado em modelo” são dois tipos diferentes de abordagens de aprendizado usadas por vários algoritmos de aprendizado de máquina para executar suas tarefas.
Sabemos que o objetivo final de qualquer modelo preditivo é aprender os padrões ocultos dentro dos dados e prever os valores com uma precisão razoável com base no conhecimento aprendido. Existem 2 abordagens diferentes usadas pelos algoritmos para aprender sobre os dados
Vamos passar por uma história simples antes de passar para os conceitos matemáticos. John e Joseph são melhores amigos que sempre tiram boas notas nos exames. Havia outro aluno em sua escola chamado Kevin. Como Kevin é um pouco pobre nos estudos, ele pediu a ambos que o ajudassem nos estudos, para que ele também pudesse tirar boas notas no exame. Tanto John quanto Joseph concordaram em ensinar-lhe as matérias.
No primeiro dia, Kevin foi à casa de John para aprender matemática. John explicou todos os conceitos detalhados para Kevin e o ensinou sobre vários cenários e abordagens para resolver diferentes tipos de problemas. Ele também treinou Kevin para resolver muitos exemplos de problemas e o fez entender tópicos e questões com conteúdo e peso semelhantes no exame. Kevin se sentiu muito confiante e feliz. Além disso, ele agradeceu a John e saiu de casa.
Foto de Tra Nguyen
No segundo dia, Kevin foi à casa de Joseph para aprender ciências. Joseph perguntou se ele queria entender todos os conceitos e teorias aprofundados sobre o assunto ou se queria apenas a lista de perguntas que apareceriam no caderno de questões porque, ao memorizar todas as perguntas importantes, é possível obter boas notas mesmo sem entender o conceito por trás de cada resposta. Kevin era intrinsecamente um menino preguiçoso. Então, ele disse que não quer se esforçar para aprender os conceitos e só precisa da lista de perguntas importantes para que possa memorizar essas respostas. Joseph deu uma lista de 50 perguntas e respostas importantes e pediu para memorizar todo o conteúdo.
Foto de Dmitry Ratushny
Finalmente, chegaram os dias dos exames. O primeiro exame era de matemática. O questionário tinha muitas perguntas difíceis, mas Kevin tinha um bom entendimento conceitual que aprendeu com John. Ele resolveu quase todos os problemas e estava confiante em obter 90% das notas.
O segundo exame era ciência. Ao receber o caderno de questões, Kevin ficou surpreso porque a maioria dos problemas eram da lista de perguntas e respostas que ele já havia memorizado. Ele se lembrou de todas as respostas e as escreveu cuidadosamente. Conseqüentemente, também em ciências, ele estava muito confiante em obter 90% das notas. Mesmo não tendo feito nada conceitualmente, ele escreveu todas as coisas que memorizou e alcançou seu objetivo.
Foto de Green Chameleon no Unsplash
O padrão de aprendizagem seguido para a matemática é chamado de "Generalização" e o padrão de aprendizagem seguido para a ciência é chamado de "Memorização" . Espero que você tenha gostado da história. Agora podemos passar para a explicação do aprendizado de máquina.
Na generalização, os modelos sempre tentam aprender sobre o padrão intrínseco, o comportamento e o conceito geral do problema.
Por exemplo,
Todos nós conhecemos a fórmula de "Regressão linear" . É representado como-
Y = m1x1 + m2x2 +... mnxn + c
Onde,
Vamos supor que desenvolvemos um modelo de regressão linear que pode prever o peso de uma pessoa com base em sua idade, altura e altura dos pais. A representação matemática do modelo será a seguinte:
Peso = 0,3*(Altura) + 0,2*(Idade) + 0,4*(Altura do Pai) + 0,1*(Altura da Mãe) + 2
Aqui, 0,3, 0,2, 0,4 e 0,1 são os valores para as inclinações que derivamos após um extenso processo de ajuste de hiperparâmetros. Da mesma forma, 2 é o valor da interceptação para o plano de regressão.
A representação visual se parecerá um pouco com isso-
Imagem ilustrada pelo autor
Aqui, cada feição será uma dimensão e os pontos de dados serão projetados neste espaço multidimensional. Após esse processo, estaremos derivando um plano de regressão que pode passar por essas dimensões. O valor previsto (Peso) para uma determinada “Altura”, “Idade”, “Altura do Pai” e “Altura da Mãe” nada mais é do que o valor deste plano de regressão correspondente às coordenadas dos eixos das dimensões do recurso.
Em outro aspecto, este modelo tentou entender a relação linear entre as variáveis como idade, altura, etc., e derivou um hiperplano imaginário que pode indicar aproximadamente um valor previsto com base em muitas formações naturais de design neste espaço, como Linearidade, Homocedasticidade, Autocorrelação , etc
O modelo tentará fazer o hiperplano de maneira generalizada, de modo que o erro geral na previsão seja baixo, ou seja, a distância entre os pontos de dados e o plano de regressão será a menor possível. Ele foi capaz de derivar esse hiperplano generalizado devido ao aprendizado que fez sobre os dados para encontrar vários padrões no espaço como parte da atividade de treinamento de ML.
Vamos ver mais um exemplo com outro algoritmo chamado “Support vector machine” .
A máquina de vetor de suporte é um algoritmo de aprendizado de máquina supervisionado popularmente usado para prever a categoria de pontos de dados rotulados.
Por exemplo-
O SVM usa um plano imaginário que pode viajar por várias dimensões para fins de previsão. Esses planos imaginários que podem viajar através de múltiplas dimensões são chamados de hiperplanos. É muito difícil imaginar dimensões superiores usando cérebros humanos, pois nosso cérebro é naturalmente capaz de visualizar apenas até 3 dimensões.
Vamos dar um exemplo simples para entender esse cenário.
Temos um problema de classificação para prever se um aluno passará ou não no exame. Temos as seguintes características como variáveis independentes-
Então, essas 3 variáveis independentes tornam-se 3 dimensões de um espaço como este-
Imagem ilustrada pelo autor
Vamos considerar que nossos pontos de dados se parecem com isso onde-
Imagem ilustrada pelo autor
Agora, o SVM criará um hiperplano que percorre essas 3 dimensões para diferenciar os alunos reprovados dos aprovados.
Imagem ilustrada pelo autor
Portanto, tecnicamente agora o modelo entende que todos os pontos de dados que caem em um lado do hiperplano pertencem aos alunos que passaram nos exames e vice-versa. Como vimos na regressão linear, o hiperplano SVM também é criado como resultado final do ajuste complexo de hiperparâmetros e do aprendizado feito pelo modelo ML como parte de sua atividade de treinamento.
Você encontra alguma semelhança na abordagem de aprendizado dos 2 algoritmos mencionados acima?
Ambos tentaram aprender sobre a natureza de todo o espaço, padrões ocultos entre os pontos de dados e várias técnicas de otimização para minimizar os erros, derivando assim uma função matemática generalizada para resolver o problema. Essa abordagem é chamada de "Aprendizado baseado em modelo" .
A abordagem de aprendizado dos modelos que seguem o procedimento de generalização para fins de previsão é chamada de aprendizado baseado em modelos.
Agora vamos a outro exemplo em que precisamos implementar o algoritmo "K vizinho mais próximo" .
Podemos considerar o mesmo cenário que assumimos para o exemplo SVM. Aqui também, precisamos prever se um aluno passará ou não no exame. Nossos dados se parecem com isso-
Imagem ilustrada pelo autor
Agora, de acordo com o algoritmo KNN, devemos decidir sobre um valor para “K” (o número de vizinhos) e observar a classe dos 'K' vizinhos mais próximos para cada um dos pontos de dados não rotulados. O valor predito para o ponto de dados não rotulado será a classe que tem participação majoritária entre os “K'” vizinhos mais próximos.
Suponha que atribuímos o valor de K = 3. Além disso, os pontos de dados “a”, “b” e “c” são pontos de dados não rotulados para os quais precisamos prever a classe usando esse modelo.
Imagem ilustrada pelo autor
Você observou alguma diferença significativa entre o procedimento de trabalho do KNN e os outros 2 algoritmos mencionados anteriormente?
Na verdade, KNN não passou por nenhum processo de treinamento. Não aprendeu sobre os padrões entre os pontos de dados ou suposições matemáticas sobre o espaço ou ainda não tentou derivar nenhuma função matemática para mapear as variáveis independentes e a variável dependente. A única variável que um pesquisador precisa otimizar cuidadosamente é o valor de “K”. É apenas memorizar o procedimento de escolher a classe majoritária entre seus vizinhos e reivindicá-la como o valor previsto. Ele não usa nenhuma técnica de generalização como parte de nenhuma função matemática. Em vez disso, apenas memorize o princípio da votação e repita essa tarefa para cada ponto de dados não rotulado. Este processo é chamado de "Memorização" .
A abordagem de aprendizado dos modelos que seguem o procedimento de memorização para fins de previsão é chamada de aprendizado baseado em instâncias.