Un article de prélude élucidant les principes fondamentaux et les différences entre l'apprentissage «basé sur des modèles» et «basé sur des instances» dans les branches de l'intelligence artificielle et de l'apprentissage automatique.
"Basé sur les instances" et "Basé sur les modèles" sont 2 types différents d'approches d'apprentissage utilisées par divers algorithmes d'apprentissage automatique pour effectuer leur tâche.
Nous savons que l'objectif final de tout modèle prédictif est d'apprendre les modèles cachés à l'intérieur des données et de prédire les valeurs avec une précision raisonnable en fonction de ses connaissances acquises. Il existe 2 approches différentes utilisées par les algorithmes pour en savoir plus sur les données-
Passons en revue une histoire simple avant de passer aux concepts mathématiques. John et Joseph sont les meilleurs amis qui obtiennent toujours de bonnes notes aux examens. Il y avait un autre élève dans leur école qui s'appelait Kevin. Comme Kevin étudie un peu mal, il leur a demandé à tous les deux de l'aider dans ses études, afin qu'il puisse également obtenir de bonnes notes à l'examen. Jean et Joseph ont convenu qu'ils lui enseigneront les sujets.
Le premier jour, Kevin est allé chez John pour apprendre les mathématiques. John a expliqué tous les concepts approfondis à Kevin et lui a enseigné divers scénarios et approches pour résoudre différents types de problèmes. Il a également formé Kevin à résoudre de nombreux exemples de problèmes et lui a fait comprendre des sujets et des questions ayant un contenu et une pondération similaires dans l'examen. Kevin se sentait très confiant et heureux. De plus, il a remercié John et a quitté sa maison.
Photo de Tra Nguyen
Le deuxième jour, Kevin est allé chez Joseph pour apprendre la science. Joseph lui a demandé s'il voulait comprendre tous les concepts et théories approfondis sur le sujet ou s'il voulait juste la liste des questions qui apparaîtront sur le papier question car en mémorisant toutes les questions importantes, il est possible de marquer de bonnes notes même sans comprendre le concept derrière chaque réponse. Kevin était intrinsèquement un garçon paresseux. Donc, il a dit qu'il ne voulait pas faire d'efforts pour apprendre les concepts et qu'il avait juste besoin de la liste des questions importantes pour pouvoir mémoriser ces réponses. Joseph a donné une liste de 50 questions et réponses importantes et a demandé de mémoriser tout le contenu.
Photo de Dmitry Ratushny
Enfin, les jours d'examen sont arrivés. Le premier examen était les mathématiques. Le questionnaire comportait de nombreuses questions difficiles, mais Kevin avait une bonne compréhension conceptuelle qu'il avait apprise de John. Il a résolu presque tous les problèmes et était sûr d'obtenir des notes de 90 %.
Le deuxième examen était scientifique. Lorsque Kevin a reçu le questionnaire, il a été surpris car la majorité des problèmes provenaient de la liste des questions et réponses qu'il avait déjà mémorisées. Il se souvenait de toutes les réponses et les écrivait soigneusement. Par conséquent, en sciences également, il était très confiant quant à l'obtention de 90 %. Même s'il n'a rien fait conceptuellement, il a écrit toutes les choses qu'il a mémorisées et a atteint son objectif.
Photo de Green Chameleon sur Unsplash
Le modèle d'apprentissage suivi pour les mathématiques est appelé "Généralisation" et le modèle d'apprentissage suivi pour les sciences est appelé "Mémorisation" . J'espère que vous avez aimé l'histoire. Nous pouvons maintenant passer à l'explication de l'apprentissage automatique.
Dans la généralisation, les modèles essaient toujours d'apprendre le modèle intrinsèque, le comportement et le concept global du problème.
Par exemple,
Nous connaissons tous la formule de "régression linéaire" . Il est représenté comme-
Y = m1x1 + m2x2 +... mnxn + c
Où,
Supposons que nous ayons développé un modèle de régression linéaire capable de prédire le poids d'une personne en fonction de son âge, de sa taille et de la taille de ses parents. La représentation mathématique du modèle sera la suivante-
Poids = 0,3*(Taille) + 0,2*(Âge) + 0,4*(Taille du père) + 0,1*(Taille de la mère) + 2
Ici, 0,3, 0,2, 0,4 et 0,1 sont les valeurs des pentes que nous avons dérivées après un vaste processus de réglage des hyperparamètres. De même, 2 est la valeur de l'ordonnée à l'origine pour le plan de régression.
La représentation visuelle ressemblera un peu à ceci-
Image illustrée par l'auteur
Ici, chaque caractéristique sera une dimension et les points de données seront projetés dans cet espace multidimensionnel. Après ce processus, nous dériverons un plan de régression qui peut passer par ces dimensions. La valeur prédite (poids) pour une "taille", un "âge", une "taille du père" et une "taille de la mère" particulières n'est rien d'autre que la valeur de ce plan de régression correspondant aux coordonnées des axes des dimensions de l'entité.
Dans un autre aspect, ce modèle a essayé de comprendre la relation linéaire entre les variables comme l'âge, la taille, etc., et a dérivé un hyperplan imaginaire qui peut indiquer approximativement une valeur prédite basée sur de nombreuses formations de conception naturelles dans cet espace comme la linéarité, l'homoscédasticité, l'autocorrélation , etc.
Le modèle tentera de créer l'hyperplan de manière généralisée de sorte que l'erreur globale de prédiction soit faible, c'est-à-dire que la distance entre les points de données et le plan de régression soit aussi faible que possible. Il a pu dériver cet hyperplan généralisé en raison de l'apprentissage qu'il a fait sur les données pour trouver divers modèles dans l'espace dans le cadre de l'activité de formation ML.
Passons en revue un autre exemple avec un autre algorithme nommé "Support vector machine" .
La machine à vecteurs de support est un algorithme d'apprentissage automatique supervisé qui est couramment utilisé pour prédire la catégorie de points de données étiquetés.
Par exemple-
SVM utilise un plan imaginaire qui peut voyager à travers plusieurs dimensions à des fins de prédiction. Ces plans imaginaires qui peuvent parcourir plusieurs dimensions sont appelés hyperplans. Il est très difficile d'imaginer des dimensions supérieures en utilisant des cerveaux humains puisque notre cerveau est naturellement capable de visualiser seulement jusqu'à 3 dimensions.
Prenons un exemple simple pour comprendre ce scénario.
Nous avons un problème de classification pour prédire si un étudiant réussira ou échouera à l'examen. Nous avons les caractéristiques suivantes comme variables indépendantes-
Ainsi, ces 3 variables indépendantes deviennent 3 dimensions d'un espace comme celui-ci-
Image illustrée par l'auteur
Considérons que nos points de données ressemblent à ceci où-
Image illustrée par l'auteur
Maintenant, SVM va créer un hyperplan qui parcourt ces 3 dimensions afin de différencier les élèves ayant échoué et réussis-
Image illustrée par l'auteur
Donc, techniquement maintenant, le modèle comprend que tous les points de données qui tombent d'un côté de l'hyperplan appartiennent aux étudiants qui ont réussi les examens et vice versa. Comme nous l'avons vu dans la régression linéaire, l'hyperplan SVM est également créé à la suite d'un réglage complexe d'hyperparamètres et de l'apprentissage effectué par le modèle ML dans le cadre de son activité de formation.
Trouvez-vous une similitude dans l'approche d'apprentissage des 2 algorithmes mentionnés ci-dessus ?
Tous deux ont essayé d'en savoir plus sur la nature de l'espace entier, les modèles cachés parmi les points de données et diverses techniques d'optimisation pour minimiser les erreurs, dérivant ainsi une fonction mathématique généralisée pour résoudre le problème. Cette approche est appelée "Model-based learning" .
L'approche d'apprentissage des modèles qui suivent la procédure de généralisation à des fins de prédiction est appelée Model-based learning.
Venons-en maintenant à un autre exemple où nous devons implémenter l'algorithme "K plus proche voisin" .
Nous pouvons considérer le même scénario que celui que nous avons supposé pour l'exemple SVM. Ici aussi, nous devons prédire si un étudiant réussira ou échouera à l'examen. Nos données ressemblent à ceci-
Image illustrée par l'auteur
Maintenant, selon l'algorithme KNN, nous devons décider d'une valeur pour "K" (le nombre de voisins) et noter la classe des "K" voisins les plus proches pour chacun des points de données non étiquetés. La valeur prédite pour le point de données non étiqueté sera la classe qui a une participation majoritaire parmi les voisins les plus proches « K ».
Supposons que nous avons attribué la valeur de K =3. De plus, les points de données "a", "b" et "c" sont des points de données non étiquetés pour lesquels nous devons prédire la classe à l'aide de ce modèle.
Image illustrée par l'auteur
Avez-vous observé une différence significative entre la procédure de travail de KNN et les 2 autres algorithmes mentionnés précédemment ?
En fait, KNN n'a suivi aucun processus de formation. Il n'a pas appris les modèles parmi les points de données ou les hypothèses mathématiques sur l'espace ou il n'a même pas essayé de dériver une fonction mathématique pour cartographier les variables indépendantes et la variable dépendante. La seule variable qu'un chercheur doit soigneusement optimiser est la valeur de « K ». Il s'agit simplement de mémoriser la procédure consistant à choisir la classe majoritaire parmi ses voisins et à la revendiquer comme valeur prédite. Il n'utilise aucune technique de généralisation dans le cadre d'une fonction mathématique. Au lieu de cela, mémorisez simplement le principe du vote et répétez cette tâche pour chaque point de données non étiqueté. Ce processus est appelé "Mémorisation" .
L'approche d'apprentissage des modèles qui suivent la procédure de mémorisation à des fins de prédiction est appelée apprentissage basé sur les instances.