paint-brush
Les notions derrière l'apprentissage "basé sur un modèle" et "basé sur une instance" dans l'IA et le MLpar@sanjaykn170396
2,110 lectures
2,110 lectures

Les notions derrière l'apprentissage "basé sur un modèle" et "basé sur une instance" dans l'IA et le ML

par Sanjay Kumar9m2022/12/15
Read on Terminal Reader

Trop long; Pour lire

Un article de prélude élucidant les principes fondamentaux et les différences entre l'apprentissage "basé sur les modèles" et "l'apprentissage" basé sur Instagram dans les branches de l'intelligence artificielle et de l'apprentissage automatique. Il existe 2 approches différentes utilisées par les algorithmes pour en savoir plus sur les données - « Généralisation » et « Mémorisation ». Le modèle d'apprentissage suivi pour les mathématiques est appelé « Généralisation » et « Mémorisation » sont deux types différents d'approches d'apprentissage.
featured image - Les notions derrière l'apprentissage "basé sur un modèle" et "basé sur une instance" dans l'IA et le ML
Sanjay Kumar HackerNoon profile picture
Un article de prélude élucidant les principes fondamentaux et les différences entre l'apprentissage «basé sur des modèles» et «basé sur des instances» dans les branches de l'intelligence artificielle et de l'apprentissage automatique.

Table des matières

  • Présentation
  • L'idée instinctive derrière "Généralisation" et "Mémorisation"
  • Le concept derrière l'apprentissage "basé sur un modèle" 
  • Le concept derrière l'apprentissage "basé sur les instances" 
  • Résumé
  • Références

Présentation

"Basé sur les instances" et "Basé sur les modèles" sont 2 types différents d'approches d'apprentissage utilisées par divers algorithmes d'apprentissage automatique pour effectuer leur tâche.

Nous savons que l'objectif final de tout modèle prédictif est d'apprendre les modèles cachés à l'intérieur des données et de prédire les valeurs avec une précision raisonnable en fonction de ses connaissances acquises. Il existe 2 approches différentes utilisées par les algorithmes pour en savoir plus sur les données-

  • Généralisation
  • Mémorisation

L'idée instinctive derrière "Généralisation" et "Mémorisation"

Passons en revue une histoire simple avant de passer aux concepts mathématiques. John et Joseph sont les meilleurs amis qui obtiennent toujours de bonnes notes aux examens. Il y avait un autre élève dans leur école qui s'appelait Kevin. Comme Kevin étudie un peu mal, il leur a demandé à tous les deux de l'aider dans ses études, afin qu'il puisse également obtenir de bonnes notes à l'examen. Jean et Joseph ont convenu qu'ils lui enseigneront les sujets.

Le premier jour, Kevin est allé chez John pour apprendre les mathématiques. John a expliqué tous les concepts approfondis à Kevin et lui a enseigné divers scénarios et approches pour résoudre différents types de problèmes. Il a également formé Kevin à résoudre de nombreux exemples de problèmes et lui a fait comprendre des sujets et des questions ayant un contenu et une pondération similaires dans l'examen. Kevin se sentait très confiant et heureux. De plus, il a remercié John et a quitté sa maison.

Photo de Tra Nguyen

Le deuxième jour, Kevin est allé chez Joseph pour apprendre la science. Joseph lui a demandé s'il voulait comprendre tous les concepts et théories approfondis sur le sujet ou s'il voulait juste la liste des questions qui apparaîtront sur le papier question car en mémorisant toutes les questions importantes, il est possible de marquer de bonnes notes même sans comprendre le concept derrière chaque réponse. Kevin était intrinsèquement un garçon paresseux. Donc, il a dit qu'il ne voulait pas faire d'efforts pour apprendre les concepts et qu'il avait juste besoin de la liste des questions importantes pour pouvoir mémoriser ces réponses. Joseph a donné une liste de 50 questions et réponses importantes et a demandé de mémoriser tout le contenu.

Photo de Dmitry Ratushny

Enfin, les jours d'examen sont arrivés. Le premier examen était les mathématiques. Le questionnaire comportait de nombreuses questions difficiles, mais Kevin avait une bonne compréhension conceptuelle qu'il avait apprise de John. Il a résolu presque tous les problèmes et était sûr d'obtenir des notes de 90 %.

Le deuxième examen était scientifique. Lorsque Kevin a reçu le questionnaire, il a été surpris car la majorité des problèmes provenaient de la liste des questions et réponses qu'il avait déjà mémorisées. Il se souvenait de toutes les réponses et les écrivait soigneusement. Par conséquent, en sciences également, il était très confiant quant à l'obtention de 90 %. Même s'il n'a rien fait conceptuellement, il a écrit toutes les choses qu'il a mémorisées et a atteint son objectif.

Photo de Green Chameleon sur Unsplash

Le modèle d'apprentissage suivi pour les mathématiques est appelé "Généralisation" et le modèle d'apprentissage suivi pour les sciences est appelé "Mémorisation" . J'espère que vous avez aimé l'histoire. Nous pouvons maintenant passer à l'explication de l'apprentissage automatique.

Le concept derrière l'apprentissage "basé sur un modèle"

Dans la généralisation, les modèles essaient toujours d'apprendre le modèle intrinsèque, le comportement et le concept global du problème.

Par exemple,

Nous connaissons tous la formule de "régression linéaire" . Il est représenté comme-

Y = m1x1 + m2x2 +... mnxn + c

Où,

  • Y = variable dépendante
  • x1,x2 ..xn sont des variables indépendantes
  • m1, m2 ...mn sont les pentes des variables indépendantes correspondantes.
  • c est l'interception

Supposons que nous ayons développé un modèle de régression linéaire capable de prédire le poids d'une personne en fonction de son âge, de sa taille et de la taille de ses parents. La représentation mathématique du modèle sera la suivante-

Poids = 0,3*(Taille) + 0,2*(Âge) + 0,4*(Taille du père) + 0,1*(Taille de la mère) + 2

Ici, 0,3, 0,2, 0,4 et 0,1 sont les valeurs des pentes que nous avons dérivées après un vaste processus de réglage des hyperparamètres. De même, 2 est la valeur de l'ordonnée à l'origine pour le plan de régression.

La représentation visuelle ressemblera un peu à ceci-

Image illustrée par l'auteur

Ici, chaque caractéristique sera une dimension et les points de données seront projetés dans cet espace multidimensionnel. Après ce processus, nous dériverons un plan de régression qui peut passer par ces dimensions. La valeur prédite (poids) pour une "taille", un "âge", une "taille du père" et une "taille de la mère" particulières n'est rien d'autre que la valeur de ce plan de régression correspondant aux coordonnées des axes des dimensions de l'entité.

Dans un autre aspect, ce modèle a essayé de comprendre la relation linéaire entre les variables comme l'âge, la taille, etc., et a dérivé un hyperplan imaginaire qui peut indiquer approximativement une valeur prédite basée sur de nombreuses formations de conception naturelles dans cet espace comme la linéarité, l'homoscédasticité, l'autocorrélation , etc.

Le modèle tentera de créer l'hyperplan de manière généralisée de sorte que l'erreur globale de prédiction soit faible, c'est-à-dire que la distance entre les points de données et le plan de régression soit aussi faible que possible. Il a pu dériver cet hyperplan généralisé en raison de l'apprentissage qu'il a fait sur les données pour trouver divers modèles dans l'espace dans le cadre de l'activité de formation ML.

Passons en revue un autre exemple avec un autre algorithme nommé "Support vector machine" .

La machine à vecteurs de support est un algorithme d'apprentissage automatique supervisé qui est couramment utilisé pour prédire la catégorie de points de données étiquetés.

Par exemple-

  • Prédire si une personne est un homme ou une femme
  • Prédire si le fruit est une pomme ou une orange
  • Prédire si un étudiant réussira ou échouera les examens, etc.

SVM utilise un plan imaginaire qui peut voyager à travers plusieurs dimensions à des fins de prédiction. Ces plans imaginaires qui peuvent parcourir plusieurs dimensions sont appelés hyperplans. Il est très difficile d'imaginer des dimensions supérieures en utilisant des cerveaux humains puisque notre cerveau est naturellement capable de visualiser seulement jusqu'à 3 dimensions.

Prenons un exemple simple pour comprendre ce scénario.

Nous avons un problème de classification pour prédire si un étudiant réussira ou échouera à l'examen. Nous avons les caractéristiques suivantes comme variables indépendantes-

  • Notes aux examens internes
  • Marques dans les projets
  • Pourcentage de fréquentation

Ainsi, ces 3 variables indépendantes deviennent 3 dimensions d'un espace comme celui-ci-

Image illustrée par l'auteur

Considérons que nos points de données ressemblent à ceci où-

  • La couleur verte représente les étudiants qui ont réussi l'examen
  • La couleur rouge représente les élèves qui ont échoué à l'examen

Image illustrée par l'auteur

Maintenant, SVM va créer un hyperplan qui parcourt ces 3 dimensions afin de différencier les élèves ayant échoué et réussis-

Image illustrée par l'auteur

Donc, techniquement maintenant, le modèle comprend que tous les points de données qui tombent d'un côté de l'hyperplan appartiennent aux étudiants qui ont réussi les examens et vice versa. Comme nous l'avons vu dans la régression linéaire, l'hyperplan SVM est également créé à la suite d'un réglage complexe d'hyperparamètres et de l'apprentissage effectué par le modèle ML dans le cadre de son activité de formation.

Trouvez-vous une similitude dans l'approche d'apprentissage des 2 algorithmes mentionnés ci-dessus ?

Tous deux ont essayé d'en savoir plus sur la nature de l'espace entier, les modèles cachés parmi les points de données et diverses techniques d'optimisation pour minimiser les erreurs, dérivant ainsi une fonction mathématique généralisée pour résoudre le problème. Cette approche est appelée "Model-based learning" .

L'approche d'apprentissage des modèles qui suivent la procédure de généralisation à des fins de prédiction est appelée Model-based learning.

Le concept derrière l'apprentissage "basé sur les instances" 

Venons-en maintenant à un autre exemple où nous devons implémenter l'algorithme "K plus proche voisin" .

Nous pouvons considérer le même scénario que celui que nous avons supposé pour l'exemple SVM. Ici aussi, nous devons prédire si un étudiant réussira ou échouera à l'examen. Nos données ressemblent à ceci-

Image illustrée par l'auteur

Maintenant, selon l'algorithme KNN, nous devons décider d'une valeur pour "K" (le nombre de voisins) et noter la classe des "K" voisins les plus proches pour chacun des points de données non étiquetés. La valeur prédite pour le point de données non étiqueté sera la classe qui a une participation majoritaire parmi les voisins les plus proches « K ».

Supposons que nous avons attribué la valeur de K =3. De plus, les points de données "a", "b" et "c" sont des points de données non étiquetés pour lesquels nous devons prédire la classe à l'aide de ce modèle.

    Image illustrée par l'auteur

  • Pour le point de données "a", tous les 3 voisins sont "rouges". On peut donc prédire que cet étudiant échouera probablement à l'examen.
  • Pour le point de données "b", 2 des 3 voisins sont "rouges" et 1 voisin est "vert". La majorité des plus proches voisins « K » appartiennent à la classe « fail ». On peut donc prédire que cet étudiant échouera probablement à l'examen. Si au moins 2 voisins sur 3 étaient « verts », nous aurions prédit que cet élève réussirait l'examen puisque la majorité soutiendrait la classe « passable » dans ce cas.
  • Pour le point de données "c", tous les 3 voisins sont "verts". On peut donc prédire que cet étudiant réussira probablement l'examen.

Avez-vous observé une différence significative entre la procédure de travail de KNN et les 2 autres algorithmes mentionnés précédemment ?

En fait, KNN n'a suivi aucun processus de formation. Il n'a pas appris les modèles parmi les points de données ou les hypothèses mathématiques sur l'espace ou il n'a même pas essayé de dériver une fonction mathématique pour cartographier les variables indépendantes et la variable dépendante. La seule variable qu'un chercheur doit soigneusement optimiser est la valeur de « K ». Il s'agit simplement de mémoriser la procédure consistant à choisir la classe majoritaire parmi ses voisins et à la revendiquer comme valeur prédite. Il n'utilise aucune technique de généralisation dans le cadre d'une fonction mathématique. Au lieu de cela, mémorisez simplement le principe du vote et répétez cette tâche pour chaque point de données non étiqueté. Ce processus est appelé "Mémorisation" .

L'approche d'apprentissage des modèles qui suivent la procédure de mémorisation à des fins de prédiction est appelée apprentissage basé sur les instances. 

Résumé

  • L'apprentissage basé sur un modèle se concentre sur le processus de découverte des modèles cachés parmi les points de données, optimisant ainsi les paramètres grâce à la formation de l'ensemble de données . L'apprentissage basé sur les instances n'entraîne pas l'intégralité de l'ensemble de données. Au lieu de cela, il ne fait que la prédiction pour un point de données non étiqueté particulier en suivant quelques règles simples qui sont configurées par le chercheur.
  • Dans l'apprentissage basé sur un modèle, nous pouvons supprimer les données d'apprentissage du système puisque le modèle a déjà appris tous les modèles de cet ensemble de données. Cependant, dans l'apprentissage basé sur les instances, les données d'apprentissage doivent être conservées telles quelles, car le modèle utilise les étiquettes de tout ou partie des échantillons d'apprentissage à des fins de prédiction.
  • Dans l'apprentissage basé sur un modèle, la prédiction sera un processus rapide . Cependant, dans l'apprentissage basé sur les instances, la prédiction sera relativement lente car elle n'a aucune fonction mathématique pour transmettre rapidement les valeurs d'entrée et dériver la sortie. Au lieu de cela, il doit passer du temps à comparer et à prendre des décisions basées sur des règles pour chacun des points de données non étiquetés en le comparant à divers échantillons d'apprentissage. En d'autres termes, ces modèles retardent le traitement jusqu'à ce qu'une nouvelle instance doive être classée. Pour cette raison, ils sont aussi appelés apprenants paresseux.
  • Les apprenants basés sur des instances peuvent être facilement trompés en fournissant des fonctionnalités non pertinentes . Cependant, dans l'apprentissage basé sur un modèle, les modèles apprendront l'importance de diverses fonctionnalités car ils passent par diverses techniques d'optimisation.
  • Les apprenants basés sur des instances sont bons pour gérer les données bruyantes et ils ne perdent aucune information. Cependant, les apprenants basés sur des modèles ne peuvent pas bien gérer les points de données bruyants. Les valeurs aberrantes et les anomalies sont généralement éliminées de l'ensemble de données à l'étape de pré-modélisation pour contrer ce défi. Mais il convient de noter que l'élimination des valeurs aberrantes peut entraîner la perte de certaines informations concernant les caractéristiques globales de l'ensemble de données qui pourraient affecter la capacité prédictive du modèle.

Références