abonnez-vous d'abord à mon Twitter , je tweete des trucs techniques
Encore un speedrun dans la série , c'est parti
Je viens d'utiliser le mème de l'apprentissage par renforcement (RL) sur vous :
Quel appât c'était... oh mon Dieu...
Alors, pourquoi est-ce si difficile pour meme-Kelvin d'apprendre ce qu'est la RL ? Parce qu'il veut apprendre la mise en œuvre de la RL au lieu de comprendre le concept , C'EST POUR CELA MEME-KELVIN !
Lorsque vous apprenez une nouvelle chose, un nouvel outil, une nouvelle technologie ou quoi que ce soit, vous ne commencez PAS par ses implémentations, vous commencez par les idées, les concepts et les problèmes que l'outil résout !
Wo Kelvin, voilà : pour comprendre l’apprentissage par renforcement (RL), pensez à jouer à un jeu vidéo dans lequel vous gagnez des points en faisant les bons mouvements.
L'apprentissage par renforcement est comme ça : un programme apprend en prenant des décisions et en obtenant des récompenses ou des pénalités en fonction de ses actions.
Ce n'était qu'un exemple d'application du principe COMMENCER PAR DES IDÉES à l'apprentissage par renforcement. Mais j'ai promis de vous expliquer comment apprendre l'apprentissage par renforcement en 52 secondes...
Pour apprendre le ML en 52 secondes, vous apprenez les concepts du ML, pas les implémentations , puis vous recherchez sur Google (ou GPT) les implémentations dans PyTorch ou le nom de la bibliothèque que vous souhaitez. De toute façon, cela va changer dans l'année à venir et ce n'est pas grave, les idées resteront les mêmes beaucoup plus longtemps - optez pour des idées !
Dans l'apprentissage supervisé, un programme est enseigné à l'aide d'exemples avec des réponses (appelées données étiquetées). Cela aide le programme à apprendre le lien entre les exemples et les réponses, afin qu'il puisse deviner les réponses pour de nouveaux exemples qu'il n'a jamais vus auparavant.
Algorithmes et problèmes à résoudre : prédire les prix des maisons (régression linéaire), décider si un client achètera un produit (arbres de décision)
Ici, le programme examine des exemples sans réponses (données non étiquetées) et essaie de trouver des modèles ou des groupes parmi eux. Cela peut aider à des tâches telles que le regroupement d'éléments similaires ou la réduction de la quantité d'informations nécessaires pour décrire les données.
Algorithmes et problèmes à résoudre : regrouper des personnes ayant des goûts musicaux similaires (k-means clustering), compresser des images sans perdre trop d'informations (analyse en composantes principales)
Dans l'apprentissage par renforcement, le programme apprend à prendre des décisions en essayant des choses et en recevant des commentaires sous forme de récompenses ou de pénalités. L'objectif est de prendre de meilleures décisions au fil du temps et de résoudre les problèmes plus efficacement.
Algorithmes et problèmes à résoudre : apprendre à un robot à marcher (Q-learning), entraîner un programme à jouer aux échecs (méthodes de gradient de politique)
Il s'agit du processus de sélection d'informations importantes (caractéristiques) à partir de données brutes pour aider le programme à mieux apprendre. Parfois, cela implique de créer de nouvelles fonctionnalités en faisant appel à des connaissances spécialisées et à la créativité.
Exemple : utiliser la longueur et la largeur d'une feuille pour aider à identifier une espèce de plante
Il est important de vérifier les performances d'un modèle d'apprentissage automatique pour voir s'il fonctionne correctement. Des mesures telles que l'exactitude, la précision, le rappel, le score F1 et l'erreur quadratique moyenne sont souvent utilisées pour vérifier les performances d'un modèle.
⏲️ Il reste 24 secondes, c'est bon !
Parlons également du Deep Learning !
C'est vraiment abstrait. Vous pouvez imaginer un NN comme des neurones cérébraux ordonnés en colonnes et se pingant les uns les autres de gauche à droite avec une force différente (via des connexions) — la force avec laquelle un neurone (dans chaque couche) est pingé définit le ping suivant et donc le résultat final lui-même.
Algorithmes et problèmes à résoudre : reconnaissance d'objets dans des images (réseaux de neurones à propagation directe), traduction de langues (réseaux de fonctions à base radiale)
Lorsque vous faites une erreur, vous en tirez des leçons et essayez de ne pas la répéter. La rétropropagation est une façon pour un programme de faire la même chose.
Cela aide le programme à comprendre où il s’est trompé et à mieux trouver les bonnes réponses.
Les CNN sont des réseaux neuronaux spéciaux qui peuvent comprendre des données de type grille, comme des images.
Ils comportent des couches qui les aident à apprendre des modèles et à reconnaître des parties de l’image, comme des lignes et des formes.
Algorithmes et problèmes à résoudre : détection de visages sur des photos (LeNet-5), identification de différents types d'animaux sur des images (AlexNet, VGG)
Les RNN sont conçus pour fonctionner avec des données qui arrivent dans une séquence, comme une série de nombres ou de mots.
Ils peuvent mémoriser les entrées précédentes et utiliser ces informations pour prendre de meilleures décisions.
Algorithmes et problèmes à résoudre : prédiction des cours boursiers (Long Short-Term Memory, LSTM), génération de texte en fonction d'un style donné (Gated Recurrent Units, GRU)
C'est à ce moment qu'un modèle de programme qui a déjà beaucoup appris est affiné pour fonctionner sur une nouvelle tâche avec des données limitées.
Cela aide le programme à apprendre plus rapidement et à être plus performant car il connaît déjà des choses utiles grâce à son apprentissage précédent.
Exemple : utiliser un modèle formé sur de nombreuses races de chiens (comme ResNet) pour reconnaître des types spécifiques de chats
Ces techniques aident le programme à éviter d'apprendre trop de choses à partir des données, ce qui peut entraîner des problèmes tels que le surapprentissage.
terminé en: 0 min, 52 sec
C'est fondamentalement ça, allez maintenant former vos agents Kelvin en recherchant sur Google les implémentations des algorithmes et des problèmes que vous souhaitez résoudre !
Pour commencer à utiliser un outil, vous commencez par un problème que l'outil résout et vous apprenez quel(s) concept(s) sont utilisés pour résoudre le problème. Ne gardez pas l'implémentation dans votre tête comme "comment faire quelque chose avec un outil", c'est compliqué et tout ne rentrera pas dans votre tête de toute façon.
Apprenez des idées, des implémentations Google.
Après avoir recherché une implémentation sur Google 5 à 10 fois, vous la mémoriserez, puis la technologie devient obsolète et vous l'oubliez, ce n'est pas grave, cela arrive tout le temps
Les idées sont difficiles à oublier, elles restent longtemps gravées dans votre mémoire
Au revoir et à la prochaine course de dragsters
Attends, akshually !
Pensez à suivre l'oiseau Twitter si vous voulez que les systèmes éducatifs soient avant tout axés sur la pratique et bénéfiques <3
Quoi qu'il en soit, vous pouvez suivre Twitter si vous avez simplement aimé le texte et que vous en voulez plus ou si vous êtes accro au plaisir sur les réseaux sociaux
ou ne suivez personne et n'écoutez personne ! faites votre propre chemin !
En fait, je veux que vous suiviez mes tweets, c'était juste une vente.
Découvrez mon tutoriel « Apprenez REACT en 43 secondes »