paint-brush
Une introduction à l'apprentissage actifby@whatsai
806
806

Une introduction à l'apprentissage actif

Louis Bouchard3m2023/06/18
Read on Terminal Reader

L'apprentissage actif vise à optimiser l'annotation de votre ensemble de données et à former le meilleur modèle possible en utilisant le moins de données d'apprentissage. Il s'agit d'une approche d'apprentissage supervisé qui implique un processus itératif entre les prédictions de votre modèle et vos données. En annotant globalement moins d'images, vous gagnez du temps et de l'argent tout en obtenant un modèle optimisé.
featured image - Une introduction à l'apprentissage actif
Louis Bouchard HackerNoon profile picture
0-item
1-item
2-item
3-item

Dans le monde d'aujourd'hui, nous avons accès à une énorme quantité de données, grâce à de puissants modèles d'IA comme ChatGPT , ainsi qu'à des modèles de vision et à d'autres technologies similaires. Cependant, il ne s'agit pas seulement de la quantité de données sur lesquelles ces modèles s'appuient, mais aussi de la qualité. Créer un bon ensemble de données rapidement et à grande échelle peut être une tâche difficile et coûteuse.


C'est là que l'apprentissage actif entre en jeu.

En termes simples, l'apprentissage actif vise à optimiser l'annotation de votre ensemble de données et à former le meilleur modèle possible en utilisant le moins de données d'apprentissage.


Il s'agit d'une approche d'apprentissage supervisé qui implique un processus itératif entre les prédictions de votre modèle et vos données. Au lieu d'attendre un ensemble de données complet, vous pouvez commencer avec un petit lot de données annotées organisées et former votre modèle avec.


Ensuite, à l'aide de l'apprentissage actif, vous pouvez tirer parti de votre modèle pour étiqueter des données invisibles, évaluer la précision des prédictions et sélectionner le prochain ensemble de données à annoter en fonction des fonctions d'acquisition.


L'un des avantages de l'apprentissage actif est que vous pouvez analyser le niveau de confiance des prédictions de votre modèle.


Si une prédiction est peu fiable, le modèle demandera des images supplémentaires de ce type à étiqueter. D'un autre côté, les prédictions avec une confiance élevée ne nécessiteront pas plus de données. En annotant globalement moins d'images, vous gagnez du temps et de l'argent tout en obtenant un modèle optimisé. L'apprentissage actif est une approche très prometteuse pour travailler avec des ensembles de données à grande échelle.


Représentation de l'apprentissage actif. Image de Kumar et al.



Il y a quelques points clés à retenir sur l'apprentissage actif.

Tout d'abord, cela implique une annotation humaine, vous permettant de contrôler la qualité des prédictions de votre modèle. Ce n'est pas une boîte noire dressée sur des millions d'images. Vous participez activement à son développement et contribuez à l'amélioration de ses performances. Cet aspect rend l'apprentissage actif important et intéressant, même s'il peut augmenter les coûts par rapport aux approches non supervisées. Cependant, le temps gagné dans la formation et le déploiement du modèle dépasse souvent ces coûts.


De plus, vous pouvez utiliser des outils d'annotation automatiques et les corriger manuellement, ce qui réduit encore les dépenses.


Dans l'apprentissage actif, vous disposez d'un ensemble de données étiqueté sur lequel votre modèle est formé, tandis que l'ensemble sans étiquette contient des données potentielles qui n'ont pas encore été annotées. Un concept crucial est celui des stratégies de requête, qui déterminent les données à étiqueter. Il existe différentes approches pour trouver les sous-ensembles les plus informatifs dans le grand pool de données non étiquetées. Par exemple, l'échantillonnage d'incertitude implique de tester votre modèle sur des données non étiquetées et de sélectionner les exemples classés les moins sûrs pour l'annotation.


Représentation de l'apprentissage actif avec l'approche Query by Committee. Image de Kumar et al.



Une autre technique d'apprentissage actif est la requête par comité (QBC) , où plusieurs modèles, chacun formé sur un sous-ensemble différent de données étiquetées, forment un comité. Ces modèles ont des perspectives distinctes sur le problème de classification, tout comme les personnes ayant des expériences différentes ont des compréhensions différentes de certains concepts. Les données à annoter sont sélectionnées en fonction du désaccord entre les modèles de comité, ce qui indique la complexité. Ce processus itératif se poursuit alors que les données sélectionnées sont annotées en continu.


Il s'agit simplement d'une explication de base de l'apprentissage actif, présentant un exemple de stratégie de requête.

Si vous êtes intéressé, je peux vous fournir plus d'informations ou des vidéos sur d'autres stratégies d'apprentissage automatique. Un exemple concret d'apprentissage actif est lorsque vous répondez à des captchas sur Google. Ce faisant, vous les aidez à identifier des images complexes et à créer des ensembles de données avec la contribution collective de plusieurs utilisateurs, garantissant à la fois la qualité de l'ensemble de données et la vérification humaine. Ainsi, la prochaine fois que vous rencontrerez un captcha, n'oubliez pas que vous contribuez à l'avancement des modèles d'IA !


Pour en savoir plus et voir un exemple pratique utilisant un excellent outil développé par mes amis d'Encord, regardez la vidéo :