Auteurs:
(1) Troisemaine Colin, Département d'Informatique, IMT Atlantique, Brest, France., et Orange Labs, Lannion, France ;
(2) Reiffers-Masson Alexandre, Département d'Informatique, IMT Atlantique, Brest, France.;
(3) Gosselin Stéphane, Orange Labs, Lannion, France ;
(4) Lemaire Vincent, Orange Labs, Lannion, France ;
(5) Vaton Sandrine, Département d'Informatique, IMT Atlantique, Brest, France.
Optimisation des hyperparamètres
Estimation du nombre de classes de romans
Procédure de formation complète
Annexe A : Mesures de résultats supplémentaires
Annexe C : Résultats numériques des indices de validité de cluster
Annexe D : Étude de convergence des centroïdes des moyennes k des MNC
Le problème de la découverte de classes nouvelles (NCD) consiste à extraire des connaissances d'un ensemble étiqueté de classes connues pour partitionner avec précision un ensemble non étiqueté de classes nouvelles. Bien que les maladies non transmissibles aient récemment reçu beaucoup d'attention de la part de la communauté, elles sont souvent résolues à partir de problèmes de vision par ordinateur et dans des conditions irréalistes. En particulier, le nombre de nouvelles classes est généralement supposé connu à l’avance, et leurs étiquettes sont parfois utilisées pour régler les hyperparamètres. Les méthodes qui reposent sur ces hypothèses ne sont pas applicables dans des scénarios réels. Dans ce travail, nous nous concentrons sur la résolution des MNT dans des données tabulaires lorsqu'aucune connaissance préalable des nouvelles classes n'est disponible. À cette fin, nous proposons d’ajuster les hyperparamètres des méthodes NCD en adaptant le processus de validation croisée k-fold et en masquant certaines des classes connues dans chaque pli. Puisque nous avons constaté que les méthodes comportant trop d’hyperparamètres sont susceptibles de surajuster ces classes cachées, nous définissons un modèle NCD simple et profond. Cette méthode est composée uniquement des éléments essentiels nécessaires au problème des MNT et fonctionne de manière impressionnante dans des conditions réalistes. De plus, nous constatons que l’espace latent de cette méthode peut être utilisé pour estimer de manière fiable le nombre de nouvelles classes. De plus, nous adaptons deux algorithmes de clustering non supervisés (k-means et Spectral Clustering) pour exploiter la connaissance des classes connues. Des expériences approfondies sont menées sur 7 ensembles de données tabulaires et démontrent l'efficacité de la méthode proposée et du processus de réglage des hyperparamètres, et montrent que le problème des MNT peut être résolu sans s'appuyer sur les connaissances des nouvelles classes.
Mots-clés : découverte de nouvelles classes, clustering, données tabulaires, apprentissage en monde ouvert, apprentissage par transfert
Récemment, des progrès remarquables ont été réalisés dans les tâches supervisées, en partie grâce à l'aide de grands ensembles entièrement étiquetés tels que ImageNet [1]. Ces avancées se sont principalement concentrées sur des scénarios de monde fermé, où, pendant la formation, il est présumé que toutes les classes sont connues à l'avance et comportent des exemples étiquetés. Cependant, dans les applications pratiques, obtenir des instances étiquetées pour toutes les classes d’intérêt peut s’avérer une tâche difficile en raison de facteurs tels que les contraintes budgétaires ou le manque d’informations complètes. De plus, pour que les modèles soient capables de transférer les concepts appris vers de nouvelles classes, ils doivent être conçus dans cette optique dès le départ, ce qui est rarement le cas. Il s’agit pourtant d’une compétence importante que les humains peuvent utiliser sans effort. Par exemple, après avoir appris à distinguer quelques animaux, une personne sera facilement capable de reconnaître et de « regrouper » de nouvelles espèces qu’elle n’a jamais vues auparavant. La transposition de cette capacité humaine dans le domaine de l’apprentissage automatique pourrait constituer un modèle capable de catégoriser les nouveaux produits dans des catégories inédites.
Cette observation a conduit les chercheurs à formuler un nouveau problème appelé Novel Class Discovery (NCD) [2, 3]. Ici, on nous donne un ensemble étiqueté de classes connues et un ensemble non étiqueté de classes différentes mais liées qui doivent être découvertes. Dernièrement, cette tâche a reçu beaucoup d'attention de la communauté, avec de nombreuses nouvelles méthodes telles que AutoNovel [4], OpenMix [5] ou NCL [6] et des études théoriques [7, 8]. Cependant, la plupart de ces travaux abordent le problème des MNT sous l’hypothèse irréaliste que le nombre de nouvelles classes est connu à l’avance, ou que les étiquettes cibles des nouvelles classes sont disponibles pour l’optimisation des hyperparamètres [9]. Ces hypothèses rendent ces méthodes peu pratiques pour les scénarios réels de MNT. Pour relever ces défis, nous proposons un cadre général pour optimiser les hyperparamètres des méthodes NCD dans lequel les étiquettes de vérité terrain des nouvelles classes ne sont jamais utilisées, car elles ne sont pas disponibles dans les scénarios NCD réels. De plus, nous montrons que les espaces latents obtenus par de telles méthodes peuvent être utilisés pour estimer avec précision le nombre de nouvelles classes.
Nous introduisons également trois nouvelles méthodes NCD. Deux d'entre eux sont des algorithmes de clustering non supervisés modifiés pour exploiter les informations supplémentaires disponibles dans le cadre NCD. Le premier améliore l’étape d’initialisation du centroïde des k-means, résultant en un algorithme rapide et facile à utiliser qui peut toujours donner de bons résultats dans de nombreux scénarios. La deuxième méthode se concentre sur l'optimisation des paramètres de l'algorithme Spectral Clustering (SC). Cette approche a une capacité d'apprentissage potentiellement plus élevée dans la mesure où la représentation elle-même (c'est-à-dire l'intégration spectrale) est ajustée pour regrouper facilement les nouvelles données. Enfin, la dernière approche est une méthode approfondie des MNT composée uniquement des composants essentiels nécessaires au problème des MNT. Par rapport au SC, cette méthode est plus flexible dans la définition de son espace latent et intègre efficacement la connaissance des classes connues.
Si ces contributions peuvent s’appliquer à tout type de données, nos travaux se concentrent sur les données tabulaires. La communauté des MNT s'est concentrée presque exclusivement sur les problèmes de vision par ordinateur et, à notre connaissance, un seul article [9] a abordé le problème des MNT dans un contexte tabulaire. Cependant, ce travail a nécessité le réglage méticuleux d’un grand nombre d’hyperparamètres pour obtenir des résultats optimaux. Les méthodes conçues pour les données tabulaires ne peuvent pas tirer parti des techniques puissantes couramment utilisées en vision par ordinateur. Les exemples incluent les convolutions, l'augmentation des données ou les méthodes d'apprentissage auto-supervisé telles que DINO [10], qui ont été utilisées avec beaucoup de succès dans les travaux sur les MNT [11-13], grâce à leur forte capacité à obtenir des espaces latents représentatifs sans aucune supervision. D’un autre côté, les méthodes de données tabulaires doivent s’appuyer sur des hyperparamètres finement réglés pour obtenir des résultats optimaux. Pour cette raison, nous pensons que le domaine des données tabulaires bénéficiera le plus de nos contributions.
En apportant les contributions suivantes, nous démontrons la faisabilité de résoudre le problème des MNT avec des données tabulaires et dans des conditions réalistes :
• Nous développons une procédure d'optimisation des hyperparamètres adaptée pour transférer les résultats des classes connues vers les nouvelles classes avec une bonne généralisation.
• Nous montrons qu'il est possible d'estimer avec précision le nombre de nouvelles classes dans le contexte des NCD, en appliquant des métriques simples de qualité de clustering dans l'espace latent des méthodes NCD.
• Nous modifions deux algorithmes classiques de clustering non supervisé pour utiliser efficacement les données disponibles dans le contexte NCD.
• Nous proposons une méthode simple et robuste, appelée PBN (pour Projection-Based NCD), qui apprend une représentation latente intégrant les caractéristiques importantes des classes connues, sans surajustement sur celles-ci. Le code est disponible sur https://github.com/Orange-OpenSource/PracticalNCD.
Cet article est disponible sur arxiv sous licence CC 4.0.