Autores:
(1) Troisemaine Colin, Departamento de Ciencias de la Computación, IMT Atlantique, Brest, Francia, y Orange Labs, Lannion, Francia;
(2) Reiffers-Masson Alexandre, Departamento de Ciencias de la Computación, IMT Atlantique, Brest, Francia;
(3) Gosselin Stéphane, Orange Labs, Lannion, Francia;
(4) Lemaire Vincent, Orange Labs, Lannion, Francia;
(5) Vaton Sandrine, Departamento de Ciencias de la Computación, IMT Atlantique, Brest, Francia.
Optimización de hiperparámetros
Estimación del número de clases novedosas.
Procedimiento de entrenamiento completo
Apéndice A: Métricas de resultados adicionales
Apéndice C: Resultados numéricos de los índices de validez de conglomerados
Apéndice D: Estudio de convergencia de centroides k-medias de NCD
El problema de Novel Class Discovery (NCD) consiste en extraer conocimiento de un conjunto etiquetado de clases conocidas para dividir con precisión un conjunto no etiquetado de clases novedosas. Si bien las ENT han recibido recientemente mucha atención por parte de la comunidad, a menudo se resuelven mediante problemas de visión por computadora y en condiciones poco realistas. En particular, generalmente se supone que el número de clases novedosas se conoce de antemano y sus etiquetas a veces se utilizan para ajustar los hiperparámetros. Los métodos que se basan en estos supuestos no son aplicables en escenarios del mundo real. En este trabajo, nos centramos en resolver las ENT en datos tabulares cuando no se dispone de conocimientos previos de las clases novedosas. Con este fin, proponemos ajustar los hiperparámetros de los métodos NCD adaptando el proceso de validación cruzada de k veces y ocultando algunas de las clases conocidas en cada pliegue. Dado que hemos descubierto que es probable que los métodos con demasiados hiperparámetros se ajusten demasiado a estas clases ocultas, definimos un modelo NCD profundo y simple. Este método se compone sólo de los elementos esenciales necesarios para el problema de las ENT y funciona impresionantemente bien en condiciones realistas. Además, encontramos que el espacio latente de este método se puede utilizar para estimar de manera confiable el número de clases nuevas. Además, adaptamos dos algoritmos de agrupamiento no supervisado (k-means y Spectral Clustering) para aprovechar el conocimiento de las clases conocidas. Se llevan a cabo extensos experimentos en 7 conjuntos de datos tabulares que demuestran la efectividad del método propuesto y el proceso de ajuste de hiperparámetros, y muestran que el problema de las ENT se puede resolver sin depender del conocimiento de las nuevas clases.
Palabras clave : descubrimiento de clases novedosas, agrupamiento, datos tabulares, aprendizaje en mundo abierto, aprendizaje por transferencia
Recientemente, se han logrado avances notables en tareas supervisadas, en parte con la ayuda de conjuntos grandes y completamente etiquetados como ImageNet [1]. Estos avances se han centrado predominantemente en escenarios de mundos cerrados, donde, durante el entrenamiento, se supone que todas las clases se conocen de antemano y tienen algunos ejemplos etiquetados. Sin embargo, en aplicaciones prácticas, obtener instancias etiquetadas para todas las clases de interés puede ser una tarea difícil debido a factores como restricciones presupuestarias o falta de información completa. Además, para que los modelos puedan transferir conceptos aprendidos a nuevas clases, deben diseñarse teniendo esto en cuenta desde el principio, lo que rara vez ocurre. Sin embargo, ésta es una habilidad importante que los humanos pueden utilizar sin esfuerzo. Por ejemplo, una vez que haya aprendido a distinguir algunos animales, una persona podrá reconocer y “agrupar” fácilmente nuevas especies que nunca antes había visto. La transposición de esta capacidad humana al campo del aprendizaje automático podría ser un modelo capaz de categorizar nuevos productos en categorías novedosas.
Esta observación ha llevado a los investigadores a formular un nuevo problema llamado Novel Class Discovery (NCD) [2, 3]. Aquí, se nos proporciona un conjunto etiquetado de clases conocidas y un conjunto sin etiquetar de clases diferentes pero relacionadas que deben descubrirse. Últimamente, esta tarea ha recibido mucha atención por parte de la comunidad, con muchos métodos nuevos como AutoNovel [4], OpenMix [5] o NCL [6] y estudios teóricos [7, 8]. Sin embargo, la mayoría de estos trabajos abordan el problema de las ENT bajo el supuesto poco realista de que el número de clases novedosas se conoce de antemano, o que las etiquetas objetivo de las clases novedosas están disponibles para la optimización de hiperparámetros [9]. Estos supuestos hacen que estos métodos no sean prácticos para escenarios de ENT del mundo real. Para abordar estos desafíos, proponemos un marco general para optimizar los hiperparámetros de los métodos de ENT donde las etiquetas de verdad sobre el terreno de clases novedosas nunca se utilizan, ya que no están disponibles en escenarios de ENT del mundo real. Además, mostramos que los espacios latentes obtenidos mediante dichos métodos se pueden utilizar para estimar con precisión el número de clases nuevas.
También presentamos tres nuevos métodos de ENT. Dos de ellos son algoritmos de agrupamiento no supervisados modificados para aprovechar la información adicional disponible en el entorno de las ENT. El primero mejora el paso de inicialización del centroide de k-means, lo que da como resultado un algoritmo rápido y fácil de usar que aún puede dar buenos resultados en muchos escenarios. El segundo método se centra en optimizar los parámetros del algoritmo Spectral Clustering (SC). Este enfoque tiene una capacidad de aprendizaje potencialmente mayor ya que la representación misma (es decir, la incrustación espectral) está ajustada para agrupar fácilmente los datos novedosos. Finalmente, el último enfoque es un método profundo de ENT compuesto solo por los componentes esenciales necesarios para el problema de las ENT. Comparado con SC, este método es más flexible en la definición de su espacio latente e integra efectivamente el conocimiento de las clases conocidas.
Si bien estos aportes pueden aplicarse a cualquier tipo de datos, nuestro trabajo se centra en datos tabulares. La comunidad de ENT se ha centrado casi exclusivamente en los problemas de visión por computadora y, hasta donde sabemos, solo un artículo [9] ha abordado el problema de las ENT en el contexto tabular. Sin embargo, este trabajo requirió el ajuste meticuloso de una gran cantidad de hiperparámetros para lograr resultados óptimos. Los métodos diseñados para datos tabulares no pueden aprovechar las potentes técnicas comúnmente empleadas en visión por computadora. Los ejemplos incluyen convoluciones, aumento de datos o métodos de aprendizaje autosupervisado como DINO [10], que se han utilizado con gran éxito en trabajos de NCD [11-13], gracias a su gran capacidad para obtener espacios latentes representativos sin ningún tipo de supervisión. Por otro lado, los métodos de datos tabulares deben depender de hiperparámetros finamente ajustados para lograr resultados óptimos. Por este motivo, creemos que el campo de los datos tabulares será el que más se beneficiará de nuestras contribuciones.
Al hacer las siguientes contribuciones, demostramos la viabilidad de resolver el problema de las ENT con datos tabulares y en condiciones realistas:
• Desarrollamos un procedimiento de optimización de hiperparámetros diseñado para transferir los resultados de las clases conocidas a las clases novedosas con buena generalización.
• Mostramos que es posible estimar con precisión el número de clases novedosas en el contexto de las ENT, aplicando métricas de calidad de agrupamiento simples en el espacio latente de los métodos de las ENT.
• Modificamos dos algoritmos clásicos de agrupamiento no supervisado para utilizar eficazmente los datos disponibles en el entorno de las ENT.
• Proponemos un método simple y robusto, llamado PBN (por NCD basado en proyecciones), que aprende una representación latente que incorpora las características importantes de las clases conocidas, sin sobreajustarlas. El código está disponible en https://github.com/Orange-OpenSource/PracticalNCD.
Este documento está disponible en arxiv bajo licencia CC 4.0.