Autores:
(1) Troisemaine Colin, Departamento de Ciência da Computação, IMT Atlantique, Brest, França, e Orange Labs, Lannion, França;
(2) Reiffers-Masson Alexandre, Departamento de Ciência da Computação, IMT Atlantique, Brest, França.;
(3) Gosselin Stephane, Orange Labs, Lannion, França;
(4) Lemaire Vincent, Orange Labs, Lannion, França;
(5) Vaton Sandrine, Departamento de Ciência da Computação, IMT Atlantique, Brest, França.
Estimando o número de novas classes
Procedimento de treinamento completo
Apêndice A: Métricas de resultados adicionais
Apêndice C: Resultados numéricos dos Índices de Validade de Cluster
Apêndice D: Estudo de convergência de centróides NCD k-means
O problema de Novel Class Discovery (NCD) consiste em extrair conhecimento de um conjunto rotulado de classes conhecidas para particionar com precisão um conjunto não rotulado de novas classes. Embora as DNT tenham recebido recentemente muita atenção da comunidade, muitas vezes são resolvidas com base em problemas de visão computacional e em condições irrealistas. Em particular, geralmente se presume que o número de novas classes é conhecido antecipadamente, e seus rótulos às vezes são usados para ajustar hiperparâmetros. Os métodos que se baseiam nessas suposições não são aplicáveis em cenários do mundo real. Neste trabalho, focamos na resolução de DNT em dados tabulares quando nenhum conhecimento prévio das novas classes está disponível. Para tanto, propomos ajustar os hiperparâmetros dos métodos NCD adaptando o processo de validação cruzada k-fold e ocultando algumas das classes conhecidas em cada dobra. Como descobrimos que métodos com muitos hiperparâmetros provavelmente se ajustarão demais a essas classes ocultas, definimos um modelo NCD simples e profundo. Este método é composto apenas pelos elementos essenciais necessários para o problema das DNT e tem um desempenho impressionante em condições realistas. Além disso, descobrimos que o espaço latente deste método pode ser usado para estimar com segurança o número de novas classes. Além disso, adaptamos dois algoritmos de clustering não supervisionados (k-means e Spectral Clustering) para alavancar o conhecimento das classes conhecidas. Extensos experimentos são conduzidos em 7 conjuntos de dados tabulares e demonstram a eficácia do método proposto e do processo de ajuste de hiperparâmetros, e mostram que o problema do NCD pode ser resolvido sem depender do conhecimento das novas classes.
Palavras-chave : descoberta de novas classes, agrupamento, dados tabulares, aprendizagem de mundo aberto, aprendizagem por transferência
Recentemente, um progresso notável foi alcançado em tarefas supervisionadas, em parte com a ajuda de conjuntos grandes e totalmente rotulados, como o ImageNet [1]. Esses avanços têm se concentrado predominantemente em cenários de mundo fechado, onde, durante o treinamento, presume-se que todas as aulas são conhecidas antecipadamente e possuem alguns exemplos rotulados. Contudo, em aplicações práticas, a obtenção de instâncias rotuladas para todas as classes de interesse pode ser uma tarefa difícil devido a fatores como restrições orçamentárias ou falta de informações abrangentes. Além disso, para que os modelos possam transferir conceitos aprendidos para novas classes, eles precisam ser concebidos com isso em mente desde o início, o que raramente é o caso. No entanto, esta é uma habilidade importante que os humanos podem usar sem esforço. Por exemplo, tendo aprendido a distinguir alguns animais, uma pessoa será facilmente capaz de reconhecer e “agrupar” novas espécies que nunca viu antes. A transposição desta capacidade humana para o campo da aprendizagem automática poderia ser um modelo capaz de categorizar novos produtos em novas categorias.
Esta observação levou os pesquisadores a formular um novo problema chamado Novel Class Discovery (NCD) [2, 3]. Aqui, recebemos um conjunto rotulado de classes conhecidas e um conjunto não rotulado de classes diferentes, mas relacionadas, que devem ser descobertas. Ultimamente, esta tarefa tem recebido muita atenção da comunidade, com muitos métodos novos como AutoNovel [4], OpenMix [5] ou NCL [6] e estudos teóricos [7, 8]. No entanto, a maioria desses trabalhos aborda o problema do NCD sob a suposição irreal de que o número de novas classes é conhecido antecipadamente ou que os rótulos alvo das novas classes estão disponíveis para otimização de hiperparâmetros [9]. Estas suposições tornam estes métodos impraticáveis para cenários reais de DNT. Para enfrentar esses desafios, propomos uma estrutura geral para otimizar os hiperparâmetros dos métodos de DNT, onde os rótulos verdadeiros de novas classes nunca são usados, pois não estão disponíveis em cenários de DNT do mundo real. Além disso, mostramos que os espaços latentes obtidos por tais métodos podem ser usados para estimar com precisão o número de novas classes.
Também apresentamos três novos métodos de DNT. Dois deles são algoritmos de agrupamento não supervisionados modificados para aproveitar as informações adicionais disponíveis no ambiente de DNT. O primeiro melhora a etapa de inicialização do centróide do k-means, resultando em um algoritmo rápido e fácil de usar que ainda pode fornecer bons resultados em muitos cenários. O segundo método concentra-se na otimização dos parâmetros do algoritmo Spectral Clustering (SC). Esta abordagem tem uma capacidade de aprendizagem potencialmente maior, uma vez que a própria representação (ou seja, a incorporação espectral) é ajustada para agrupar facilmente os novos dados. Finalmente, a última abordagem é um método profundo de DNT composto apenas pelos componentes essenciais necessários para o problema das DNT. Comparado ao SC, este método é mais flexível na definição do seu espaço latente e integra efetivamente o conhecimento das classes conhecidas.
Embora essas contribuições possam ser aplicadas a qualquer tipo de dados, nosso trabalho concentra-se em dados tabulares. A comunidade das DNT concentrou-se quase exclusivamente em problemas de visão computacional e, até onde sabemos, apenas um artigo [9] abordou o problema das DNT no contexto tabular. No entanto, este trabalho exigiu o ajuste meticuloso de um grande número de hiperparâmetros para alcançar resultados ideais. Os métodos projetados para dados tabulares não podem tirar proveito de técnicas poderosas comumente empregadas em visão computacional. Os exemplos incluem convoluções, aumento de dados ou métodos de aprendizagem auto-supervisionada, como DINO [10], que têm sido usados com grande sucesso em trabalhos NCD [11–13], graças à sua forte capacidade de obter espaços latentes representativos sem qualquer supervisão. Por outro lado, os métodos de dados tabulares dependem de hiperparâmetros bem ajustados para obter resultados ideais. Por esta razão, acreditamos que o campo dos dados tabulares será o que mais se beneficiará com as nossas contribuições.
Ao fazer as seguintes contribuições, demonstramos a viabilidade de resolver o problema das DCNT com dados tabulares e sob condições realistas:
• Desenvolvemos um procedimento de otimização de hiperparâmetros adaptado para transferir os resultados das classes conhecidas para as novas classes com boa generalização.
• Mostramos que é possível estimar com precisão o número de novas classes no contexto de NCD, aplicando métricas simples de qualidade de agrupamento no espaço latente dos métodos de NCD.
• Modificamos dois algoritmos clássicos de agrupamento não supervisionado para utilizar efetivamente os dados disponíveis no cenário de DNT.
• Propomos um método simples e robusto, denominado PBN (Projection-Based NCD), que aprende uma representação latente que incorpora as características importantes das classes conhecidas, sem overfitting sobre elas. O código está disponível em https://github.com/Orange-OpenSource/PracticalNCD.
Este artigo está disponível no arxiv sob licença CC 4.0.