paint-brush
Ein praktischer Ansatz zur Entdeckung neuer Klassen in tabellarischen Datenvon@dataology
558 Lesungen
558 Lesungen

Ein praktischer Ansatz zur Entdeckung neuer Klassen in tabellarischen Daten

Zu lang; Lesen

In diesem Artikel geht es um die Entdeckung neuartiger Klassen (Novel Class Discovery, NCD) in tabellarischen Daten ohne vorherige Kenntnis neuartiger Klassen. Dabei werden Methoden vorgestellt, die Überanpassungen durch die Feinabstimmung von Hyperparametern mithilfe eines angepassten k-fachen Kreuzvalidierungsprozesses vermeiden. Es wird ein einfaches, tiefes NCD-Modell zusammen mit angepassten k-Means- und Spectral-Clustering-Algorithmen vorgestellt und deren Wirksamkeit anhand umfassender Experimente an sieben tabellarischen Datensätzen demonstriert.
featured image - Ein praktischer Ansatz zur Entdeckung neuer Klassen in tabellarischen Daten
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Autoren:

(1) Troisemaine Colin, Fakultät für Informatik, IMT Atlantique, Brest, Frankreich, und Orange Labs, Lannion, Frankreich;

(2) Reiffers-Masson Alexandre, Fakultät für Informatik, IMT Atlantique, Brest, Frankreich.;

(3) Gosselin Stephane, Orange Labs, Lannion, Frankreich;

(4) Lemaire Vincent, Orange Labs, Lannion, Frankreich;

(5) Vaton Sandrine, Fakultät für Informatik, IMT Atlantique, Brest, Frankreich.

Linktabelle

Zusammenfassung und Einleitung

Verwandte Arbeiten

Ansätze

Hyperparameter-Optimierung

Schätzung der Anzahl neuer Klassen

Vollständiger Trainingsablauf

Experimente

Abschluss

Erklärungen

Verweise

Anhang A: Zusätzliche Ergebnismetriken

Anhang B: Hyperparameter

Anhang C: Numerische Ergebnisse der Cluster-Validitätsindizes

Anhang D: NCD k-means-Schwerpunkt-Konvergenzstudie

Abstrakt

Das Problem der Entdeckung neuartiger Klassen (Novel Class Discovery, NCD) besteht darin, Wissen aus einem beschrifteten Satz bekannter Klassen zu extrahieren, um einen unbeschrifteten Satz neuartiger Klassen genau zu partitionieren. Obwohl NCD in letzter Zeit viel Aufmerksamkeit von der Community erhalten hat, wird es häufig anhand von Computer Vision-Problemen und unter unrealistischen Bedingungen gelöst. Insbesondere wird normalerweise angenommen, dass die Anzahl neuartiger Klassen im Voraus bekannt ist, und ihre Beschriftungen werden manchmal verwendet, um Hyperparameter abzustimmen. Methoden, die auf diesen Annahmen beruhen, sind in realen Szenarien nicht anwendbar. In dieser Arbeit konzentrieren wir uns auf die Lösung von NCD in tabellarischen Daten, wenn kein Vorwissen über die neuartigen Klassen verfügbar ist. Zu diesem Zweck schlagen wir vor, die Hyperparameter von NCD-Methoden abzustimmen, indem wir den k-fachen Kreuzvalidierungsprozess anpassen und einige der bekannten Klassen in jeder Falte verbergen. Da wir festgestellt haben, dass Methoden mit zu vielen Hyperparametern diese verborgenen Klassen wahrscheinlich überanpassen, definieren wir ein einfaches tiefes NCD-Modell. Diese Methode besteht nur aus den wesentlichen Elementen, die für das NCD-Problem erforderlich sind, und funktioniert unter realistischen Bedingungen beeindruckend gut. Darüber hinaus stellen wir fest, dass der latente Raum dieser Methode verwendet werden kann, um die Anzahl neuer Klassen zuverlässig zu schätzen. Zusätzlich passen wir zwei unüberwachte Clustering-Algorithmen (k-means und Spectral Clustering) an, um das Wissen über die bekannten Klassen zu nutzen. Umfangreiche Experimente werden an 7 tabellarischen Datensätzen durchgeführt und demonstrieren die Wirksamkeit der vorgeschlagenen Methode und des Hyperparameter-Tuning-Prozesses und zeigen, dass das NCD-Problem gelöst werden kann, ohne auf das Wissen über die neuen Klassen angewiesen zu sein.


Schlüsselwörter : Entdeckung neuer Klassen, Clustering, tabellarische Daten, Lernen in einer offenen Welt, Transferlernen

1. Einleitung

In jüngster Zeit wurden bei überwachten Aufgaben bemerkenswerte Fortschritte erzielt, teilweise mit Hilfe großer und vollständig beschrifteter Sets wie ImageNet [1]. Diese Fortschritte konzentrierten sich vorwiegend auf Szenarien mit geschlossener Welt, bei denen während des Trainings davon ausgegangen wird, dass alle Klassen im Voraus bekannt sind und einige beschriftete Beispiele vorhanden sind. In praktischen Anwendungen kann es jedoch aufgrund von Faktoren wie Budgetbeschränkungen oder fehlenden umfassenden Informationen schwierig sein, beschriftete Instanzen für alle interessierenden Klassen zu erhalten. Darüber hinaus müssen Modelle, damit sie erlernte Konzepte auf neue Klassen übertragen können, von Anfang an mit diesem Gedanken im Hinterkopf entworfen werden, was selten der Fall ist. Dabei handelt es sich um eine wichtige Fähigkeit, die Menschen mühelos nutzen können. Wenn eine Person beispielsweise gelernt hat, einige Tiere zu unterscheiden, wird sie problemlos in der Lage sein, neue Arten zu erkennen und zu „clustern“, die sie noch nie zuvor gesehen hat. Die Übertragung dieser menschlichen Fähigkeit auf den Bereich des maschinellen Lernens könnte ein Modell sein, das in der Lage ist, neue Produkte in neuartige Kategorien einzuordnen.


Diese Beobachtung hat Forscher dazu veranlasst, ein neues Problem namens Novel Class Discovery (NCD) zu formulieren [2, 3]. Dabei erhalten wir einen beschrifteten Satz bekannter Klassen und einen unbeschrifteten Satz unterschiedlicher, aber verwandter Klassen, die entdeckt werden müssen. In letzter Zeit hat diese Aufgabe viel Aufmerksamkeit von der Community erhalten, mit vielen neuen Methoden wie AutoNovel [4], OpenMix [5] oder NCL [6] und theoretischen Studien [7, 8]. Die meisten dieser Arbeiten befassen sich jedoch mit dem NCD-Problem unter der unrealistischen Annahme, dass die Anzahl der neuen Klassen im Voraus bekannt ist oder dass die Zielbezeichnungen der neuen Klassen für die Hyperparameteroptimierung verfügbar sind [9]. Diese Annahmen machen diese Methoden für reale NCD-Szenarien unpraktisch. Um diese Herausforderungen anzugehen, schlagen wir einen allgemeinen Rahmen für die Optimierung der Hyperparameter von NCD-Methoden vor, bei dem die Ground-Truth-Beschriftungen neuer Klassen niemals verwendet werden, da sie in realen NCD-Szenarien nicht verfügbar sind. Darüber hinaus zeigen wir, dass die durch solche Methoden erhaltenen latenten Räume verwendet werden können, um die Anzahl der neuen Klassen genau zu schätzen.


Wir führen außerdem drei neue NCD-Methoden ein. Zwei davon sind unüberwachte Clustering-Algorithmen, die modifiziert wurden, um die zusätzlichen Informationen zu nutzen, die in der NCD-Einstellung verfügbar sind. Die erste Methode verbessert den Centroid-Initialisierungsschritt von k-means, was zu einem schnellen und einfach zu verwendenden Algorithmus führt, der in vielen Szenarien immer noch gute Ergebnisse liefern kann. Die zweite Methode konzentriert sich auf die Optimierung der Parameter des Spectral Clustering (SC)-Algorithmus. Dieser Ansatz hat eine potenziell höhere Lernkapazität, da die Darstellung selbst (d. h. die spektrale Einbettung) darauf abgestimmt ist, die neuen Daten leicht zu clustern. Der letzte Ansatz schließlich ist eine tiefe NCD-Methode, die nur aus den wesentlichen Komponenten besteht, die für das NCD-Problem erforderlich sind. Im Vergleich zu SC ist diese Methode flexibler bei der Definition ihres latenten Raums und integriert das Wissen der bekannten Klassen effektiv.


Während diese Beiträge auf jede Art von Daten angewendet werden können, konzentriert sich unsere Arbeit auf tabellarische Daten. Die NCD-Community hat sich fast ausschließlich auf Computer Vision-Probleme konzentriert, und unseres Wissens nach hat sich nur ein Artikel [9] mit dem NCD-Problem im tabellarischen Kontext befasst. Diese Arbeit erforderte jedoch die sorgfältige Abstimmung einer großen Anzahl von Hyperparametern, um optimale Ergebnisse zu erzielen. Methoden, die für tabellarische Daten entwickelt wurden, können die leistungsstarken Techniken, die üblicherweise in der Computer Vision eingesetzt werden, nicht nutzen. Beispiele hierfür sind Faltung, Datenerweiterung oder Methoden des selbstüberwachten Lernens wie DINO [10], die in NCD-Arbeiten [11–13] mit großem Erfolg eingesetzt wurden, da sie in der Lage sind, repräsentative latente Räume ohne jegliche Überwachung zu erhalten. Andererseits müssen sich Methoden für tabellarische Daten auf fein abgestimmte Hyperparameter verlassen, um optimale Ergebnisse zu erzielen. Aus diesem Grund glauben wir, dass das Feld der tabellarischen Daten am meisten von unseren Beiträgen profitieren wird.


Mit den folgenden Beiträgen demonstrieren wir die Machbarkeit der Lösung des NCD-Problems mit tabellarischen Daten und unter realistischen Bedingungen:


• Wir entwickeln ein maßgeschneidertes Verfahren zur Hyperparameteroptimierung, um die Ergebnisse der bekannten Klassen mit guter Generalisierung auf die neuen Klassen zu übertragen.


• Wir zeigen, dass es möglich ist, die Anzahl der neuen Klassen im Kontext von NCD genau zu schätzen, indem wir einfache Clusterqualitätsmetriken im latenten Raum von NCD-Methoden anwenden.


• Wir modifizieren zwei klassische unüberwachte Clustering-Algorithmen, um die im NCD-Umfeld verfügbaren Daten effektiv zu nutzen.


• Wir schlagen eine einfache und robuste Methode namens PBN (für Projection-Based NCD) vor, die eine latente Darstellung lernt, die die wichtigen Merkmale der bekannten Klassen enthält, ohne sie zu überanzupassen. Der Code ist verfügbar unter https://github.com/Orange-OpenSource/PracticalNCD.