Support Vector Data Description (SVDD) ist eine der beliebtesten Grenzmethoden, die beim maschinellen Lernen zur Anomalieerkennung verwendet werden. Das Ziel von SVDD besteht darin, ein Modell zu erstellen, das die Merkmale normaler (nicht anomaler) Daten erfasst und dann Instanzen, die von diesen Merkmalen abweichen, als Anomalien identifiziert.
Die Erkennung von Anomalien wird häufig in verschiedenen Anwendungen eingesetzt, beispielsweise zur Erkennung von Betrug bei Kreditkarten, Versicherungen oder im Gesundheitswesen, zur Erkennung von Eindringlingen für die Cybersicherheit, zur Fehlererkennung in sicherheitskritischen Systemen und zur militärischen Überwachung feindlicher Aktivitäten.
Stellen Sie sich vor, Sie haben eine Reihe von Datenpunkten, und die meisten davon repräsentieren normales Verhalten. SVDD zielt darauf ab, eine Grenze um diese normalen Datenpunkte zu schaffen, sodass der Großteil der Daten innerhalb dieser Grenze liegt. Jeder Datenpunkt außerhalb dieser Grenze wird dann als Anomalie oder Ausreißer betrachtet.
Mit anderen Worten: Wir bringen einem Computer bei, anhand einer Reihe von Beispielen zu erkennen, wie „normal“ aussieht, und dann in der Lage zu sein, etwas als „ungewöhnlich“ zu kennzeichnen, wenn es nicht dem erlernten Muster entspricht.
In diesem Artikel befassen wir uns eingehend mit den grundlegenden Konzepten von SVDD und untersuchen die Nutzung privilegierter Informationen während der Trainingsphase – eine Technik, die darauf abzielt, die Klassifizierungsgenauigkeit in Anomalieerkennungsszenarien zu verbessern.
Wie oben erwähnt, besteht ein klassischer Ansatz zur Anomalieerkennung darin, erwartetes („normales“) Verhalten mithilfe von Ein-Klassen-Klassifizierungstechniken zu beschreiben, d von Trainingsmustern in einem Feature-Space. Wenn ein neues Testmuster nicht zur „normalen“ Klasse gehört, betrachten wir es als anomal.
Um eine „normale“ Domäne zu konstruieren, können wir bekannte Ansätze wie die Support Vector Domain Description verwenden.
Wir beginnen mit einer kurzen Erläuterung der ursprünglichen SVDD, ohne privilegierte Informationen zu verwenden. Wir haben ein iid-Beispiel (x1, . . . , xl)
Die Hauptidee dieses Algorithmus besteht darin, einen erheblichen Teil der Proben, die als „normal“ gelten, von denen zu trennen, die in gewissem Sinne als „abnormal“ gelten. Wir bezeichnen mit φ(·) die Abbildung des ursprünglichen Datenpunkts auf einen aussagekräftigeren Merkmalsraum, zum Beispiel das Hinzufügen einiger Polynommerkmale, die Anwendung einer Merkmalsextraktion mit einem tiefen neuronalen Netz oder sogar die Annahme, dass die Abbildung in einem unendlichdimensionalen Raum erfolgt.
Sei a ein Punkt im Bild der Feature-Map und R ein positiver Wert. Ein Muster x gehört zu einer „normalen“ Klasse, wenn es innerhalb der Kugel ∥a − φ(x)∥ ≤ R liegt. Um den Mittelpunkt a
und den Radius R
zu finden, lösen wir das Optimierungsproblem:
Dabei ist ξ der Abstand vom xi außerhalb der Kugel zur Oberfläche der Kugel. Wenn ein Punkt innerhalb der Kugel liegt, betrachten wir ξi = 0. Die Variable R kann nur dann als Radius betrachtet werden, wenn wir ihre Positivität benötigen. Es lässt sich jedoch leicht beweisen, dass diese Bedingung automatisch erfüllt ist, wenn ν ∈ (0, 1) und für ν ̸ ∈ (0, 1) die Lösung entweder alle Punkte oder keinen davon enthält.
Wie Sie wahrscheinlich erraten haben, werden wir das doppelte Problem lösen, da wir Unterstützung im Namen des Algorithmus haben:
Hier ersetzen wir das Skalarprodukt (φ(xi) · φ(xj )) durch den entsprechenden Kernel K(xi, xj). Wir können a und R mit jedem beliebigen xi berechnen, sodass αi > 0 ist
Auf dieser Grundlage könnten wir die Entscheidungsfunktion definieren:
Wenn f(x) > 0, dann liegt ein Muster x außerhalb der Kugel und wird als anomal betrachtet. Außerdem konnten wir feststellen, dass f(x) einen Wert zurückgibt, und wir könnten den Schwellenwert anpassen, um ein Zielniveau von echten positiven und echten negativen Werten zu erreichen.
Für die ursprüngliche Zwei-Klassen-Support-Vektor-Maschine ein Algorithmus, der eine optimale Grenze zwischen verschiedenen Klassen von Datenpunkten erstellt.
Lassen Sie uns einige Beispiele für privilegierte Informationen anführen. Wenn wir ein Bildklassifizierungsproblem lösen, können wir als privilegierte Information eine Textbildbeschreibung verwenden. Im Falle der Malware-Erkennung können wir einen Quellcode der Malware verwenden, um zusätzliche Funktionen für die Klassifizierung zu erhalten.
Solche Informationen sind während der Testphase nicht verfügbar (z. B. weil sie rechenintensiv oder zu kostspielig zu beschaffen sind), wenn wir das trainierte Modell zur Anomalieerkennung und -klassifizierung verwenden. Dennoch kann es während der Trainingsphase verwendet werden.
Nehmen wir an, dass Trainingsdaten paarweise vorliegen (xi, xi*). Stellen Sie sich zum Beispiel vor, wir versuchen, Anomalien in Röntgenbildern zu erkennen. Wir haben sowohl das Bild selbst als auch die Beschreibung des Arztes. Im Allgemeinen ist eine Textbeschreibung mehr als ausreichend, erfordert jedoch zusätzliche Unterstützung. Können sie während des Modelltrainings verwendet werden, aber nur anhand von Bildern Vorhersagen treffen? Es besteht die Möglichkeit, diese zusätzlichen Informationen zur Verbesserung der Erkennung zu nutzen.
In der vorherigen Formulierung haben wir einen Fehler in der Form ξi. Nehmen wir an, dass privilegierte Daten so gut sind, dass sie die Größe eines Fehlers vorhersagen könnten:
Wir könnten uns das als einen intelligenten Lehrer vorstellen, der während des Trainings sagt, dass man mit diesem Wert den kleinen Fehler nicht bekommen könnte. Es ist sinnvoll, sich auf andere, wertvollere Beispiele zu konzentrieren.
Schreiben wir nun diese Monstergleichung auf:
Dabei ist γ ein Regularisierungsparameter für die lineare Approximation der Slack-Variablen. ζi sind Instrumentvariablen, die verhindern, dass Muster, die zu einer „positiven“ Halbebene gehören, bestraft werden. Beachten Sie, dass die Lösung nahe an der ursprünglichen Lösung von SVDD liegt, wenn γ gegen Unendlich geht.
Um Komplikationen bei der Lagrange-Funktion zu vermeiden, schreiben Sie die duale Form dieses Problems auf:
Hier ersetzen wir das Skalarprodukt (φ* (xi* ) · φ*(xj* )) durch die entsprechende Kernelfunktion K* (xi*, xj*). Am Ende hat die Entscheidungsfunktion die gleiche Form wie im Fall der ursprünglichen SVDD:
Beachten Sie, dass es sich bei dieser Aufgabe, obwohl sie etwas beängstigender ist als das ursprüngliche Problem, um eine spezielle Art der Optimierung handelt, die als quadratische Optimierung bezeichnet wird, und die leicht mit Standardansätzen wie der logarithmischen Barrierenfunktion gelöst werden kann.
Der ursprüngliche SVDD-Ansatz konzentriert sich auf die Konstruktion einer Grenze um normale Datenpunkte in einem hochdimensionalen Raum. Die SVDD+-Theorie führt jedoch das Konzept privilegierter Informationen während der Trainingsphase ein, um die Klassifizierungsgenauigkeit zu verbessern.
Privilegierte Informationen, die während des Tests nicht verfügbar sind, können während des Trainings genutzt werden, um zusätzliche Erkenntnisse zu gewinnen und so die Fähigkeit des Modells zur Erkennung von Anomalien zu verbessern. Die Einbeziehung privilegierter Informationen erfordert eine Modifikation des ursprünglichen SVDD-Algorithmus, die es ihm ermöglicht, während des Trainings zusätzliche Daten zu berücksichtigen, wie beispielsweise Textbeschreibungen, die Bilder bei der Erkennung medizinischer Anomalien begleiten.
Die Einbeziehung privilegierter Informationen wird als eine Form intelligenter Anleitung verstanden, ähnlich wie ein informierter Lehrer, der wertvolle Erkenntnisse liefert, um das Lernen des Modells zu verbessern. Die modifizierte SVDD+-Formulierung beinhaltet eine quadratische Optimierungsaufgabe, die durch Standardansätze wie die logarithmische Barrierenfunktion lösbar ist. Trotz der Komplexität, die durch die Einbeziehung privilegierter Informationen entsteht, behält die Entscheidungsfunktion in der SVDD+-Theorie eine ähnliche Form wie die ursprüngliche SVDD bei, was die praktische Umsetzung erleichtert.
Zusammenfassend zeigt die SVDD+-Theorie einen vielversprechenden Weg zur Verbesserung der Anomalieerkennung durch die Nutzung privilegierter Informationen während der Trainingsphase auf und bietet potenzielle Anwendungen in verschiedenen Bereichen, einschließlich Bildklassifizierung und Malware-Erkennung.