Autoren:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Frankreich;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankreich;
(3) Gareth W. Peters, Institut für Statistik und angewandte Wahrscheinlichkeitsrechnung, University of California Santa Barbara, USA.
Zusammenfassung und 1. Einleitung
2. Hintergrund und Vorbemerkungen
2.1. Funktionaler Isolationswald
3. Signature Isolation Forest-Methode
4.1. Parameter Sensitivitätsanalyse
4.2. Vorteile von (K-)SIF gegenüber FIF
4.3. Benchmark zur Anomalieerkennung mit Echtdaten
5. Diskussion und Schlussfolgerung, Wirkungsaussagen und Referenzen
Anhang
A. Zusätzliche Informationen zur Signatur
C. Zusätzliche numerische Experimente
Wir untersuchen das Verhalten von K-SIF und SIF in Bezug auf ihre beiden Hauptparameter: die Tiefe der Signatur k und die Anzahl der geteilten Fenster ω. Aus Platzgründen wird das Experiment zur Tiefe in Abschnitt C.1 im Anhang verschoben.
Die Rolle des Signatur-Split-Fensters. Die Anzahl der Split-Fenster ermöglicht die Extraktion von Informationen über bestimmte Intervalle (zufällig ausgewählt) der zugrunde liegenden Daten. Somit liegt der Fokus bei jedem Baumknoten auf einem bestimmten Teil der Daten, der zu Vergleichszwecken in allen Stichprobenkurven gleich ist. Dieser Ansatz stellt sicher, dass die Analyse an vergleichbaren Abschnitten der Daten durchgeführt wird, und bietet eine systematische Möglichkeit, verschiedene Intervalle oder Merkmale in den Stichprobenkurven zu untersuchen und zu vergleichen.
Wir untersuchen die Rolle dieses Parameters anhand von zwei verschiedenen Datensätzen, die zwei Arten von Anomalieszenarien reproduzieren. Der erste berücksichtigt isolierte Anomalien in einem kleinen Intervall, während der zweite persistente Anomalien über die gesamte Funktionsparametrisierung hinweg enthält. Auf diese Weise beobachten wir das Verhalten von K-SIF und SIF in Bezug auf verschiedene Arten von Anomalien.
Der erste Datensatz wird wie folgt aufgebaut. Wir simulieren 100 konstante Funktionen. Dann wählen wir zufällig 90 % dieser Kurven und Gaußsches Rauschen auf einem Teilintervall aus; für die verbleibenden 10 % der Kurven fügen wir Gaußsches Rauschen auf einem anderen Teilintervall hinzu, das sich vom ersten unterscheidet. Genauer gesagt:
• 90 % der als normal betrachteten Kurven werden gemäß
mit ε(t) ∼ N (0, 1), b ∼ U([0, 100]) und U als Gleichverteilung.
• 10 % der Kurven, die als abnormal betrachtet werden, werden gemäß
wobei ε(t) ∼ N (0, 1) und b ∼ U([0, 100]).
Wir simulieren zufällig 90 % der Pfade mit µ = 0, σ = 0,5 und betrachten sie als normale Daten. Dann werden die restlichen 10 % mit Drift µ = 0,2, Standardabweichung σ = 0,4 simuliert und als abnormale Daten betrachtet. Wir berechnen K-SIF mit unterschiedlichen Anzahlen von geteilten Fenstern, die von 1 bis 10 variieren, mit einem Truncation-Level von 2 und N = 1.000 der Anzahl der Bäume. Das Experiment wird 100 Mal wiederholt und wir berichten über die durchschnittliche AUC unter den ROC-Kurven in Abbildung 1 für beide Datensätze und drei vorab ausgewählte Wörterbücher.
Beim ersten Datensatz, bei dem sich Anomalien in einem kleinen Teil der Funktionen manifestieren, verbessert eine Erhöhung der Anzahl von Splits die Leistung des Algorithmus beim Erkennen von Anomalien erheblich. Die Leistungsverbesserung zeigt nach neun Split-Fenstern ein Plateau. Beim zweiten Datensatz mit anhaltenden Anomalien hat eine höhere Anzahl von Split-Fenstern nur geringe Auswirkungen auf die Leistung des Algorithmus, wobei zufriedenstellende Ergebnisse erhalten bleiben. Daher würde die Wahl einer relativ hohen Anzahl von Split-Fenstern, beispielsweise 10, ohne vorherige Kenntnis der Daten in beiden Szenarien eine robuste Leistung gewährleisten. Darüber hinaus ermöglicht eine größere Anzahl von Split-Fenstern die Berechnung der Signatur für einen kleineren Teil der Funktionen, was zu einer verbesserten Rechenleistung führt.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY 4.0 DEED verfügbar .