Autoren:  (1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Frankreich;  (2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankreich;  (3) Gareth W. Peters, Institut für Statistik und angewandte Wahrscheinlichkeitsrechnung, University of California Santa Barbara, USA.  Linktabelle   Zusammenfassung und 1. Einleitung   2. Hintergrund und Vorbemerkungen   2.1. Funktionaler Isolationswald   2.2. Die Signaturmethode   3. Signature Isolation Forest-Methode   4. Numerische Experimente   4.1. Parameter Sensitivitätsanalyse   4.2. Vorteile von (K-)SIF gegenüber FIF   4.3. Benchmark zur Anomalieerkennung mit Echtdaten   5. Diskussion und Schlussfolgerung, Wirkungsaussagen und Referenzen  Anhang   A. Zusätzliche Informationen zur Signatur   B. K-SIF und SIF-Algorithmen   C. Zusätzliche numerische Experimente  4.1. Parameter Sensitivitätsanalyse  Wir untersuchen das Verhalten von K-SIF und SIF in Bezug auf ihre beiden Hauptparameter: die Tiefe der Signatur k und die Anzahl der geteilten Fenster ω. Aus Platzgründen wird das Experiment zur Tiefe in Abschnitt C.1 im Anhang verschoben.    Die Anzahl der Split-Fenster ermöglicht die Extraktion von Informationen über bestimmte Intervalle (zufällig ausgewählt) der zugrunde liegenden Daten. Somit liegt der Fokus bei jedem Baumknoten auf einem bestimmten Teil der Daten, der zu Vergleichszwecken in allen Stichprobenkurven gleich ist. Dieser Ansatz stellt sicher, dass die Analyse an vergleichbaren Abschnitten der Daten durchgeführt wird, und bietet eine systematische Möglichkeit, verschiedene Intervalle oder Merkmale in den Stichprobenkurven zu untersuchen und zu vergleichen. Die Rolle des Signatur-Split-Fensters.  Wir untersuchen die Rolle dieses Parameters anhand von zwei verschiedenen Datensätzen, die zwei Arten von Anomalieszenarien reproduzieren. Der erste berücksichtigt isolierte Anomalien in einem kleinen Intervall, während der zweite persistente Anomalien über die gesamte Funktionsparametrisierung hinweg enthält. Auf diese Weise beobachten wir das Verhalten von K-SIF und SIF in Bezug auf verschiedene Arten von Anomalien.  Der erste Datensatz wird wie folgt aufgebaut. Wir simulieren 100 konstante Funktionen. Dann wählen wir zufällig 90 % dieser Kurven und Gaußsches Rauschen auf einem Teilintervall aus; für die verbleibenden 10 % der Kurven fügen wir Gaußsches Rauschen auf einem anderen Teilintervall hinzu, das sich vom ersten unterscheidet. Genauer gesagt:  • 90 % der als normal betrachteten Kurven werden gemäß   mit ε(t) ∼ N (0, 1), b ∼ U([0, 100]) und U als Gleichverteilung.  • 10 % der Kurven, die als abnormal betrachtet werden, werden gemäß   wobei ε(t) ∼ N (0, 1) und b ∼ U([0, 100]).   Wir simulieren zufällig 90 % der Pfade mit µ = 0, σ = 0,5 und betrachten sie als normale Daten. Dann werden die restlichen 10 % mit Drift µ = 0,2, Standardabweichung σ = 0,4 simuliert und als abnormale Daten betrachtet. Wir berechnen K-SIF mit unterschiedlichen Anzahlen von geteilten Fenstern, die von 1 bis 10 variieren, mit einem Truncation-Level von 2 und N = 1.000 der Anzahl der Bäume. Das Experiment wird 100 Mal wiederholt und wir berichten über die durchschnittliche AUC unter den ROC-Kurven in Abbildung 1 für beide Datensätze und drei vorab ausgewählte Wörterbücher.  Beim ersten Datensatz, bei dem sich Anomalien in einem kleinen Teil der Funktionen manifestieren, verbessert eine Erhöhung der Anzahl von Splits die Leistung des Algorithmus beim Erkennen von Anomalien erheblich. Die Leistungsverbesserung zeigt nach neun Split-Fenstern ein Plateau. Beim zweiten Datensatz mit anhaltenden Anomalien hat eine höhere Anzahl von Split-Fenstern nur geringe Auswirkungen auf die Leistung des Algorithmus, wobei zufriedenstellende Ergebnisse erhalten bleiben. Daher würde die Wahl einer relativ hohen Anzahl von Split-Fenstern, beispielsweise 10, ohne vorherige Kenntnis der Daten in beiden Szenarien eine robuste Leistung gewährleisten. Darüber hinaus ermöglicht eine größere Anzahl von Split-Fenstern die Berechnung der Signatur für einen kleineren Teil der Funktionen, was zu einer verbesserten Rechenleistung führt.   Dieses Dokument ist   . auf arxiv unter der Lizenz CC BY 4.0 DEED verfügbar

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Computational.TECH

Computational catalyzes innovation, fueling sustainable breakthroughs for a brighter future.

computational's blog

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Dekodierung der Split-Window-Empfindlichkeit in Signaturisolationswäldern

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps