Autoren:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Frankreich;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankreich;
(3) Gareth W. Peters, Institut für Statistik und angewandte Wahrscheinlichkeitsrechnung, University of California Santa Barbara, USA.
Zusammenfassung und 1. Einleitung
2. Hintergrund und Vorbemerkungen
2.1. Funktionaler Isolationswald
3. Signature Isolation Forest-Methode
4.1. Parameter Sensitivitätsanalyse
4.2. Vorteile von (K-)SIF gegenüber FIF
4.3. Benchmark zur Anomalieerkennung mit Echtdaten
5. Diskussion und Schlussfolgerung, Wirkungsaussagen und Referenzen
Anhang
A. Zusätzliche Informationen zur Signatur
C. Zusätzliche numerische Experimente
Um die Wirksamkeit der vorgeschlagenen (K-)SIF-Algorithmen zu bewerten und einen Vergleich mit FIF zu ermöglichen, führen wir eine vergleichende Analyse mit zehn Anomalieerkennungsdatensätzen durch, die in Staerman et al. (2019) erstellt und aus dem UCR-Repository (Chen et al., 2015) bezogen wurden. Im Gegensatz zu Staerman et al. (2019) verwenden wir keinen Trainings-/Testteil, da die Labels nicht für das Training verwendet werden und Modelle nur anhand der Trainingsdaten trainiert und bewertet werden. Wir bewerten die Leistung der Algorithmen, indem wir die AUC unter den ROC-Kurven quantifizieren.
Einerseits veranschaulicht Abbildung 4 die Leistungsunterschiede zwischen FIF und K-SIF anhand des Brownschen Wörterbuchs. Insbesondere weist K-SIF einen erheblichen Leistungsvorteil gegenüber FIF auf. Diese Beobachtung unterstreicht die Wirksamkeit des Signaturkernels bei der Verbesserung der FIF-Leistung in den meisten Datensätzen und betont die Vorteile seiner Verwendung gegenüber einem einfachen inneren Produkt. Andererseits ist angesichts der Komplexität funktionaler Daten nicht zu erwarten, dass eine einzigartige Methode andere allgemein übertrifft.
Allerdings zeigt SIF in den meisten Fällen eine starke Leistung und erzielt die besten Ergebnisse für fünf Datensätze. Im Gegensatz zu FIF und K-SIF zeigt es Robustheit gegenüber der Vielfalt von Datensätzen, während es von der Wahl der in FIF (Wörterbuch und inneres Produkt) und K-SIF (Wörterbuch) beteiligten Parameter nicht drastisch beeinflusst wird.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY 4.0 DEED verfügbar .