paint-brush
Wie (K-)SIF FIF bei der Erkennung von Anomalien in Echtdaten übertrifftvon@computational
Neue Geschichte

Wie (K-)SIF FIF bei der Erkennung von Anomalien in Echtdaten übertrifft

Zu lang; Lesen

(K-)SIF zeigt gegenüber FIF klare Leistungsvorteile bei der Anomalieerkennung in realen Daten, insbesondere mit dem Brownschen Wörterbuch. SIF erweist sich als die robusteste Methode und erzielt die besten Ergebnisse bei fünf Datensätzen, ohne auf sensible Parameter angewiesen zu sein.
featured image - Wie (K-)SIF FIF bei der Erkennung von Anomalien in Echtdaten übertrifft
Computational Technology for All HackerNoon profile picture
0-item

Autoren:

(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Frankreich;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankreich;

(3) Gareth W. Peters, Institut für Statistik und angewandte Wahrscheinlichkeitsrechnung, University of California Santa Barbara, USA.

Linktabelle

Zusammenfassung und 1. Einleitung

2. Hintergrund und Vorbemerkungen

2.1. Funktionaler Isolationswald

2.2. Die Signaturmethode

3. Signature Isolation Forest-Methode

4. Numerische Experimente

4.1. Parameter Sensitivitätsanalyse

4.2. Vorteile von (K-)SIF gegenüber FIF

4.3. Benchmark zur Anomalieerkennung mit Echtdaten

5. Diskussion und Schlussfolgerung, Wirkungsaussagen und Referenzen


Anhang

A. Zusätzliche Informationen zur Signatur

B. K-SIF und SIF-Algorithmen

C. Zusätzliche numerische Experimente

4.3. Benchmark zur Anomalieerkennung mit Echtdaten

Um die Wirksamkeit der vorgeschlagenen (K-)SIF-Algorithmen zu bewerten und einen Vergleich mit FIF zu ermöglichen, führen wir eine vergleichende Analyse mit zehn Anomalieerkennungsdatensätzen durch, die in Staerman et al. (2019) erstellt und aus dem UCR-Repository (Chen et al., 2015) bezogen wurden. Im Gegensatz zu Staerman et al. (2019) verwenden wir keinen Trainings-/Testteil, da die Labels nicht für das Training verwendet werden und Modelle nur anhand der Trainingsdaten trainiert und bewertet werden. Wir bewerten die Leistung der Algorithmen, indem wir die AUC unter den ROC-Kurven quantifizieren.



Tabelle 1: AUC verschiedener Methoden zur Anomalieerkennung, berechnet auf dem Testset. Fettgedruckte Zahlen entsprechen dem besten Ergebnis.


Einerseits veranschaulicht Abbildung 4 die Leistungsunterschiede zwischen FIF und K-SIF anhand des Brownschen Wörterbuchs. Insbesondere weist K-SIF einen erheblichen Leistungsvorteil gegenüber FIF auf. Diese Beobachtung unterstreicht die Wirksamkeit des Signaturkernels bei der Verbesserung der FIF-Leistung in den meisten Datensätzen und betont die Vorteile seiner Verwendung gegenüber einem einfachen inneren Produkt. Andererseits ist angesichts der Komplexität funktionaler Daten nicht zu erwarten, dass eine einzigartige Methode andere allgemein übertrifft.


Allerdings zeigt SIF in den meisten Fällen eine starke Leistung und erzielt die besten Ergebnisse für fünf Datensätze. Im Gegensatz zu FIF und K-SIF zeigt es Robustheit gegenüber der Vielfalt von Datensätzen, während es von der Wahl der in FIF (Wörterbuch und inneres Produkt) und K-SIF (Wörterbuch) beteiligten Parameter nicht drastisch beeinflusst wird.