paint-brush
Hoe (K-)SIF FIF overtreft bij het detecteren van anomalieën in echte datadoor@computational

Hoe (K-)SIF FIF overtreft bij het detecteren van anomalieën in echte data

Te lang; Lezen

(K-)SIF toont duidelijke prestatievoordelen ten opzichte van FIF bij detectie van anomalieën in real-data, vooral met het Brownse woordenboek. SIF blijkt de meest robuuste methode te zijn, die de beste resultaten behaalt op vijf datasets zonder afhankelijk te zijn van gevoelige parameters.
featured image - Hoe (K-)SIF FIF overtreft bij het detecteren van anomalieën in echte data
Computational Technology for All HackerNoon profile picture
0-item

Auteurs:

(1) Guillaume Staerman, INRIA, CEA, Univ. Parijs-Saclay, Frankrijk;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankrijk;

(3) Gareth W. Peters, afdeling Statistiek en Toegepaste Waarschijnlijkheidsrekening, Universiteit van Californië Santa Barbara, VS.

Tabel met links

Samenvatting en 1. Inleiding

2. Achtergrond en voorbereidingen

2.1. Functioneel isolatiebos

2.2. De handtekeningmethode

3. Signature Isolation Forest-methode

4. Numerieke experimenten

4.1. Parametergevoeligheidsanalyse

4.2. Voordelen van (K-)SIF ten opzichte van FIF

4.3. Benchmark voor detectie van anomalie in echte gegevens

5. Discussie en conclusie, impactverklaringen en referenties


Bijlage

A. Aanvullende informatie over de handtekening

B. K-SIF en SIF-algoritmen

C. Aanvullende numerieke experimenten

4.3. Benchmark voor detectie van anomalie in echte gegevens

Om de effectiviteit van de voorgestelde (K-)SIF-algoritmen te evalueren en een vergelijking met FIF te bieden, voeren we een vergelijkende analyse uit met behulp van tien anomaliedetectiedatasets die zijn samengesteld in Staerman et al. (2019) en afkomstig zijn uit de UCR-repository (Chen et al., 2015). In tegenstelling tot Staerman et al. (2019) gebruiken we geen trainings-/testgedeelte, omdat de labels niet worden gebruikt voor de training en trainen en evalueren we modellen alleen op de trainingsgegevens. We evalueren de prestaties van de algoritmen door de AUC onder de ROC-curven te kwantificeren.



Tabel 1: AUC van verschillende anomaliedetectiemethoden berekend op de testset. Vetgedrukte getallen komen overeen met het beste resultaat.


Aan de ene kant illustreert Figuur 4 het prestatieverschil tussen FIF en K-SIF met behulp van het Brownse woordenboek. Opvallend is dat K-SIF een aanzienlijk prestatievoordeel heeft ten opzichte van FIF. Deze observatie onderstreept de effectiviteit van de signature kernel bij het verbeteren van de prestaties van FIF in de meeste datasets, waarbij de voordelen van het gebruik ervan ten opzichte van een eenvoudig inwendig product worden benadrukt. Aan de andere kant wordt, gezien de complexiteit van functionele data, niet verwacht dat een unieke methode anderen universeel zal overtreffen.


SIF laat echter in de meeste gevallen sterke prestaties zien en behaalt de beste resultaten voor vijf datasets. In tegenstelling tot FIF en K-SIF toont het robuustheid voor de verscheidenheid aan datasets, terwijl het niet drastisch wordt beïnvloed door de keuze van de parameters die betrokken zijn bij FIF (woordenboek en inwendig product) en K-SIF (woordenboek).


Dit artikel is beschikbaar op arxiv onder de CC BY 4.0 DEED-licentie.


L O A D I N G
. . . comments & more!

About Author

Computational Technology for All HackerNoon profile picture
Computational Technology for All@computational
Computational: We take random inputs, follow complex steps, and hope the output makes sense. And then blog about it.

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...