Auteurs:
(1) Guillaume Staerman, INRIA, CEA, Univ. Parijs-Saclay, Frankrijk;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Frankrijk;
(3) Gareth W. Peters, afdeling Statistiek en Toegepaste Waarschijnlijkheidsrekening, Universiteit van Californië Santa Barbara, VS.
2. Achtergrond en voorbereidingen
3. Signature Isolation Forest-methode
4.1. Parametergevoeligheidsanalyse
4.2. Voordelen van (K-)SIF ten opzichte van FIF
4.3. Benchmark voor detectie van anomalie in echte gegevens
5. Discussie en conclusie, impactverklaringen en referenties
Bijlage
A. Aanvullende informatie over de handtekening
C. Aanvullende numerieke experimenten
Om de effectiviteit van de voorgestelde (K-)SIF-algoritmen te evalueren en een vergelijking met FIF te bieden, voeren we een vergelijkende analyse uit met behulp van tien anomaliedetectiedatasets die zijn samengesteld in Staerman et al. (2019) en afkomstig zijn uit de UCR-repository (Chen et al., 2015). In tegenstelling tot Staerman et al. (2019) gebruiken we geen trainings-/testgedeelte, omdat de labels niet worden gebruikt voor de training en trainen en evalueren we modellen alleen op de trainingsgegevens. We evalueren de prestaties van de algoritmen door de AUC onder de ROC-curven te kwantificeren.
Aan de ene kant illustreert Figuur 4 het prestatieverschil tussen FIF en K-SIF met behulp van het Brownse woordenboek. Opvallend is dat K-SIF een aanzienlijk prestatievoordeel heeft ten opzichte van FIF. Deze observatie onderstreept de effectiviteit van de signature kernel bij het verbeteren van de prestaties van FIF in de meeste datasets, waarbij de voordelen van het gebruik ervan ten opzichte van een eenvoudig inwendig product worden benadrukt. Aan de andere kant wordt, gezien de complexiteit van functionele data, niet verwacht dat een unieke methode anderen universeel zal overtreffen.
SIF laat echter in de meeste gevallen sterke prestaties zien en behaalt de beste resultaten voor vijf datasets. In tegenstelling tot FIF en K-SIF toont het robuustheid voor de verscheidenheid aan datasets, terwijl het niet drastisch wordt beïnvloed door de keuze van de parameters die betrokken zijn bij FIF (woordenboek en inwendig product) en K-SIF (woordenboek).
Dit artikel is beschikbaar op arxiv onder de CC BY 4.0 DEED-licentie.