paint-brush
Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firmedi@computational

Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firme

Troppo lungo; Leggere

L'analisi di sensibilità delle Signature Isolation Forests rivela l'importanza delle finestre divise per il rilevamento delle anomalie. L'aumento delle suddivisioni migliora l'accuratezza per le anomalie isolate mantenendo l'efficienza per le anomalie persistenti.
featured image - Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firme
Computational Technology for All HackerNoon profile picture
0-item

Autori:

(1) Guillaume Staerman, INRIA, CEA, Univ. Parigi-Saclay, Francia;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;

(3) Gareth W. Peters, Dipartimento di statistica e probabilità applicata, Università della California Santa Barbara, USA.

Tabella dei link

Abstract e 1. Introduzione

2. Contesto e premesse

2.1. Foresta di isolamento funzionale

2.2. Il metodo della firma

3. Metodo della foresta di isolamento della firma

4. Esperimenti numerici

4.1. Analisi di sensibilità dei parametri

4.2. Vantaggi del (K-)SIF rispetto al FIF

4.3. Benchmark di rilevamento delle anomalie nei dati reali

5. Discussione e conclusione, dichiarazioni di impatto e riferimenti


Appendice

A. Ulteriori informazioni sulla firma

B. Algoritmi K-SIF e SIF

C. Ulteriori esperimenti numerici

4.1. Analisi di sensibilità dei parametri

Indaghiamo il comportamento di K-SIF e SIF rispetto ai loro due parametri principali: la profondità della firma k e il numero di finestre divise ω. Per motivi di spazio, l'esperimento sulla profondità è rimandato alla Sezione C.1 dell'Appendice.


Il ruolo della Signature Split Window. Il numero di finestre divise consente l'estrazione di informazioni su intervalli specifici (selezionati casualmente) dei dati sottostanti. Pertanto, in ogni nodo dell'albero, l'attenzione sarà rivolta a una porzione specifica dei dati, che è la stessa in tutte le curve campione a fini di confronto. Questo approccio garantisce che l'analisi venga eseguita su sezioni comparabili dei dati, fornendo un modo sistematico per esaminare e confrontare diversi intervalli o caratteristiche nelle curve campione.


Esploriamo il ruolo di questo parametro con due diversi set di dati che riproducono due tipi di scenari di anomalia. Il primo considera anomalie isolate in un piccolo intervallo, mentre il secondo ne contiene di persistenti in tutta la parametrizzazione della funzione. In questo modo, osserviamo il comportamento di K-SIF e SIF rispetto a diversi tipi di anomalie.


Il primo set di dati è costruito come segue. Simuliamo 100 funzioni costanti. Quindi selezioniamo a caso il 90% di queste curve e il rumore gaussiano su un sottointervallo; per il restante 10% delle curve, aggiungiamo il rumore gaussiano su un altro sottointervallo, diverso dal primo. Più precisamente:


• Il 90% delle curve, considerate normali, sono generate secondo



con ε(t) ∼ N (0, 1), b ∼ U([0, 100]) e U che rappresenta la distribuzione uniforme.


• Il 10% delle curve, considerate anomale, vengono generate secondo



dove ε(t) ∼ N (0, 1) e b ∼ U([0, 100]).



Simuliamo a caso il 90% dei percorsi con µ = 0, σ = 0,5 e li consideriamo come dati normali. Quindi, il restante 10% viene simulato con deriva µ = 0,2, deviazione standard σ = 0,4 e considerato dati anomali. Calcoliamo K-SIF con diversi numeri di finestre divise, variabili da 1 a 10, con un livello di troncamento impostato uguale a 2 e N = 1.000 il numero di alberi. L'esperimento viene ripetuto 100 volte e riportiamo l'AUC media sotto le curve ROC nella Figura 1 per entrambi i set di dati e tre dizionari preselezionati.


Per il primo set di dati, in cui le anomalie si manifestano in una piccola porzione delle funzioni, l'aumento del numero di suddivisioni migliora significativamente le prestazioni dell'algoritmo nel rilevamento delle anomalie. Il miglioramento delle prestazioni mostra un plateau dopo nove finestre di suddivisione. Nel caso del secondo set di dati con anomalie persistenti, un numero maggiore di finestre di suddivisione ha un impatto marginale sulle prestazioni dell'algoritmo, mantenendo risultati soddisfacenti. Pertanto, senza una conoscenza pregressa dei dati, optare per un numero relativamente elevato di finestre di suddivisione, come 10, garantirebbe prestazioni robuste in entrambi gli scenari. Inoltre, un numero più significativo di finestre di suddivisione consente il calcolo della firma su una porzione più piccola delle funzioni, portando a una migliore efficienza computazionale.


Figura 1: AUC sotto la curva ROC rispetto al numero di finestre divise sul primo (sinistra) e sul secondo (destra) set di dati per i tre dizionari.


Questo articolo è disponibile su arxiv con licenza CC BY 4.0 DEED.