paint-brush
Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firmedi@computational

Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firme

di Computational Technology for All
Computational Technology for All HackerNoon profile picture

Computational Technology for All

@computational

Computational: We take random inputs, follow complex steps, and hope...

3 min read2024/11/20
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
it-flagIT
Leggi questa storia in italiano!
en-flagEN
Read this story in the original language, English!
ru-flagRU
Прочтите эту историю на русском языке!
de-flagDE
Lesen Sie diese Geschichte auf Deutsch!
es-flagES
Lee esta historia en Español!
ja-flagJA
この物語を日本語で読んでください!
ur-flagUR
اس کہانی کو اردو میں پڑھیں!
xh-flagXH
Funda eli bali ngesiXhosa!
nso-flagNSO
Bala kanegelo ye ka Sesotho sa Leboa!
da-flagDA
Læs denne historie på dansk!
hu-flagHU
Olvasd el ezt a történetet magyarul!
sw-flagSW
Soma hadithi hii kwa kiswahili!
rw-flagRW
Soma iyi nkuru muri Kinyarwanda!
IT

Troppo lungo; Leggere

L'analisi di sensibilità delle Signature Isolation Forests rivela l'importanza delle finestre divise per il rilevamento delle anomalie. L'aumento delle suddivisioni migliora l'accuratezza per le anomalie isolate mantenendo l'efficienza per le anomalie persistenti.
featured image - Decodifica della sensibilità della finestra divisa nelle foreste di isolamento delle firme
Computational Technology for All HackerNoon profile picture
Computational Technology for All

Computational Technology for All

@computational

Computational: We take random inputs, follow complex steps, and hope the output makes sense. And then blog about it.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Autori:

(1) Guillaume Staerman, INRIA, CEA, Univ. Parigi-Saclay, Francia;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;

(3) Gareth W. Peters, Dipartimento di statistica e probabilità applicata, Università della California Santa Barbara, USA.

Tabella dei link

Abstract e 1. Introduzione

2. Contesto e premesse

2.1. Foresta di isolamento funzionale

2.2. Il metodo della firma

3. Metodo della foresta di isolamento della firma

4. Esperimenti numerici

4.1. Analisi di sensibilità dei parametri

4.2. Vantaggi del (K-)SIF rispetto al FIF

4.3. Benchmark di rilevamento delle anomalie nei dati reali

5. Discussione e conclusione, dichiarazioni di impatto e riferimenti


Appendice

A. Ulteriori informazioni sulla firma

B. Algoritmi K-SIF e SIF

C. Ulteriori esperimenti numerici

4.1. Analisi di sensibilità dei parametri

Indaghiamo il comportamento di K-SIF e SIF rispetto ai loro due parametri principali: la profondità della firma k e il numero di finestre divise ω. Per motivi di spazio, l'esperimento sulla profondità è rimandato alla Sezione C.1 dell'Appendice.


Il ruolo della Signature Split Window. Il numero di finestre divise consente l'estrazione di informazioni su intervalli specifici (selezionati casualmente) dei dati sottostanti. Pertanto, in ogni nodo dell'albero, l'attenzione sarà rivolta a una porzione specifica dei dati, che è la stessa in tutte le curve campione a fini di confronto. Questo approccio garantisce che l'analisi venga eseguita su sezioni comparabili dei dati, fornendo un modo sistematico per esaminare e confrontare diversi intervalli o caratteristiche nelle curve campione.


Esploriamo il ruolo di questo parametro con due diversi set di dati che riproducono due tipi di scenari di anomalia. Il primo considera anomalie isolate in un piccolo intervallo, mentre il secondo ne contiene di persistenti in tutta la parametrizzazione della funzione. In questo modo, osserviamo il comportamento di K-SIF e SIF rispetto a diversi tipi di anomalie.


Il primo set di dati è costruito come segue. Simuliamo 100 funzioni costanti. Quindi selezioniamo a caso il 90% di queste curve e il rumore gaussiano su un sottointervallo; per il restante 10% delle curve, aggiungiamo il rumore gaussiano su un altro sottointervallo, diverso dal primo. Più precisamente:


• Il 90% delle curve, considerate normali, sono generate secondo


image


con ε(t) ∼ N (0, 1), b ∼ U([0, 100]) e U che rappresenta la distribuzione uniforme.


• Il 10% delle curve, considerate anomale, vengono generate secondo


image


dove ε(t) ∼ N (0, 1) e b ∼ U([0, 100]).


image


Simuliamo a caso il 90% dei percorsi con µ = 0, σ = 0,5 e li consideriamo come dati normali. Quindi, il restante 10% viene simulato con deriva µ = 0,2, deviazione standard σ = 0,4 e considerato dati anomali. Calcoliamo K-SIF con diversi numeri di finestre divise, variabili da 1 a 10, con un livello di troncamento impostato uguale a 2 e N = 1.000 il numero di alberi. L'esperimento viene ripetuto 100 volte e riportiamo l'AUC media sotto le curve ROC nella Figura 1 per entrambi i set di dati e tre dizionari preselezionati.


Per il primo set di dati, in cui le anomalie si manifestano in una piccola porzione delle funzioni, l'aumento del numero di suddivisioni migliora significativamente le prestazioni dell'algoritmo nel rilevamento delle anomalie. Il miglioramento delle prestazioni mostra un plateau dopo nove finestre di suddivisione. Nel caso del secondo set di dati con anomalie persistenti, un numero maggiore di finestre di suddivisione ha un impatto marginale sulle prestazioni dell'algoritmo, mantenendo risultati soddisfacenti. Pertanto, senza una conoscenza pregressa dei dati, optare per un numero relativamente elevato di finestre di suddivisione, come 10, garantirebbe prestazioni robuste in entrambi gli scenari. Inoltre, un numero più significativo di finestre di suddivisione consente il calcolo della firma su una porzione più piccola delle funzioni, portando a una migliore efficienza computazionale.


Figura 1: AUC sotto la curva ROC rispetto al numero di finestre divise sul primo (sinistra) e sul secondo (destra) set di dati per i tre dizionari.

Figura 1: AUC sotto la curva ROC rispetto al numero di finestre divise sul primo (sinistra) e sul secondo (destra) set di dati per i tre dizionari.


Questo articolo è disponibile su arxiv con licenza CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Computational Technology for All HackerNoon profile picture
Computational Technology for All@computational
Computational: We take random inputs, follow complex steps, and hope the output makes sense. And then blog about it.

CARTELLINI

QUESTO ARTICOLO È STATO PRESENTATO IN...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here
X REMOVE AD