paint-brush
Ulteriori esperimenti numerici su K-SIF e SIF: profondità, rumore e potere di discriminazionedi@computational

Ulteriori esperimenti numerici su K-SIF e SIF: profondità, rumore e potere di discriminazione

Troppo lungo; Leggere

Esplora ulteriori esperimenti su K-SIF e SIF, tra cui il ruolo della profondità della firma, della robustezza del rumore e delle prestazioni nel distinguere le anomalie. Gli esperimenti coprono diversi processi stocastici, simulazioni di set di dati e confronti con FIF, mostrando i punti di forza e gli aspetti computazionali degli algoritmi.
featured image - Ulteriori esperimenti numerici su K-SIF e SIF: profondità, rumore e potere di discriminazione
Computational Technology for All HackerNoon profile picture
0-item

Autori:

(1) Guillaume Staerman, INRIA, CEA, Univ. Parigi-Saclay, Francia;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;

(3) Gareth W. Peters, Dipartimento di statistica e probabilità applicata, Università della California Santa Barbara, USA.

Tabella dei link

Abstract e 1. Introduzione

2. Contesto e premesse

2.1. Foresta di isolamento funzionale

2.2. Il metodo della firma

3. Metodo della foresta di isolamento della firma

4. Esperimenti numerici

4.1. Analisi di sensibilità dei parametri

4.2. Vantaggi del (K-)SIF rispetto al FIF

4.3. Benchmark di rilevamento delle anomalie nei dati reali

5. Discussione e conclusione, dichiarazioni di impatto e riferimenti


Appendice

A. Ulteriori informazioni sulla firma

B. Algoritmi K-SIF e SIF

C. Ulteriori esperimenti numerici

C. Ulteriori esperimenti numerici

In questa sezione, presentiamo ulteriori esperimenti numerici a supporto degli algoritmi proposti e delle argomentazioni sviluppate nel corpo principale del documento. Innanzitutto, descriviamo il ruolo della profondità della firma negli algoritmi e spieghiamo come questo parametro li influenza. Forniamo boxplot per due set di dati generati e sosteniamo l'importanza del parametro profondità in questo contesto. Successivamente, forniamo ulteriori esperimenti sulla robustezza al vantaggio del rumore di (K)-SIF su FIF, correlati alla Sezione 4.2 del corpo principale del documento. Il terzo paragrafo fa riferimento ai dati generati per l'esperimento "swapping events" nella sezione 4.2 del corpo principale del documento. Forniamo una Figura per la visualizzazione e una migliore comprensione. Osserviamo ulteriormente come abbiamo costruito i dati. La quarta sottosezione dimostra quindi il tempo di calcolo degli algoritmi proposti con un confronto diretto con FIF. Quindi, viene presentato un ulteriore esperimento che presenta ulteriori prove del potere di discriminazione rispetto al compito AD di (K)-SIF su FIF. Infine, l'ultima sottosezione mostra una tabella che descrive le informazioni sulla dimensione dei set di dati relativi al benchmark nella Sezione 4.3.

C.1. Il ruolo della profondità della firma


In questo esperimento, esaminiamo l'impatto di questo parametro su K-SIF con due diverse classi di processi stocastici. Il moto browniano tridimensionale (con µ = 0 e σ = 0,1), caratterizzato dai suoi due primi momenti, e il processo di diffusione a salto di Merton unidimensionale, un processo a coda pesante ampiamente utilizzato per modellare il mercato azionario. In tale


Algoritmi



In questo modo confrontiamo la prima classe di modelli stocastici con la seconda, che invece non può essere caratterizzata dai primi due momenti, e osserviamo le prestazioni di (K)-SIF a questo riguardo.


Abbiamo calcolato K-SIF con tre dizionari con livelli di troncamento variabili in {2, 3, 4} per entrambi i set di dati simulati. Abbiamo impostato il numero di finestre divise a 10, secondo la sezione precedente, e il numero di alberi a 1000. Dopo di che, abbiamo calcolato la correlazione di Kendall del rango restituito da questi modelli per le tre impostazioni a coppie: livello 2 contro livello 3, livello 2 contro livello 4 e livello 3 contro livello 4.


Abbiamo ripetuto questo esperimento 100 volte e riportiamo i boxplot di correlazione nella Figura 5 per il moto browniano e nella Figura 6 per il processo di diffusione Merton-jump. Si noti che i grafici a sinistra e a destra si riferiscono ai diversi parametri split window selezionati per K-SIF, corrispondenti a ω = 3 per i pannelli di sinistra, mentre, per quelli di destra, abbiamo scelto ω = 5. Questi boxplot mostrano la correlazione tau di Kendall tra il punteggio restituito da uno degli algoritmi utilizzati con una profondità specifica e lo stesso algoritmo con una profondità diversa. I risultati K-SIF con i tre dizionari sono rappresentati in blu, arancione e verde per le wavelet browniane, coseno e gaussiane verdi, rispettivamente. I boxplot SIF sono invece in viola. L'asse y si riferisce ai valori di correlazione di Kendall e l'asse x alle impostazioni dei valori di profondità rispetto ai quali è stata effettuata la correlazione.


Un'elevata correlazione indica un rango equivalente restituito dall'algoritmo con diversi parametri di profondità. Pertanto, se la correlazione è elevata, ciò suggerisce che questo parametro non influisce sui risultati dell'algoritmo considerato e dovrebbe essere selezionata una profondità inferiore per una migliore efficienza di calcolo. Sono mostrate correlazioni elevate sia per SIF (boxplot viola) che per K-SIF per i due dizionari, ovvero Browniano e Coseno (boxplot blu e arancione). Pertanto, si consiglia di scegliere il livello di troncamento minimo per migliorare l'efficienza di calcolo. Per gli stessi algoritmi, vengono identificate correlazioni leggermente inferiori nel caso dei processi di Merton, ma comunque intorno a livelli di 0,8, supportando quindi un'affermazione equivalente. Nel caso di K-SIF con il dizionario gaussiano (boxplot verdi), si ottiene una variazione molto più elevata per quanto riguarda i risultati di correlazione nei tre scenari testati. Inoltre, nel caso dei processi di diffusione Merton-jump, i risultati mostrano una correlazione inferiore, coerente con gli altri risultati. Pertanto, nel caso di K-SIF con un tale dizionario, la profondità dovrebbe essere scelta con attenzione poiché parametri diversi potrebbero portare a una migliore rilevazione dei momenti del processo sottostante.


Figura 5: Risultati del processo del moto browniano. Correlazione tau di Kendall tra il punteggio restituito da SIF (viola) e K-SIF con diversi valori di profondità, ω = 3 (sinistra) e ω = 5 (destra), per i tre dizionari: "Brownian" (blu), "Coseno" (arancione) e "Gaussian wavelet" (verde) su percorsi browniani tridimensionali.


Figura 6: Risultati del processo di diffusione Merton-Jump. Correlazione tau di Kendall tra il punteggio restituito da SIF (viola) e K-SIF con diversi valori di profondità per i tre dizionari: "Brownian" (blu), "Coseno" (arancione) e "Gaussian wavelet" (verde) con ω = 3 (sinistra) e ω = 5 (destra) sui processi di diffusione Merton-Jump.

C.2. Robustezza al rumore

Questa parte fornisce esperimenti aggiuntivi sul vantaggio di robustezza al rumore di (K)-SIF su FIF, correlati alla Sezione 4.2 del corpo principale del documento. La configurazione per la simulazione dei dati è la seguente. Definiamo un set di dati sintetico di 100 funzioni lisce fornite da



dove ε(t) ∼ N (0, 0,5). Selezioniamo casualmente di nuovo il 10% e creiamo curve leggermente rumorose aggiungendo un piccolo rumore su un altro sottointervallo rispetto al primo, ovvero,



dove ε(t) ∼ N (0, 0,1).


La Figura 7 fornisce una visualizzazione riassuntiva del set di dati generato nel primo pannello. Le 10 curve anomale sono tracciate in rosso, mentre i 10 dati normali considerati leggermente rumorosi sono tracciati in blu. Il resto delle curve, considerati dati normali, è fornito in grigio. L'idea è di capire come la scelta del dizionario influenza K-SIF e FIF nel rilevamento di dati normali leggermente rumorosi rispetto al rumore anomalo. I risultati per K-SIF e FIF sono forniti rispettivamente nel secondo, terzo e quarto pannello della Figura 7.


Calcoliamo K-SIF con un dizionario browniano, k = 2 e ω = 10 e FIF per α = 0 e α = 1 anche con un dizionario browniano. I colori dei pannelli rappresentano il punteggio di anomalia assegnato a ciascuna curva per quell'algoritmo specifico. Nel secondo (K-SIF) e nell'ultimo (FIF con α = 0) pannelli, il punteggio di anomalia aumenta dal giallo al blu scuro, ovvero una curva scura è anomala e il giallo è normale, mentre nel terzo grafico (FIF con α = 1) è l'opposto, ovvero una curva scura è normale e il giallo è anomala.


Figura 7: Robustezza al rumore. Il primo pannello presenta i dati grezzi, dove ci sono 120 curve, di cui, in rosso abbiamo le 10 curve per dati anomali o rumorosi, in blu le 10 curve di dati leggermente rumorosi ma normali e in grigio le curve rimanenti. La configurazione per la simulazione dei dati è fornita all'inizio di questa sezione. Il secondo, terzo e quarto pannello mostrano i punteggi di anomalia assegnati alle curve in base all'algoritmo di interesse. Il secondo pannello si riferisce a K-SIF, eseguito con un dizionario browniano, k = 2 e ω = 10. Il terzo e il quarto pannello si riferiscono a FIF eseguito con un dizionario browniano con α = 1 (terzo) e α = 0 (quarto), rispettivamente. Il colore del punteggio di anomalia aumenta dal giallo al blu scuro nel secondo e nel quarto grafico, ovvero una curva scura è anomala e il giallo è normale. Nel terzo grafico, a fini di visualizzazione, diminuisce, vale a dire che una curva scura è normale e una gialla è anormale.


È possibile osservare come K-SIF riesca a identificare con successo dati rumorosi e anomali in quanto tali. Infatti, mentre i dati anomali sono colorati in blu scuro, quelli rumorosi mostrano un punteggio di colore giallo. Invece, in FIF con α = 1 (terzo pannello) sia le curve anomale che quelle leggermente rumorose vengono identificate come dati normali (data la scala invertita e con colori blu scuro). Quando si tratta di FIF con α = 0 (ultimo e quarto pannello), sia i dati anomali che quelli rumorosi vengono valutati come curve anomale. Quindi, FIF con entrambe le impostazioni del parametro α, non può fornire un punteggio diverso ai dati rumorosi e leggermente rumorosi. K-SIF, invece, esegue con successo tale compito.

C.3. Scambio di dataset di eventi

Questa parte fornisce una visualizzazione del set di dati utilizzato nell'esperimento "swapping events" nella sezione 4.2 del documento principale. La Figura 8 mostra i dati simulati. Si noti che definiamo un set di dati sintetico di 100 funzioni lisce fornite da



con t ∈ [0, 1] e q equispaziato in [1, 1.4]. Quindi, simuliamo le occorrenze di eventi aggiungendo rumore gaussiano su diverse porzioni delle funzioni. Ne selezioniamo casualmente il 90% e aggiungiamo valori gaussiani su un sottointervallo, ovvero,



dove ε(t) ∼ N (0, 0,8). Consideriamo il 10% rimanente come anomalo aggiungendo gli stessi 'eventi' su un altro sottointervallo rispetto al primo, ovvero,



dove ε(t) ∼ N (0, 0,8). Abbiamo quindi costruito due eventi identici che si verificano in parti diverse delle funzioni, portando all'isolamento delle anomalie.


Figura 8: Swapping Events. Dataset utilizzato nell'esperimento della Sezione 4.2. Le curve viola rappresentano dati normali mentre le curve gialle rappresentano dati anomali. La configurazione della simulazione è fornita all'inizio della sezione.

C.4. Tempo di calcolo di K-SIF, SIF e FIF


Figura 9: Tempo di calcolo per K-SIF e FIF rispetto al numero di curve (sinistra), al numero di punti di discretizzazione (centro) e al numero di dimensioni (destra).

C.5. K-SIF e SIF: una migliore discriminazione delle anomalie rispetto a FIF

In questa parte, costruiamo un ulteriore esperimento giocattolo per mostrare il potere di discriminazione di (K-)SIF su FIF. Simuliamo 100 percorsi di moto browniano planare con il 90% di dati normali con deriva µ = [0, 0] e deviazione standard σ = [0,1, 0,1] e il 10% di dati anormali con deriva µ = [0, 0] e deviazione standard σ = [0,4, 0,4].


La Figura 10 presenta una simulazione di questo set di dati. Si noti che i percorsi viola rappresentano dati normali, mentre in arancione sono rappresentati quelli anomali. Su questo set di dati, calcoliamo FIF (con α = 1 e dizionario browniano), K-SIF (con


Figura 10: Dataset utilizzato per l'esperimento. I percorsi viola sono dati normali mentre i percorsi arancioni sono quelli anormali.


k = 2, ω = 10 e dizionario Browniano) e SIF (con k = 2 e ω = 10). Per visualizzare i punteggi restituiti dall'algoritmo, forniamo la Figura 11. Si noti che i grafici mostrano i punteggi per questi 100 percorsi, dopo averli ordinati. Quindi, l'asse x fornisce l'indice dei punteggi ordinati, mentre l'asse y rappresenta i valori dei punteggi. Per quanto riguarda la simulazione, tracciamo in viola i punteggi dei dati normali e in arancione i punteggi dei dati anormali. I tre pannelli si riferiscono rispettivamente a FIF, K-SIF e SIF.


È possibile osservare che i punteggi di K-SIF e SIF separano bene i dati anormali e quelli normali, con un salto nei punteggi che è piuttosto pronunciato, ovvero i punteggi dei dati normali sono relativamente distanti dai punteggi dei dati anormali. Se ci si concentra invece su FIF, allora la discriminazione di tali anomalie sembra essere più impegnativa; il primo pannello mostra, infatti, un continuo in termini di punteggio restituito dall'algoritmo AD, che non separa i dati normali da quelli anormali.


In sintesi, gli algoritmi proposti che sfruttano il kernel di firma (K-SIF) e la coordinata di firma (SIF) mostrano risultati più affidabili in questo contesto sperimentale, suggerendo la loro efficacia nel discernere anomalie all'interno del set di dati simulato. Rilevare l'ordine in cui si verificano gli eventi è una caratteristica molto più informativa rispetto all'incorporazione di un aspetto funzionale nell'algoritmo di rilevamento delle anomalie. Questo aspetto deve essere ulteriormente studiato ed esplorato, in particolare nelle aree applicative in cui vengono presi in considerazione dati sequenziali, come le serie temporali.


Figura 11: Punteggi restituiti da FIF (sinistra), K-SIF (centro) e SIF (destra) sul moto browniano planare con dati anomali (arancione).

C.6. Dati di riferimento per il rilevamento delle anomalie


C.7. Informazioni di base sulla funzione di profondità dei dati

Gli strumenti statistici noti come profondità dei dati servono come punteggi di similarità intrinseca in questo contesto. Le profondità dei dati offrono un'interpretazione geometrica semplice, ordinando i punti dal centro verso l'esterno rispetto a una distribuzione di probabilità (Tukey, 1975; Zuo e Serfling, 2000). Geometricamente, le profondità dei dati misurano la profondità di un campione all'interno di una data distribuzione. Nonostante abbiano attirato l'attenzione della comunità statistica, le profondità dei dati sono state ampiamente trascurate dalla comunità di apprendimento automatico. Sono state proposte numerose definizioni, come alternative alla prima proposta, la profondità di semispazio introdotta in (Tukey, 1975). Tra le tante, queste includono: la profondità simpliciale (Liu, 1988), la profondità di proiezione (Liu e Singh, 1993), la profondità zonoide (Koshevoy e Mosler, 1997), la profondità di regressione (Rousseeuw e Hubert, 1999), la profondità spaziale (Vardi e Zhang, 2000) o la profondità AI-IRW (Clemen ´ c¸on et al., 2023) che differiscono nelle loro proprietà e applicazioni. La profondità dei dati trova numerose applicazioni, ad esempio la definizione di metriche robuste tra distribuzione di probabilità (Staerman et al., 2021b) in competizione con metriche robuste basate sul trasporto ottimale (Staerman et al., 2021a), l'individuazione di attacchi avversari nella visione artificiale (Picot et al., 2022; Dadalto et al., 2023) o il rilevamento di allucinazioni nei trasformatori NLP (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022) e LLM (Himmi et al., 2024).


Questo articolo è disponibile su arxiv con licenza CC BY 4.0 DEED.