Autori:
(1) Guillaume Staerman, INRIA, CEA, Univ. Parigi-Saclay, Francia;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francia;
(3) Gareth W. Peters, Dipartimento di statistica e probabilità applicata, Università della California Santa Barbara, USA.
2.1. Foresta di isolamento funzionale
3. Metodo della foresta di isolamento della firma
4.1. Analisi di sensibilità dei parametri
4.2. Vantaggi del (K-)SIF rispetto al FIF
4.3. Benchmark di rilevamento delle anomalie nei dati reali
5. Discussione e conclusione, dichiarazioni di impatto e riferimenti
Appendice
A. Ulteriori informazioni sulla firma
C. Ulteriori esperimenti numerici
In questa sezione, presentiamo ulteriori esperimenti numerici a supporto degli algoritmi proposti e delle argomentazioni sviluppate nel corpo principale del documento. Innanzitutto, descriviamo il ruolo della profondità della firma negli algoritmi e spieghiamo come questo parametro li influenza. Forniamo boxplot per due set di dati generati e sosteniamo l'importanza del parametro profondità in questo contesto. Successivamente, forniamo ulteriori esperimenti sulla robustezza al vantaggio del rumore di (K)-SIF su FIF, correlati alla Sezione 4.2 del corpo principale del documento. Il terzo paragrafo fa riferimento ai dati generati per l'esperimento "swapping events" nella sezione 4.2 del corpo principale del documento. Forniamo una Figura per la visualizzazione e una migliore comprensione. Osserviamo ulteriormente come abbiamo costruito i dati. La quarta sottosezione dimostra quindi il tempo di calcolo degli algoritmi proposti con un confronto diretto con FIF. Quindi, viene presentato un ulteriore esperimento che presenta ulteriori prove del potere di discriminazione rispetto al compito AD di (K)-SIF su FIF. Infine, l'ultima sottosezione mostra una tabella che descrive le informazioni sulla dimensione dei set di dati relativi al benchmark nella Sezione 4.3.
In questo esperimento, esaminiamo l'impatto di questo parametro su K-SIF con due diverse classi di processi stocastici. Il moto browniano tridimensionale (con µ = 0 e σ = 0,1), caratterizzato dai suoi due primi momenti, e il processo di diffusione a salto di Merton unidimensionale, un processo a coda pesante ampiamente utilizzato per modellare il mercato azionario. In tale
Algoritmi
In questo modo confrontiamo la prima classe di modelli stocastici con la seconda, che invece non può essere caratterizzata dai primi due momenti, e osserviamo le prestazioni di (K)-SIF a questo riguardo.
Abbiamo calcolato K-SIF con tre dizionari con livelli di troncamento variabili in {2, 3, 4} per entrambi i set di dati simulati. Abbiamo impostato il numero di finestre divise a 10, secondo la sezione precedente, e il numero di alberi a 1000. Dopo di che, abbiamo calcolato la correlazione di Kendall del rango restituito da questi modelli per le tre impostazioni a coppie: livello 2 contro livello 3, livello 2 contro livello 4 e livello 3 contro livello 4.
Abbiamo ripetuto questo esperimento 100 volte e riportiamo i boxplot di correlazione nella Figura 5 per il moto browniano e nella Figura 6 per il processo di diffusione Merton-jump. Si noti che i grafici a sinistra e a destra si riferiscono ai diversi parametri split window selezionati per K-SIF, corrispondenti a ω = 3 per i pannelli di sinistra, mentre, per quelli di destra, abbiamo scelto ω = 5. Questi boxplot mostrano la correlazione tau di Kendall tra il punteggio restituito da uno degli algoritmi utilizzati con una profondità specifica e lo stesso algoritmo con una profondità diversa. I risultati K-SIF con i tre dizionari sono rappresentati in blu, arancione e verde per le wavelet browniane, coseno e gaussiane verdi, rispettivamente. I boxplot SIF sono invece in viola. L'asse y si riferisce ai valori di correlazione di Kendall e l'asse x alle impostazioni dei valori di profondità rispetto ai quali è stata effettuata la correlazione.
Un'elevata correlazione indica un rango equivalente restituito dall'algoritmo con diversi parametri di profondità. Pertanto, se la correlazione è elevata, ciò suggerisce che questo parametro non influisce sui risultati dell'algoritmo considerato e dovrebbe essere selezionata una profondità inferiore per una migliore efficienza di calcolo. Sono mostrate correlazioni elevate sia per SIF (boxplot viola) che per K-SIF per i due dizionari, ovvero Browniano e Coseno (boxplot blu e arancione). Pertanto, si consiglia di scegliere il livello di troncamento minimo per migliorare l'efficienza di calcolo. Per gli stessi algoritmi, vengono identificate correlazioni leggermente inferiori nel caso dei processi di Merton, ma comunque intorno a livelli di 0,8, supportando quindi un'affermazione equivalente. Nel caso di K-SIF con il dizionario gaussiano (boxplot verdi), si ottiene una variazione molto più elevata per quanto riguarda i risultati di correlazione nei tre scenari testati. Inoltre, nel caso dei processi di diffusione Merton-jump, i risultati mostrano una correlazione inferiore, coerente con gli altri risultati. Pertanto, nel caso di K-SIF con un tale dizionario, la profondità dovrebbe essere scelta con attenzione poiché parametri diversi potrebbero portare a una migliore rilevazione dei momenti del processo sottostante.
Questa parte fornisce esperimenti aggiuntivi sul vantaggio di robustezza al rumore di (K)-SIF su FIF, correlati alla Sezione 4.2 del corpo principale del documento. La configurazione per la simulazione dei dati è la seguente. Definiamo un set di dati sintetico di 100 funzioni lisce fornite da
dove ε(t) ∼ N (0, 0,5). Selezioniamo casualmente di nuovo il 10% e creiamo curve leggermente rumorose aggiungendo un piccolo rumore su un altro sottointervallo rispetto al primo, ovvero,
dove ε(t) ∼ N (0, 0,1).
La Figura 7 fornisce una visualizzazione riassuntiva del set di dati generato nel primo pannello. Le 10 curve anomale sono tracciate in rosso, mentre i 10 dati normali considerati leggermente rumorosi sono tracciati in blu. Il resto delle curve, considerati dati normali, è fornito in grigio. L'idea è di capire come la scelta del dizionario influenza K-SIF e FIF nel rilevamento di dati normali leggermente rumorosi rispetto al rumore anomalo. I risultati per K-SIF e FIF sono forniti rispettivamente nel secondo, terzo e quarto pannello della Figura 7.
Calcoliamo K-SIF con un dizionario browniano, k = 2 e ω = 10 e FIF per α = 0 e α = 1 anche con un dizionario browniano. I colori dei pannelli rappresentano il punteggio di anomalia assegnato a ciascuna curva per quell'algoritmo specifico. Nel secondo (K-SIF) e nell'ultimo (FIF con α = 0) pannelli, il punteggio di anomalia aumenta dal giallo al blu scuro, ovvero una curva scura è anomala e il giallo è normale, mentre nel terzo grafico (FIF con α = 1) è l'opposto, ovvero una curva scura è normale e il giallo è anomala.
È possibile osservare come K-SIF riesca a identificare con successo dati rumorosi e anomali in quanto tali. Infatti, mentre i dati anomali sono colorati in blu scuro, quelli rumorosi mostrano un punteggio di colore giallo. Invece, in FIF con α = 1 (terzo pannello) sia le curve anomale che quelle leggermente rumorose vengono identificate come dati normali (data la scala invertita e con colori blu scuro). Quando si tratta di FIF con α = 0 (ultimo e quarto pannello), sia i dati anomali che quelli rumorosi vengono valutati come curve anomale. Quindi, FIF con entrambe le impostazioni del parametro α, non può fornire un punteggio diverso ai dati rumorosi e leggermente rumorosi. K-SIF, invece, esegue con successo tale compito.
Questa parte fornisce una visualizzazione del set di dati utilizzato nell'esperimento "swapping events" nella sezione 4.2 del documento principale. La Figura 8 mostra i dati simulati. Si noti che definiamo un set di dati sintetico di 100 funzioni lisce fornite da
con t ∈ [0, 1] e q equispaziato in [1, 1.4]. Quindi, simuliamo le occorrenze di eventi aggiungendo rumore gaussiano su diverse porzioni delle funzioni. Ne selezioniamo casualmente il 90% e aggiungiamo valori gaussiani su un sottointervallo, ovvero,
dove ε(t) ∼ N (0, 0,8). Consideriamo il 10% rimanente come anomalo aggiungendo gli stessi 'eventi' su un altro sottointervallo rispetto al primo, ovvero,
dove ε(t) ∼ N (0, 0,8). Abbiamo quindi costruito due eventi identici che si verificano in parti diverse delle funzioni, portando all'isolamento delle anomalie.
In questa parte, costruiamo un ulteriore esperimento giocattolo per mostrare il potere di discriminazione di (K-)SIF su FIF. Simuliamo 100 percorsi di moto browniano planare con il 90% di dati normali con deriva µ = [0, 0] e deviazione standard σ = [0,1, 0,1] e il 10% di dati anormali con deriva µ = [0, 0] e deviazione standard σ = [0,4, 0,4].
La Figura 10 presenta una simulazione di questo set di dati. Si noti che i percorsi viola rappresentano dati normali, mentre in arancione sono rappresentati quelli anomali. Su questo set di dati, calcoliamo FIF (con α = 1 e dizionario browniano), K-SIF (con
k = 2, ω = 10 e dizionario Browniano) e SIF (con k = 2 e ω = 10). Per visualizzare i punteggi restituiti dall'algoritmo, forniamo la Figura 11. Si noti che i grafici mostrano i punteggi per questi 100 percorsi, dopo averli ordinati. Quindi, l'asse x fornisce l'indice dei punteggi ordinati, mentre l'asse y rappresenta i valori dei punteggi. Per quanto riguarda la simulazione, tracciamo in viola i punteggi dei dati normali e in arancione i punteggi dei dati anormali. I tre pannelli si riferiscono rispettivamente a FIF, K-SIF e SIF.
È possibile osservare che i punteggi di K-SIF e SIF separano bene i dati anormali e quelli normali, con un salto nei punteggi che è piuttosto pronunciato, ovvero i punteggi dei dati normali sono relativamente distanti dai punteggi dei dati anormali. Se ci si concentra invece su FIF, allora la discriminazione di tali anomalie sembra essere più impegnativa; il primo pannello mostra, infatti, un continuo in termini di punteggio restituito dall'algoritmo AD, che non separa i dati normali da quelli anormali.
In sintesi, gli algoritmi proposti che sfruttano il kernel di firma (K-SIF) e la coordinata di firma (SIF) mostrano risultati più affidabili in questo contesto sperimentale, suggerendo la loro efficacia nel discernere anomalie all'interno del set di dati simulato. Rilevare l'ordine in cui si verificano gli eventi è una caratteristica molto più informativa rispetto all'incorporazione di un aspetto funzionale nell'algoritmo di rilevamento delle anomalie. Questo aspetto deve essere ulteriormente studiato ed esplorato, in particolare nelle aree applicative in cui vengono presi in considerazione dati sequenziali, come le serie temporali.
Gli strumenti statistici noti come profondità dei dati servono come punteggi di similarità intrinseca in questo contesto. Le profondità dei dati offrono un'interpretazione geometrica semplice, ordinando i punti dal centro verso l'esterno rispetto a una distribuzione di probabilità (Tukey, 1975; Zuo e Serfling, 2000). Geometricamente, le profondità dei dati misurano la profondità di un campione all'interno di una data distribuzione. Nonostante abbiano attirato l'attenzione della comunità statistica, le profondità dei dati sono state ampiamente trascurate dalla comunità di apprendimento automatico. Sono state proposte numerose definizioni, come alternative alla prima proposta, la profondità di semispazio introdotta in (Tukey, 1975). Tra le tante, queste includono: la profondità simpliciale (Liu, 1988), la profondità di proiezione (Liu e Singh, 1993), la profondità zonoide (Koshevoy e Mosler, 1997), la profondità di regressione (Rousseeuw e Hubert, 1999), la profondità spaziale (Vardi e Zhang, 2000) o la profondità AI-IRW (Clemen ´ c¸on et al., 2023) che differiscono nelle loro proprietà e applicazioni. La profondità dei dati trova numerose applicazioni, ad esempio la definizione di metriche robuste tra distribuzione di probabilità (Staerman et al., 2021b) in competizione con metriche robuste basate sul trasporto ottimale (Staerman et al., 2021a), l'individuazione di attacchi avversari nella visione artificiale (Picot et al., 2022; Dadalto et al., 2023) o il rilevamento di allucinazioni nei trasformatori NLP (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022) e LLM (Himmi et al., 2024).
Questo articolo è disponibile su arxiv con licenza CC BY 4.0 DEED.