Tekijät:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Ranska;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Ranska;
(3) Gareth W. Peters, tilastotieteen ja sovelletun todennäköisyyden laitos, Kalifornian yliopisto Santa Barbara, USA.
2.1. Toiminnallinen eristysmetsä
3. Signature Isolation Forest Method
4.1. Parametrien herkkyysanalyysi
4.2. (K-)SIF:n edut FIF:ään verrattuna
4.3. Reaalidatan poikkeamien havaitsemisen vertailuarvo
5. Keskustelu ja päätelmät, vaikutuslausunnot ja viitteet
Liite
A. Lisätietoja allekirjoituksesta
Tässä osiossa esittelemme numeerisia lisäkokeita tukemaan ehdotettuja algoritmeja ja argumentteja, jotka on kehitetty artikkelin pääosassa. Aluksi Kuvaamme allekirjoituksen syvyyden roolia algoritmeissa ja selitämme kuinka tämä parametri vaikuttaa niihin. Tarjoamme boxplotteja kahdelle generoidulle datajoukolle ja väitämme syvyysparametrin tärkeyden tässä yhteydessä. Jälkeenpäin tarjoamme lisäkokeita (K)-SIF:n kestävyydestä kohinaan verrattuna FIF:ään, jotka liittyvät artikkelin pääosan 4.2 osaan. Kolmas kappale viittaa "vaihtotapahtumat"-kokeilun tuotettuihin tietoihin, jotka on esitetty paperin pääosan osiossa 4.2. Tarjoamme kuvan visualisointia ja parempaa ymmärtämistä varten. Huomautamme vielä, kuinka rakensimme tiedot. Neljännessä alaosassa esitetään sitten ehdotettujen algoritmien laskenta-aika suoralla vertailulla FIF:ään. Sitten esitetään lisäkoe, joka esittää lisätodisteita (K)-SIF:n AD-tehtävän suhteen FIF:ään nähden. Lopuksi viimeisessä alaosiossa näkyy taulukko, jossa kuvataan tiedot vertailuarvoon liittyvien tietojoukkojen koosta osiossa 4.3.
Tässä kokeessa tutkimme tämän parametrin vaikutusta K-SIF:ään kahdella eri stokastisen prosessiluokalla. Kolmiulotteinen Brownin liike (µ = 0 ja σ = 0,1), jolle on tunnusomaista sen kaksi ensimmäistä momenttia, ja yksiulotteinen Merton-jump diffuusioprosessi, raskaan hännän prosessi, jota käytetään laajasti osakemarkkinoiden mallintamiseen. Tällaisessa
Algoritmit
tavalla verrataan aiempaa stokastisten mallien luokkaa jälkimmäiseen, jota ei sen sijaan voida luonnehtia kahdella ensimmäisellä momentilla ja tarkkailemme (K)-SIF:n suorituskykyä tässä suhteessa.
Laskemme K-SIF:n kolmella sanakirjalla, joiden katkaisutasot vaihtelivat välillä {2, 3, 4} molemmille simuloiduille tietojoukoille. Asetimme jaettujen ikkunoiden lukumääräksi 10 edellisen osion mukaisesti ja puiden lukumääräksi 1000. Sen jälkeen laskemme näiden mallien palauttaman arvon Kendall-korrelaation kolmelle parikohtaiselle asetukselle: taso 2 vs. taso 3 , taso 2 vs taso 4 ja taso 3 vs taso 4.
Toistimme tämän kokeen 100 kertaa ja raportoimme korrelaatiolaatikkodiagrammit kuvassa 5 Brownin liikkeelle ja kuvassa 6 Merton-jump diffuusioprosessille. Huomaa, että vasen ja oikea käyrä viittaa K-SIF:lle valittuihin erilaisiin jaetun ikkunan parametreihin, jotka vastaavat ω = 3:a vasemmanpuoleisille paneeleille, kun taas oikeille kaavioille valitsimme ω = 5. Nämä boxplotit osoittavat Kendallin tau-korrelaation yhden tietyllä syvyydellä käytetyn algoritmin palauttaman tuloksen ja saman algoritmin eri syvyydellä välillä. Kolmen sanakirjan K-SIF-tulokset on esitetty sinisellä, oranssilla ja vihreällä Brownin, kosini- ja vihreän Gaussin aalloilla. SIF-ruutukuvat ovat sen sijaan purppuranvärisiä. Y-akseli viittaa Kendallin korrelaatioarvoihin ja x-akseli syvyysarvojen asetuksiin, joiden suhteen korrelaatio on ollut.
Korkea korrelaatio osoittaa algoritmin palauttaman vastaavan arvon eri syvyysparametreilla. Siksi, jos korrelaatio on korkea, tämä viittaa siihen, että tämä parametri ei vaikuta tarkasteltavan algoritmin tuloksiin, ja laskennan tehokkuuden parantamiseksi tulisi valita pienempi syvyys. Korkeat korrelaatiot näkyvät sekä SIF:llä (violetit ruutukuvat) että K-SIF:llä molemmissa sanakirjoissa, eli Brownin ja Cosine (siniset ja oranssit laatikkokuvaukset). Siksi on suositeltavaa valita pienin katkaisutaso laskennan tehokkuuden parantamiseksi. Samoilla algoritmeilla havaitaan hieman alhaisemmat korrelaatiot Merton-prosessien tapauksessa, mutta silti noin 0,8 tasoa, mikä tukee vastaavaa väitettä. K-SIF:n tapauksessa Gaussin sanakirjalla (vihreät laatikkokaaviot) saadaan paljon suurempi vaihtelu korrelaatiotuloksissa kolmen testatun skenaarion välillä. Lisäksi Merton-jump diffuusioprosessien tapauksessa tulokset osoittavat alhaisempaa korrelaatiota, joka on yhdenmukainen muiden tulosten kanssa. Siksi K-SIF:n tapauksessa, jossa on tällainen sanakirja, syvyys tulee valita huolellisesti, koska erilaiset parametrit voivat johtaa taustalla olevan prosessin hetkien parempaan havaitsemiseen.
Tämä osa tarjoaa lisäkokeita (K)-SIF:n kestävyydestä kohinaan verrattuna FIF:ään verrattuna, jotka liittyvät paperin rungon osaan 4.2. Datasimuloinnin konfigurointi tapahtuu seuraavasti. Määrittelemme synteettisen tietojoukon 100 sujuvasta funktiosta
jossa ε(t) -N (0, 0,5). Valitsemme jälleen satunnaisesti 10 % ja luomme hieman meluisia käyriä lisäämällä pientä kohinaa toiseen osaväliin verrattuna ensimmäiseen, eli
missä ε(t) -N (0, 0,1).
Kuva 7 tarjoaa yhteenvedon luodusta tietojoukosta ensimmäisessä paneelissa. 10 poikkeavaa käyrää on piirretty punaisella, kun taas 10, joita pidetään hieman kohinaisena normaalina, on merkitty sinisellä. Muut käyrät, joita pidetään normaaleina tiedoina, esitetään harmaina. Ajatuksena on ymmärtää, miten sanakirjavalinta vaikuttaa K-SIF:ään ja FIF:ään havaittaessa hieman kohinaa normaalia dataa verrattuna epänormaaliin kohinaan. Tulokset K-SIF:lle ja FIF:lle esitetään kuvan 7 toisessa, kolmannessa ja neljännessä paneelissa, vastaavasti.
Laskemme K-SIF Brownin sanakirjalla, k = 2 ja ω = 10 ja FIF, kun α = 0 ja α = 1, myös Brownin sanakirjalla. Paneeleiden värit edustavat kullekin käyrälle määritettyä poikkeamapistettä kyseisessä algoritmissa. Toisessa (K-SIF) ja viimeisessä (FIF, jossa α = 0) paneelissa poikkeamapistemäärä kasvaa keltaisesta tummansiniseksi, eli tumma käyrä on epänormaali ja keltainen on normaali, kun taas kolmannessa käyrässä (FIF, jossa α = 1) se on päinvastoin, eli tumma käyrä on normaali ja keltainen on epänormaali.
On mahdollista havaita, kuinka K-SIF pystyy tunnistamaan meluisan ja epänormaalin datan sellaisenaan. Itse asiassa, vaikka epänormaalit tiedot on värjätty tummansinisellä, meluisat tiedot näyttävät keltaisen väripisteen. Sen sijaan FIF:ssä, jossa α = 1 (kolmas paneeli), sekä epänormaalit että hieman meluisat käyrät tunnistetaan normaaleiksi tiedoiksi (kun otetaan huomioon käänteinen asteikko ja tummansiniset värit). Kun kyseessä on FIF, jossa α = 0 (viimeinen ja neljäs paneeli), sekä epänormaalit että kohinaiset tiedot pisteytetään epänormaaleiksi käyriksi. Näin ollen FIF, jossa on molemmat α-parametrin asetukset, ei voi antaa erilaista arvoa kohinalle ja hieman kohinaiselle tiedolle. Sen sijaan K-SIF suorittaa tällaisen tehtävän onnistuneesti.
Tämä osa tarjoaa visualisoinnin tietojoukosta, jota käytettiin 'vaihtotapahtumat' -kokeessa ydinpaperin osiossa 4.2. Kuva 8 esittää simuloidut tiedot. Huomaa, että määrittelemme synteettisen tietojoukon 100 sujuvasta funktiosta
t ∈ [0, 1] ja q tasavälein kohdassa [1, 1.4]. Sitten simuloimme tapahtumien esiintymistä lisäämällä Gaussin kohinaa funktioiden eri osiin. Valitsemme satunnaisesti 90 % niistä ja lisäämme Gaussin arvot osavälille, ts.
jossa ε(t) -N (0, 0,8). Pidämme jäljellä olevaa 10 % epänormaalina lisäämällä samat "tapahtumat" toiseen osaväliin verrattuna ensimmäiseen, eli
jossa ε(t) -N (0, 0,8). Sitten olemme rakentaneet kaksi identtistä tapahtumaa, jotka tapahtuvat toimintojen eri osissa, mikä johtaa eristäviin poikkeamiin.
Tässä osassa rakennamme ylimääräisen lelukokeen näyttääksemme (K-)SIF:n erotteluvoiman FIF:iin nähden. Simuloimme 100 tasomaista Brownin liikereittiä 90 %:lla normaalista tiedosta ryöminnällä µ = [0, 0] ja keskihajonnalla σ = [0,1, 0,1] ja 10 %:lla epänormaalista tiedosta ryömimällä µ = [0, 0] ja standardilla poikkeama σ = [0,4, 0,4].
Kuvassa 10 on yksi simulaatio tästä aineistosta. Huomaa, että violetit polut edustavat normaaleja tietoja, kun taas oranssissa epänormaalit ovat sen sijaan edustettuina. Tässä aineistossa lasketaan FIF (jossa α = 1 ja Brownin sanakirja), K-SIF (jossa
k = 2, ω = 10 ja Brownin sanakirja) ja SIF (kun k = 2 ja ω = 10). Algoritmin palauttamien pisteiden näyttämiseksi tarjoamme kuvan 11. Huomaa, että kaaviot näyttävät näiden 100 polun pisteet niiden lajittelun jälkeen. Siten x-akseli tarjoaa järjestetyn pisteiden indeksin, kun taas y-akseli edustaa pistearvoja. Simulaatiossa piirretään purppuraan normaalien datan pisteet ja oranssiin epänormaalien datan pisteet. Kolme paneelia viittaavat FIF:iin, K-SIF:iin ja SIF:iin.
Voidaan havaita, että K-SIF:n ja SIF:n pisteet erottavat hyvin epänormaalin ja normaalin datan, pisteytyksen hyppy on melko selvä, eli normaalin datan pisteet ovat suhteellisen kaukana epänormaalien pisteistä. tiedot. Jos sen sijaan keskitytään FIF:ään, tällaisten poikkeamien syrjiminen näyttää olevan haastavampaa; ensimmäinen paneeli näyttää itse asiassa jatkuvan AD-algoritmin palauttaman pistemäärän suhteen, joka ei erota normaalia ja epänormaalia dataa.
Yhteenvetona, ehdotetut algoritmit, jotka hyödyntävät allekirjoitusydintä (K-SIF) ja allekirjoituskoordinaattia (SIF), osoittavat luotettavampia tuloksia tässä kokeellisessa ympäristössä, mikä viittaa niiden tehokkuuteen poikkeavuuksien havaitsemisessa simuloidussa tietojoukossa. Tapahtumien tapahtumisjärjestyksen havaitseminen on paljon informatiivisempi ominaisuus kuin toiminnallisen näkökohdan sisällyttäminen poikkeamien havaitsemisalgoritmiin. Tätä näkökohtaa on tutkittava ja tutkittava edelleen, erityisesti niillä sovellusalueilla, joissa peräkkäiset tiedot, kuten aikasarjat, otetaan huomioon.
Tilastolliset työkalut, jotka tunnetaan nimellä datasyvyydet, toimivat luontaisina samankaltaisuuspisteinä tässä yhteydessä. Tietojen syvyydet tarjoavat suoran geometrisen tulkinnan, jossa pisteet järjestetään keskustasta ulospäin suhteessa todennäköisyysjakaumaan (Tukey, 1975; Zuo ja Serfling, 2000). Geometrisesti datasyvyydet mittaavat näytteen syvyyttä tietyssä jakaumassa. Huolimatta tilastoyhteisön huomiosta, tietosyvyys on jäänyt suurelta osin huomiotta koneoppimisyhteisöltä. Useita määritelmiä on ehdotettu vaihtoehtona aikaisimmalle ehdotukselle, vuonna (Tukey, 1975) esitellylle puoliavaruuden syvyydelle. Monien muiden joukossa näitä ovat: yksinkertainen syvyys (Liu, 1988), projektio-syvyys (Liu ja Singh, 1993), vyöhykkeen syvyys (Koshevoy ja Mosler, 1997), regression syvyys (Rousseeuw ja Hubert, 1999), spatiaalinen syvyys (Vardi ja Zhang, 2000) tai AI-IRW-syvyys (Clemen ´ c¸on et al., 2023), jotka eroavat ominaisuuksiltaan ja sovelluksistaan. Tietosyvyys löytää monia sovelluksia, kuten vankkojen mittareiden määrittäminen todennäköisyysjakauman välillä (Staerman et al., 2021b) kilpaileva vankkojen optimaalisten kuljetuspohjaisten mittareiden kanssa (Staerman et al., 2021a), vastakkaisten hyökkäysten löytäminen tietokonenäössä (Picot et al., 2022). Dadalto et al., 2023) tai hallusinaatioiden havaitseminen NLP-muuntajissa (Colombo et ai., 2023; Darrin et ai., 2023; Colombo et ai., 2022) ja LLM (Himmi et al., 2024).
Tämä paperi on saatavilla arxivissa CC BY 4.0 DEED -lisenssillä.