paint-brush
Muita numeerisia kokeita K-SIF:llä ja SIF:llä: syvyys, kohina ja erottelutehokirjoittaja@computational

Muita numeerisia kokeita K-SIF:llä ja SIF:llä: syvyys, kohina ja erotteluteho

kirjoittaja Computational Technology for All10m2024/11/22
Read on Terminal Reader

Liian pitkä; Lukea

Tutustu muihin K-SIF- ja SIF-kokeisiin, mukaan lukien allekirjoituksen syvyyden, kohinan kestävyyden ja suorituskyvyn rooli poikkeamien erottamisessa. Kokeet kattavat erilaisia stokastisia prosesseja, datajoukkosimulaatioita ja vertailuja FIF:iin, esitellen algoritmien vahvuuksia ja laskennallisia näkökohtia.
featured image - Muita numeerisia kokeita K-SIF:llä ja SIF:llä: syvyys, kohina ja erotteluteho
Computational Technology for All HackerNoon profile picture
0-item

Tekijät:

(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Ranska;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Ranska;

(3) Gareth W. Peters, tilastotieteen ja sovelletun todennäköisyyden laitos, Kalifornian yliopisto Santa Barbara, USA.

Linkkitaulukko

Tiivistelmä ja 1. Johdanto

2. Tausta ja alustavat tiedot

2.1. Toiminnallinen eristysmetsä

2.2. Allekirjoitusmenetelmä

3. Signature Isolation Forest Method

4. Numeeriset kokeet

4.1. Parametrien herkkyysanalyysi

4.2. (K-)SIF:n edut FIF:ään verrattuna

4.3. Reaalidatan poikkeamien havaitsemisen vertailuarvo

5. Keskustelu ja päätelmät, vaikutuslausunnot ja viitteet


Liite

A. Lisätietoja allekirjoituksesta

B. K-SIF- ja SIF-algoritmit

C. Muut numeeriset kokeet

C. Muut numeeriset kokeet

Tässä osiossa esittelemme numeerisia lisäkokeita tukemaan ehdotettuja algoritmeja ja argumentteja, jotka on kehitetty artikkelin pääosassa. Aluksi Kuvaamme allekirjoituksen syvyyden roolia algoritmeissa ja selitämme kuinka tämä parametri vaikuttaa niihin. Tarjoamme boxplotteja kahdelle generoidulle datajoukolle ja väitämme syvyysparametrin tärkeyden tässä yhteydessä. Jälkeenpäin tarjoamme lisäkokeita (K)-SIF:n kestävyydestä kohinaan verrattuna FIF:ään, jotka liittyvät artikkelin pääosan 4.2 osaan. Kolmas kappale viittaa "vaihtotapahtumat"-kokeilun tuotettuihin tietoihin, jotka on esitetty paperin pääosan osiossa 4.2. Tarjoamme kuvan visualisointia ja parempaa ymmärtämistä varten. Huomautamme vielä, kuinka rakensimme tiedot. Neljännessä alaosassa esitetään sitten ehdotettujen algoritmien laskenta-aika suoralla vertailulla FIF:ään. Sitten esitetään lisäkoe, joka esittää lisätodisteita (K)-SIF:n AD-tehtävän suhteen FIF:ään nähden. Lopuksi viimeisessä alaosiossa näkyy taulukko, jossa kuvataan tiedot vertailuarvoon liittyvien tietojoukkojen koosta osiossa 4.3.

C.1. Allekirjoituksen syvyyden rooli


Tässä kokeessa tutkimme tämän parametrin vaikutusta K-SIF:ään kahdella eri stokastisen prosessiluokalla. Kolmiulotteinen Brownin liike (µ = 0 ja σ = 0,1), jolle on tunnusomaista sen kaksi ensimmäistä momenttia, ja yksiulotteinen Merton-jump diffuusioprosessi, raskaan hännän prosessi, jota käytetään laajasti osakemarkkinoiden mallintamiseen. Tällaisessa


Algoritmit



tavalla verrataan aiempaa stokastisten mallien luokkaa jälkimmäiseen, jota ei sen sijaan voida luonnehtia kahdella ensimmäisellä momentilla ja tarkkailemme (K)-SIF:n suorituskykyä tässä suhteessa.


Laskemme K-SIF:n kolmella sanakirjalla, joiden katkaisutasot vaihtelivat välillä {2, 3, 4} molemmille simuloiduille tietojoukoille. Asetimme jaettujen ikkunoiden lukumääräksi 10 edellisen osion mukaisesti ja puiden lukumääräksi 1000. Sen jälkeen laskemme näiden mallien palauttaman arvon Kendall-korrelaation kolmelle parikohtaiselle asetukselle: taso 2 vs. taso 3 , taso 2 vs taso 4 ja taso 3 vs taso 4.


Toistimme tämän kokeen 100 kertaa ja raportoimme korrelaatiolaatikkodiagrammit kuvassa 5 Brownin liikkeelle ja kuvassa 6 Merton-jump diffuusioprosessille. Huomaa, että vasen ja oikea käyrä viittaa K-SIF:lle valittuihin erilaisiin jaetun ikkunan parametreihin, jotka vastaavat ω = 3:a vasemmanpuoleisille paneeleille, kun taas oikeille kaavioille valitsimme ω = 5. Nämä boxplotit osoittavat Kendallin tau-korrelaation yhden tietyllä syvyydellä käytetyn algoritmin palauttaman tuloksen ja saman algoritmin eri syvyydellä välillä. Kolmen sanakirjan K-SIF-tulokset on esitetty sinisellä, oranssilla ja vihreällä Brownin, kosini- ja vihreän Gaussin aalloilla. SIF-ruutukuvat ovat sen sijaan purppuranvärisiä. Y-akseli viittaa Kendallin korrelaatioarvoihin ja x-akseli syvyysarvojen asetuksiin, joiden suhteen korrelaatio on ollut.


Korkea korrelaatio osoittaa algoritmin palauttaman vastaavan arvon eri syvyysparametreilla. Siksi, jos korrelaatio on korkea, tämä viittaa siihen, että tämä parametri ei vaikuta tarkasteltavan algoritmin tuloksiin, ja laskennan tehokkuuden parantamiseksi tulisi valita pienempi syvyys. Korkeat korrelaatiot näkyvät sekä SIF:llä (violetit ruutukuvat) että K-SIF:llä molemmissa sanakirjoissa, eli Brownin ja Cosine (siniset ja oranssit laatikkokuvaukset). Siksi on suositeltavaa valita pienin katkaisutaso laskennan tehokkuuden parantamiseksi. Samoilla algoritmeilla havaitaan hieman alhaisemmat korrelaatiot Merton-prosessien tapauksessa, mutta silti noin 0,8 tasoa, mikä tukee vastaavaa väitettä. K-SIF:n tapauksessa Gaussin sanakirjalla (vihreät laatikkokaaviot) saadaan paljon suurempi vaihtelu korrelaatiotuloksissa kolmen testatun skenaarion välillä. Lisäksi Merton-jump diffuusioprosessien tapauksessa tulokset osoittavat alhaisempaa korrelaatiota, joka on yhdenmukainen muiden tulosten kanssa. Siksi K-SIF:n tapauksessa, jossa on tällainen sanakirja, syvyys tulee valita huolellisesti, koska erilaiset parametrit voivat johtaa taustalla olevan prosessin hetkien parempaan havaitsemiseen.


Kuva 5: Brownin liikeprosessin tulokset. Kendall tau -korrelaatio SIF:n (violetti) ja K-SIF:n palauttamien pisteiden välillä eri syvyysarvoilla, ω = 3 (vasemmalla) ja ω = 5 (oikealla) , kolmelle sanakirjalle: 'Brownian' (sininen), 'Kosini' (oranssi) ja "Gaussin aallot" (vihreä) kolmiulotteisilla Brownin poluilla.


Kuva 6: Merton-Jump-diffuusioprosessin tulokset. Kendall tau -korrelaatio SIF:n (violetti) ja K-SIF:n palauttamien pistemäärien välillä eri syvyysarvoilla kolmessa sanakirjassa: 'ruskea' (sininen), 'kosiini' (oranssi) ja 'Gaussin aallot' (vihreä) ω = 3 (vasemmalla) ja ω = 5 (oikealla) Merton-jump diffuusioprosesseissa.

C.2. Kestävyys melulle

Tämä osa tarjoaa lisäkokeita (K)-SIF:n kestävyydestä kohinaan verrattuna FIF:ään verrattuna, jotka liittyvät paperin rungon osaan 4.2. Datasimuloinnin konfigurointi tapahtuu seuraavasti. Määrittelemme synteettisen tietojoukon 100 sujuvasta funktiosta



jossa ε(t) -N (0, 0,5). Valitsemme jälleen satunnaisesti 10 % ja luomme hieman meluisia käyriä lisäämällä pientä kohinaa toiseen osaväliin verrattuna ensimmäiseen, eli



missä ε(t) -N (0, 0,1).


Kuva 7 tarjoaa yhteenvedon luodusta tietojoukosta ensimmäisessä paneelissa. 10 poikkeavaa käyrää on piirretty punaisella, kun taas 10, joita pidetään hieman kohinaisena normaalina, on merkitty sinisellä. Muut käyrät, joita pidetään normaaleina tiedoina, esitetään harmaina. Ajatuksena on ymmärtää, miten sanakirjavalinta vaikuttaa K-SIF:ään ja FIF:ään havaittaessa hieman kohinaa normaalia dataa verrattuna epänormaaliin kohinaan. Tulokset K-SIF:lle ja FIF:lle esitetään kuvan 7 toisessa, kolmannessa ja neljännessä paneelissa, vastaavasti.


Laskemme K-SIF Brownin sanakirjalla, k = 2 ja ω = 10 ja FIF, kun α = 0 ja α = 1, myös Brownin sanakirjalla. Paneeleiden värit edustavat kullekin käyrälle määritettyä poikkeamapistettä kyseisessä algoritmissa. Toisessa (K-SIF) ja viimeisessä (FIF, jossa α = 0) paneelissa poikkeamapistemäärä kasvaa keltaisesta tummansiniseksi, eli tumma käyrä on epänormaali ja keltainen on normaali, kun taas kolmannessa käyrässä (FIF, jossa α = 1) se on päinvastoin, eli tumma käyrä on normaali ja keltainen on epänormaali.


Kuva 7: Kestävyys melua vastaan. Ensimmäinen paneeli esittää raakadataa, jossa on 120 käyrää, joista punaisella on 10 käyrää epänormaalille tai kohinaiselle tiedolle, sinisellä 10 käyrää hieman meluisalle mutta normaalille tiedolle ja harmaalla loput käyrät. Tietosimuloinnin konfiguraatio on tämän osan alussa. Toinen, kolmas ja neljäs paneeli näyttävät poikkeavuuspisteet, jotka on annettu käyriin kiinnostavan algoritmin perusteella. Toinen paneeli viittaa K-SIF:ään, joka suoritetaan Brownin sanakirjalla, k = 2 ja ω = 10. Kolmas ja neljäs paneeli viittaavat FIF:ään, joka suoritetaan Brownin sanakirjalla, jossa α = 1 (kolmas) ja α = 0 (neljäs) , vastaavasti. Anomaliapistemäärän väri kasvaa keltaisesta tummansiniseksi toisessa ja neljännessä käyrässä, eli tumma käyrä on epänormaali ja keltainen on normaali. Kolmannella kuvaajalla se pienenee visualisointia varten, eli tumma käyrä on normaali ja keltainen epänormaali.


On mahdollista havaita, kuinka K-SIF pystyy tunnistamaan meluisan ja epänormaalin datan sellaisenaan. Itse asiassa, vaikka epänormaalit tiedot on värjätty tummansinisellä, meluisat tiedot näyttävät keltaisen väripisteen. Sen sijaan FIF:ssä, jossa α = 1 (kolmas paneeli), sekä epänormaalit että hieman meluisat käyrät tunnistetaan normaaleiksi tiedoiksi (kun otetaan huomioon käänteinen asteikko ja tummansiniset värit). Kun kyseessä on FIF, jossa α = 0 (viimeinen ja neljäs paneeli), sekä epänormaalit että kohinaiset tiedot pisteytetään epänormaaleiksi käyriksi. Näin ollen FIF, jossa on molemmat α-parametrin asetukset, ei voi antaa erilaista arvoa kohinalle ja hieman kohinaiselle tiedolle. Sen sijaan K-SIF suorittaa tällaisen tehtävän onnistuneesti.

C.3. Tapahtumatietojoukon vaihto

Tämä osa tarjoaa visualisoinnin tietojoukosta, jota käytettiin 'vaihtotapahtumat' -kokeessa ydinpaperin osiossa 4.2. Kuva 8 esittää simuloidut tiedot. Huomaa, että määrittelemme synteettisen tietojoukon 100 sujuvasta funktiosta



t ∈ [0, 1] ja q tasavälein kohdassa [1, 1.4]. Sitten simuloimme tapahtumien esiintymistä lisäämällä Gaussin kohinaa funktioiden eri osiin. Valitsemme satunnaisesti 90 % niistä ja lisäämme Gaussin arvot osavälille, ts.



jossa ε(t) -N (0, 0,8). Pidämme jäljellä olevaa 10 % epänormaalina lisäämällä samat "tapahtumat" toiseen osaväliin verrattuna ensimmäiseen, eli



jossa ε(t) -N (0, 0,8). Sitten olemme rakentaneet kaksi identtistä tapahtumaa, jotka tapahtuvat toimintojen eri osissa, mikä johtaa eristäviin poikkeamiin.


Kuva 8: Vaihtotapahtumat. Osan 4.2 kokeessa käytetty tietojoukko. Violetit käyrät edustavat normaaleja tietoja, kun taas keltaiset käyrät edustavat epänormaalia dataa. Simulaation konfiguraatiot on annettu osan alussa.

C.4. K-SIF:n, SIF:n ja FIF:n laskennallinen aika


Kuva 9: K-SIF:n ja FIF:n laskenta-aika suhteessa käyrien lukumäärään (vasemmalla), diskretisointipisteiden lukumäärään (keskellä) ja dimensioiden lukumäärään (oikealla).

C.5. K-SIF ja SIF: Parempi poikkeamien erottelu FIF:ään verrattuna

Tässä osassa rakennamme ylimääräisen lelukokeen näyttääksemme (K-)SIF:n erotteluvoiman FIF:iin nähden. Simuloimme 100 tasomaista Brownin liikereittiä 90 %:lla normaalista tiedosta ryöminnällä µ = [0, 0] ja keskihajonnalla σ = [0,1, 0,1] ja 10 %:lla epänormaalista tiedosta ryömimällä µ = [0, 0] ja standardilla poikkeama σ = [0,4, 0,4].


Kuvassa 10 on yksi simulaatio tästä aineistosta. Huomaa, että violetit polut edustavat normaaleja tietoja, kun taas oranssissa epänormaalit ovat sen sijaan edustettuina. Tässä aineistossa lasketaan FIF (jossa α = 1 ja Brownin sanakirja), K-SIF (jossa


Kuva 10: Kokeessa käytetty tietojoukko. Purppurat polut ovat normaaleja tietoja, kun taas oranssit polut ovat epänormaaleja.


k = 2, ω = 10 ja Brownin sanakirja) ja SIF (kun k = 2 ja ω = 10). Algoritmin palauttamien pisteiden näyttämiseksi tarjoamme kuvan 11. Huomaa, että kaaviot näyttävät näiden 100 polun pisteet niiden lajittelun jälkeen. Siten x-akseli tarjoaa järjestetyn pisteiden indeksin, kun taas y-akseli edustaa pistearvoja. Simulaatiossa piirretään purppuraan normaalien datan pisteet ja oranssiin epänormaalien datan pisteet. Kolme paneelia viittaavat FIF:iin, K-SIF:iin ja SIF:iin.


Voidaan havaita, että K-SIF:n ja SIF:n pisteet erottavat hyvin epänormaalin ja normaalin datan, pisteytyksen hyppy on melko selvä, eli normaalin datan pisteet ovat suhteellisen kaukana epänormaalien pisteistä. tiedot. Jos sen sijaan keskitytään FIF:ään, tällaisten poikkeamien syrjiminen näyttää olevan haastavampaa; ensimmäinen paneeli näyttää itse asiassa jatkuvan AD-algoritmin palauttaman pistemäärän suhteen, joka ei erota normaalia ja epänormaalia dataa.


Yhteenvetona, ehdotetut algoritmit, jotka hyödyntävät allekirjoitusydintä (K-SIF) ja allekirjoituskoordinaattia (SIF), osoittavat luotettavampia tuloksia tässä kokeellisessa ympäristössä, mikä viittaa niiden tehokkuuteen poikkeavuuksien havaitsemisessa simuloidussa tietojoukossa. Tapahtumien tapahtumisjärjestyksen havaitseminen on paljon informatiivisempi ominaisuus kuin toiminnallisen näkökohdan sisällyttäminen poikkeamien havaitsemisalgoritmiin. Tätä näkökohtaa on tutkittava ja tutkittava edelleen, erityisesti niillä sovellusalueilla, joissa peräkkäiset tiedot, kuten aikasarjat, otetaan huomioon.


Kuva 11: FIF:n (vasemmalla), K-SIF:n (keskellä) ja SIF:n (oikealla) palauttamat pisteet Brownin tasomaisesta liikkeestä epänormaaleilla tiedoilla (oranssi).

C.6. Poikkeamien havaitsemisen vertailutiedot


C.7. Tietojen syvyys -toiminnon tausta

Tilastolliset työkalut, jotka tunnetaan nimellä datasyvyydet, toimivat luontaisina samankaltaisuuspisteinä tässä yhteydessä. Tietojen syvyydet tarjoavat suoran geometrisen tulkinnan, jossa pisteet järjestetään keskustasta ulospäin suhteessa todennäköisyysjakaumaan (Tukey, 1975; Zuo ja Serfling, 2000). Geometrisesti datasyvyydet mittaavat näytteen syvyyttä tietyssä jakaumassa. Huolimatta tilastoyhteisön huomiosta, tietosyvyys on jäänyt suurelta osin huomiotta koneoppimisyhteisöltä. Useita määritelmiä on ehdotettu vaihtoehtona aikaisimmalle ehdotukselle, vuonna (Tukey, 1975) esitellylle puoliavaruuden syvyydelle. Monien muiden joukossa näitä ovat: yksinkertainen syvyys (Liu, 1988), projektio-syvyys (Liu ja Singh, 1993), vyöhykkeen syvyys (Koshevoy ja Mosler, 1997), regression syvyys (Rousseeuw ja Hubert, 1999), spatiaalinen syvyys (Vardi ja Zhang, 2000) tai AI-IRW-syvyys (Clemen ´ c¸on et al., 2023), jotka eroavat ominaisuuksiltaan ja sovelluksistaan. Tietosyvyys löytää monia sovelluksia, kuten vankkojen mittareiden määrittäminen todennäköisyysjakauman välillä (Staerman et al., 2021b) kilpaileva vankkojen optimaalisten kuljetuspohjaisten mittareiden kanssa (Staerman et al., 2021a), vastakkaisten hyökkäysten löytäminen tietokonenäössä (Picot et al., 2022). Dadalto et al., 2023) tai hallusinaatioiden havaitseminen NLP-muuntajissa (Colombo et ai., 2023; Darrin et ai., 2023; Colombo et ai., 2022) ja LLM (Himmi et al., 2024).


Tämä paperi on saatavilla arxivissa CC BY 4.0 DEED -lisenssillä.