paint-brush
Az osztott ablak érzékenységének dekódolása a Signature Isolation Forestsbenáltal@computational
Új történelem

Az osztott ablak érzékenységének dekódolása a Signature Isolation Forestsben

Túl hosszú; Olvasni

A Signature Isolation Forests érzékenységi elemzése feltárja az osztott ablakok fontosságát az anomáliák észlelésében. A felosztások növelése javítja az elszigetelt anomáliák pontosságát, miközben fenntartja a hatékonyságot a tartós anomáliák esetében.
featured image - Az osztott ablak érzékenységének dekódolása a Signature Isolation Forestsben
Computational Technology for All HackerNoon profile picture
0-item

Szerzői:

(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Franciaország;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Franciaország;

(3) Gareth W. Peters, Statisztikai és Alkalmazott Valószínűségi Tanszék, Santa Barbara Kaliforniai Egyetem, USA.

Hivatkozások táblázata

Absztrakt és 1. Bevezetés

2. Háttér és előzmények

2.1. Funkcionális izolációs erdő

2.2. Az aláírási módszer

3. Signature Isolation Forest Method

4. Numerikus kísérletek

4.1. Paraméterek érzékenységi elemzése

4.2. A (K-)SIF előnyei a FIF-fel szemben

4.3. Valós adat anomália-észlelési referenciaérték

5. Megbeszélés és következtetés, hatásnyilatkozatok és hivatkozások


Függelék

A. További információk az aláírással kapcsolatban

B. K-SIF és SIF algoritmusok

C. További numerikus kísérletek

4.1. Paraméterek érzékenységi elemzése

Megvizsgáljuk a K-SIF és SIF viselkedését két fő paraméterük: a k aláírás mélysége és a osztott ablakok száma ω. A mélységre vonatkozó kísérletet a hely kedvéért a Függelék C.1. pontjában elhalasztjuk.


Az aláírás osztott ablakának szerepe. Az osztott ablakok száma lehetővé teszi az információk kinyerését meghatározott időközönként (véletlenszerűen kiválasztott) az alapul szolgáló adatokból. Így minden egyes facsomópontnál a fókusz az adatok egy bizonyos részére kerül, amely összehasonlítás céljából az összes minta görbén azonos. Ez a megközelítés biztosítja, hogy az elemzést az adatok összehasonlítható részein hajtsák végre, szisztematikus módot biztosítva a különböző intervallumok vagy jellemzők vizsgálatára és összehasonlítására a minta görbéi között.


Ennek a paraméternek a szerepét két különböző adatkészlettel vizsgáljuk, amelyek kétféle anomália forgatókönyvet reprodukálnak. Az első az elszigetelt anomáliákat egy kis intervallumban veszi figyelembe, míg a második az összes függvényparaméterezés során perzisztens anomáliákat tartalmaz. Ily módon megfigyeljük a K-SIF és SIF viselkedését a különböző típusú anomáliák tekintetében.


Az első adatkészlet a következőképpen épül fel. 100 állandó függvényt szimulálunk. Ezután véletlenszerűen kiválasztjuk a görbék 90%-át és a Gauss-zajt egy részintervallumon; A görbék fennmaradó 10%-ához Gauss-zajt adunk hozzá egy másik, az elsőtől eltérő részintervallumban. Pontosabban:


• A normálnak tekintett görbék 90%-a a szerint jön létre



ahol ε(t) ∼ N (0, 1), b ∼ U([0, 100]) és U az egyenletes eloszlást jelenti.


• Az abnormálisnak tekintett görbék 10%-a a szerint jön létre



ahol ε(t) ∼ N (0, 1) és b ∼ U([0, 100]).



A µ = 0, σ = 0,5 utak 90%-át véletlenszerűen szimuláljuk, és normál adatnak tekintjük. Ezután a maradék 10%-ot µ = 0,2 sodródással, σ = 0,4 szórással szimuláljuk, és abnormális adatoknak tekintjük. A K-SIF-et különböző számú osztott ablakkal számítjuk ki, 1-től 10-ig, 2-re beállított csonkítási szinttel és N = 1000 fák számával. A kísérletet 100-szor megismételjük, és mindkét adatkészletre és három előre kiválasztott szótárra vonatkozóan közöljük az 1. ábrán látható ROC görbék alatti átlagos AUC-értéket.


Az első adatkészlet esetében, ahol az anomáliák a függvények kis részében nyilvánulnak meg, a felosztások számának növelése jelentősen javítja az algoritmus teljesítményét az anomáliák észlelésében. A teljesítményjavulás kilenc osztott ablak után platót mutat. A tartós anomáliákkal rendelkező második adathalmaz esetében a nagyobb számú osztott ablak marginális hatással van az algoritmus teljesítményére, fenntartva a kielégítő eredményeket. Ezért az adatokkal kapcsolatos előzetes ismeretek nélkül a viszonylag nagy számú, például 10 osztott ablak választása mindkét forgatókönyvben stabil teljesítményt biztosítana. Ezenkívül az osztott ablakok jelentősebb száma lehetővé teszi az aláírás kiszámítását a függvények kisebb részén, ami javítja a számítási hatékonyságot.


1. ábra: AUC a ROC görbe alatt w.r.t. a három szótár első (bal oldali) és második (jobb) adatkészletén lévő felosztott ablakok száma.


Ez a papír a CC BY 4.0 DEED licenc alatt érhető el az arxiv oldalon .