Szerzői:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Franciaország;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Franciaország;
(3) Gareth W. Peters, Statisztikai és Alkalmazott Valószínűségi Tanszék, Santa Barbara Kaliforniai Egyetem, USA.
2.1. Funkcionális izolációs erdő
3. Signature Isolation Forest Method
4.1. Paraméterek érzékenységi elemzése
4.2. A (K-)SIF előnyei a FIF-fel szemben
4.3. Valós adat anomália-észlelési referenciaérték
5. Megbeszélés és következtetés, hatásnyilatkozatok és hivatkozások
Függelék
A. További információk az aláírással kapcsolatban
C. További numerikus kísérletek
Megvizsgáljuk a K-SIF és SIF viselkedését két fő paraméterük: a k aláírás mélysége és a osztott ablakok száma ω. A mélységre vonatkozó kísérletet a hely kedvéért a Függelék C.1. pontjában elhalasztjuk.
Az aláírás osztott ablakának szerepe. Az osztott ablakok száma lehetővé teszi az információk kinyerését meghatározott időközönként (véletlenszerűen kiválasztott) az alapul szolgáló adatokból. Így minden egyes facsomópontnál a fókusz az adatok egy bizonyos részére kerül, amely összehasonlítás céljából az összes minta görbén azonos. Ez a megközelítés biztosítja, hogy az elemzést az adatok összehasonlítható részein hajtsák végre, szisztematikus módot biztosítva a különböző intervallumok vagy jellemzők vizsgálatára és összehasonlítására a minta görbéi között.
Ennek a paraméternek a szerepét két különböző adatkészlettel vizsgáljuk, amelyek kétféle anomália forgatókönyvet reprodukálnak. Az első az elszigetelt anomáliákat egy kis intervallumban veszi figyelembe, míg a második az összes függvényparaméterezés során perzisztens anomáliákat tartalmaz. Ily módon megfigyeljük a K-SIF és SIF viselkedését a különböző típusú anomáliák tekintetében.
Az első adatkészlet a következőképpen épül fel. 100 állandó függvényt szimulálunk. Ezután véletlenszerűen kiválasztjuk a görbék 90%-át és a Gauss-zajt egy részintervallumon; A görbék fennmaradó 10%-ához Gauss-zajt adunk hozzá egy másik, az elsőtől eltérő részintervallumban. Pontosabban:
• A normálnak tekintett görbék 90%-a a szerint jön létre
ahol ε(t) ∼ N (0, 1), b ∼ U([0, 100]) és U az egyenletes eloszlást jelenti.
• Az abnormálisnak tekintett görbék 10%-a a szerint jön létre
ahol ε(t) ∼ N (0, 1) és b ∼ U([0, 100]).
A µ = 0, σ = 0,5 utak 90%-át véletlenszerűen szimuláljuk, és normál adatnak tekintjük. Ezután a maradék 10%-ot µ = 0,2 sodródással, σ = 0,4 szórással szimuláljuk, és abnormális adatoknak tekintjük. A K-SIF-et különböző számú osztott ablakkal számítjuk ki, 1-től 10-ig, 2-re beállított csonkítási szinttel és N = 1000 fák számával. A kísérletet 100-szor megismételjük, és mindkét adatkészletre és három előre kiválasztott szótárra vonatkozóan közöljük az 1. ábrán látható ROC görbék alatti átlagos AUC-értéket.
Az első adatkészlet esetében, ahol az anomáliák a függvények kis részében nyilvánulnak meg, a felosztások számának növelése jelentősen javítja az algoritmus teljesítményét az anomáliák észlelésében. A teljesítményjavulás kilenc osztott ablak után platót mutat. A tartós anomáliákkal rendelkező második adathalmaz esetében a nagyobb számú osztott ablak marginális hatással van az algoritmus teljesítményére, fenntartva a kielégítő eredményeket. Ezért az adatokkal kapcsolatos előzetes ismeretek nélkül a viszonylag nagy számú, például 10 osztott ablak választása mindkét forgatókönyvben stabil teljesítményt biztosítana. Ezenkívül az osztott ablakok jelentősebb száma lehetővé teszi az aláírás kiszámítását a függvények kisebb részén, ami javítja a számítási hatékonyságot.
Ez a papír a CC BY 4.0 DEED licenc alatt érhető el az arxiv oldalon .