paint-brush
Dodatkowe eksperymenty numeryczne dotyczące K-SIF i SIF: głębokość, szum i moc dyskryminacyjnaprzez@computational

Dodatkowe eksperymenty numeryczne dotyczące K-SIF i SIF: głębokość, szum i moc dyskryminacyjna

Za długo; Czytać

Poznaj dodatkowe eksperymenty dotyczące K-SIF i SIF, w tym rolę głębokości sygnatury, odporności na szumy i wydajności w rozróżnianiu anomalii. Eksperymenty obejmują różne procesy stochastyczne, symulacje zestawów danych i porównania z FIF, prezentując mocne strony algorytmów i aspekty obliczeniowe.
featured image - Dodatkowe eksperymenty numeryczne dotyczące K-SIF i SIF: głębokość, szum i moc dyskryminacyjna
Computational Technology for All HackerNoon profile picture
0-item

Autorski:

(1) Guillaume Staerman, INRIA, CEA, Univ. Paryż-Saclay, Francja;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francja;

(3) Gareth W. Peters, Katedra Statystyki i Rachunku Prawdopodobieństwa Stosowanego, Uniwersytet Kalifornijski w Santa Barbara, USA.

Tabela linków

Streszczenie i 1. Wstęp

2. Tło i wstęp

2.1. Funkcjonalny las izolacyjny

2.2. Metoda podpisu

3. Metoda izolacji lasu sygnatur

4. Eksperymenty numeryczne

4.1. Analiza wrażliwości parametrów

4.2. Zalety (K-)SIF w porównaniu z FIF

4.3. Test wykrywania anomalii w danych rzeczywistych

5. Dyskusja i wnioski, oświadczenia o wpływie i odniesienia


Załącznik

A. Dodatkowe informacje o podpisie

B. Algorytmy K-SIF i SIF

C. Dodatkowe eksperymenty numeryczne

C. Dodatkowe eksperymenty numeryczne

W tej sekcji przedstawiamy dodatkowe eksperymenty numeryczne na poparcie proponowanych algorytmów i argumentów opracowanych w głównej części artykułu. Najpierw opisujemy rolę głębokości sygnatury w algorytmach i wyjaśniamy, jak ten parametr na nie wpływa. Przedstawiamy wykresy pudełkowe dla dwóch zestawów wygenerowanych danych i argumentujemy za znaczeniem parametru głębokości w tym kontekście. Następnie przedstawiamy dodatkowe eksperymenty dotyczące przewagi odporności na szum (K)-SIF nad FIF, związane z sekcją 4.2 głównej części artykułu. Trzeci akapit odnosi się do wygenerowanych danych dla eksperymentu „wydarzeń zamiany” w sekcji 4.2 głównej części artykułu. Przedstawiamy rysunek w celu wizualizacji i lepszego zrozumienia. Ponadto zwracamy uwagę na sposób, w jaki skonstruowaliśmy dane. Czwarta podsekcja następnie demonstruje czas obliczeniowy proponowanych algorytmów z bezpośrednim porównaniem z FIF. Następnie przedstawiono dodatkowy eksperyment przedstawiający dalsze dowody na moc dyskryminacyjną w odniesieniu do zadania AD (K)-SIF nad FIF. Na koniec, w ostatniej podsekcji znajduje się tabela zawierająca informacje o rozmiarze zestawów danych odnoszących się do testu porównawczego z sekcji 4.3.

C.1. Rola głębokości podpisu


W tym eksperymencie badamy wpływ tego parametru na K-SIF z dwiema różnymi klasami procesów stochastycznych. Trójwymiarowy ruch Browna (z µ = 0 i σ = 0,1), charakteryzujący się dwoma pierwszymi momentami, oraz jednowymiarowy proces dyfuzji skoku Mertona, proces ciężkiego ogona szeroko stosowany do modelowania rynku akcji. W takim


Algorytmy



W ten sposób porównujemy pierwszą klasę modeli stochastycznych z drugą, których z kolei nie można scharakteryzować za pomocą dwóch pierwszych momentów, i obserwujemy w tym względzie wydajność (K)-SIF.


Obliczyliśmy K-SIF z trzema słownikami z poziomami obcięcia różniącymi się w {2, 3, 4} dla obu symulowanych zestawów danych. Ustawiliśmy liczbę podzielonych okien na 10, zgodnie z poprzednią sekcją, a liczbę drzew na 1000. Następnie obliczyliśmy korelację Kendalla rangi zwracanej przez te modele dla trzech ustawień parami: poziom 2 vs poziom 3, poziom 2 vs poziom 4 i poziom 3 vs poziom 4.


Powtórzyliśmy ten eksperyment 100 razy i przedstawiamy wykresy skrzynkowe korelacji na rysunku 5 dla ruchu Browna i na rysunku 6 dla procesu dyfuzji skoku Mertona. Należy zauważyć, że wykresy lewy i prawy odnoszą się do różnych parametrów okna podziału wybranych dla K-SIF, odpowiadających ω = 3 dla lewych paneli, podczas gdy dla prawych wybraliśmy ω = 5. Te wykresy skrzynkowe pokazują korelację tau Kendalla między wynikiem zwróconym przez jeden z algorytmów użytych z jedną określoną głębokością i tym samym algorytmem z inną głębokością. Wyniki K-SIF z trzema słownikami są przedstawione na niebiesko, pomarańczowo i zielono odpowiednio dla falek Browna, Cosinusa i zielonej Gaussa. Wykresy skrzynkowe SIF są zamiast tego na fioletowo. Oś Y odnosi się do wartości korelacji Kendalla, a oś X do ustawień wartości głębokości, względem których korelacja została przeprowadzona.


Wysoka korelacja wskazuje na równoważną rangę zwróconą przez algorytm z różnymi parametrami głębokości. Dlatego też, jeśli korelacja jest wysoka, sugeruje to, że ten parametr nie wpływa na wyniki rozważanego algorytmu i należy wybrać niższą głębokość w celu uzyskania lepszej wydajności obliczeniowej. Wysokie korelacje są pokazane zarówno dla SIF (fioletowe wykresy pudełkowe), jak i K-SIF dla dwóch słowników, tj. Browna i Cosinusa (niebieskie i pomarańczowe wykresy pudełkowe). Dlatego zaleca się wybranie minimalnego poziomu obcięcia w celu poprawy wydajności obliczeniowej. W przypadku tych samych algorytmów, nieco niższe korelacje są identyfikowane w przypadku procesów Mertona, ale nadal na poziomie około 0,8, co potwierdza równoważne twierdzenie. W przypadku K-SIF ze słownikiem Gaussa (zielone wykresy pudełkowe) uzyskano znacznie wyższą zmienność w odniesieniu do wyników korelacji w trzech testowanych scenariuszach. Ponadto, w przypadku procesów dyfuzji skoku Mertona, wyniki pokazują niższą korelację, co jest zgodne z innymi wynikami. Dlatego w przypadku algorytmu K-SIF z takim słownikiem głębokość powinna być dobierana ostrożnie, ponieważ różne parametry mogą prowadzić do lepszego wykrywania momentów procesu bazowego.


Rysunek 5: Wyniki analizy ruchu Browna. Korelacja tau Kendalla między wynikiem zwróconym przez SIF (fioletowy) i K-SIF przy różnych wartościach głębokości, ω = 3 (po lewej) i ω = 5 (po prawej), dla trzech słowników: „Browna” (niebieski), „Cosinus” (pomarańczowy) i „falki Gaussa” (zielony) na trójwymiarowych ścieżkach Browna.


Rysunek 6: Wyniki procesu dyfuzji Mertona-Jumpa. Korelacja tau Kendalla między wynikiem zwróconym przez SIF (fioletowy) i K-SIF przy różnych wartościach głębokości dla trzech słowników: „Browna” (niebieski), „Cosinus” (pomarańczowy) i „falki Gaussa” (zielony) przy ω = 3 (po lewej) i ω = 5 (po prawej) w procesach dyfuzji Mertona-Jumpa.

C.2. Odporność na hałas

Ta część zawiera dodatkowe eksperymenty dotyczące przewagi (K)-SIF nad FIF w zakresie odporności na szum, związane z sekcją 4.2 głównej części artykułu. Konfiguracja symulacji danych przebiega następująco. Definiujemy syntetyczny zbiór danych 100 gładkich funkcji podanych przez



gdzie ε(t) ∼ N (0, 0,5). Wybieramy losowo 10% ponownie i tworzymy lekko zaszumione krzywe, dodając mały szum na innym podprzedziale w porównaniu do pierwszego, tj.



gdzie ε(t) ∼ N (0, 0,1).


Rysunek 7 przedstawia wizualizację podsumowującą wygenerowany zestaw danych w pierwszym panelu. 10 anomalii krzywych jest przedstawionych na czerwono, podczas gdy 10 uznanych za lekko zaszumione dane normalne jest przedstawionych na niebiesko. Pozostałe krzywe, uznawane za dane normalne, są przedstawione na szaro. Pomysł polega na zrozumieniu, w jaki sposób wybór słownika wpływa na K-SIF i FIF w wykrywaniu lekko zaszumionych danych normalnych w porównaniu z nienormalnym szumem. Wyniki dla K-SIF i FIF przedstawiono odpowiednio na drugim, trzecim i czwartym panelu rysunku 7.


Obliczamy K-SIF za pomocą słownika Browna, k = 2 i ω = 10 oraz FIF dla α = 0 i α = 1 również za pomocą słownika Browna. Kolory paneli reprezentują wynik anomalii przypisany do każdej krzywej dla danego algorytmu. Na drugim (K-SIF) i ostatnim (FIF z α = 0) panelu wynik anomalii wzrasta od żółtego do ciemnoniebieskiego, tj. ciemna krzywa jest nienormalna, a żółta jest normalna, podczas gdy na trzecim wykresie (FIF z α = 1) jest odwrotnie, tj. ciemna krzywa jest normalna, a żółta jest nienormalna.


Rysunek 7: Odporność na szum. Pierwszy panel przedstawia surowe dane, gdzie jest 120 krzywych, z których na czerwono mamy 10 krzywych dla danych nieprawidłowych lub zaszumionych, na niebiesko 10 krzywych danych lekko zaszumionych, ale normalnych, a na szaro pozostałe krzywe. Konfiguracja symulacji danych jest podana na początku tej sekcji. Drugi, trzeci i czwarty panel pokazują wyniki anomalii przypisane do krzywych na podstawie interesującego algorytmu. Drugi panel odnosi się do K-SIF, uruchomionego ze słownikiem Browna, k = 2 i ω = 10. Trzeci i czwarty panel odnoszą się do FIF uruchomionego ze słownikiem Browna odpowiednio z α = 1 (trzeci) i α = 0 (czwarty). Kolor wyniku anomalii zmienia się z żółtego na ciemnoniebieski na drugim i czwartym wykresie, tj. ciemna krzywa jest nieprawidłowa, a żółta normalna. Na trzecim wykresie, w celach wizualizacyjnych, wykres jest malejący, tj. ciemna krzywa oznacza normalną, a żółta nienormalną.


Można zaobserwować, jak K-SIF może skutecznie identyfikować zaszumione i nieprawidłowe dane jako takie. Rzeczywiście, podczas gdy nieprawidłowe dane są pokolorowane na ciemnoniebiesko, zaszumione wyświetlają żółty wynik koloru. Zamiast tego, w FIF z α = 1 (trzeci panel) zarówno nieprawidłowe, jak i lekko zaszumione krzywe są identyfikowane jako normalne dane (biorąc pod uwagę odwróconą skalę i ciemnoniebieskie kolory). Jeśli chodzi o FIF z α = 0 (ostatni i czwarty panel), zarówno nieprawidłowe, jak i zaszumione dane są punktowane jako nieprawidłowe krzywe. Stąd FIF z obydwoma ustawieniami parametru α nie może zapewnić innego wyniku niż dane zaszumione i lekko zaszumione. K-SIF, zamiast tego, skutecznie wykonuje takie zadanie.

C.3. Zestaw danych zdarzeń zamiany

Ta część przedstawia wizualizację zestawu danych użytego w eksperymencie „wydarzeń zamiany” w sekcji 4.2 głównego dokumentu. Rysunek 8 przedstawia symulowane dane. Należy zauważyć, że definiujemy syntetyczny zestaw danych 100 gładkich funkcji podanych przez



z t ∈ [0, 1] i q równoodległymi w [1, 1.4]. Następnie symulujemy występowanie zdarzeń, dodając szum Gaussa do różnych części funkcji. Losowo wybieramy 90% z nich i dodajemy wartości Gaussa do podprzedziału, tj.



gdzie ε(t) ∼ N (0, 0,8). Pozostałe 10% uznajemy za nienormalne poprzez dodanie tych samych „wydarzeń” w innym podinterwale w porównaniu do pierwszego, tj.



gdzie ε(t) ∼ N (0, 0,8). Następnie skonstruowaliśmy dwa identyczne zdarzenia występujące w różnych częściach funkcji, co prowadzi do izolowania anomalii.


Rysunek 8: Wydarzenia zamiany. Zestaw danych użyty w eksperymencie z sekcji 4.2. Fioletowe krzywe reprezentują normalne dane, a żółte krzywe reprezentują dane nienormalne. Konfiguracja symulacji jest podana na początku sekcji.

C.4. Czas obliczeniowy K-SIF, SIF i FIF


Rysunek 9: Czas obliczeniowy dla K-SIF i FIF w zależności od liczby krzywych (po lewej), liczby punktów dyskretyzacji (w środku) i liczby wymiarów (po prawej).

C.5. K-SIF i SIF: lepsze rozróżnianie anomalii w porównaniu z FIF

W tej części konstruujemy dodatkowy eksperyment zabawkowy, aby pokazać moc dyskryminacyjną (K-)SIF w stosunku do FIF. Symulujemy 100 płaskich ścieżek ruchu Browna z 90% normalnych danych z dryftem µ = [0, 0] i odchyleniem standardowym σ = [0,1, 0,1] i 10% nieprawidłowych danych z dryftem µ = [0, 0] i odchyleniem standardowym σ = [0,4, 0,4].


Rysunek 10 przedstawia jedną symulację tego zestawu danych. Należy zauważyć, że fioletowe ścieżki reprezentują normalne dane, podczas gdy na pomarańczowo reprezentowane są dane nienormalne. W tym zestawie danych obliczamy FIF (z α = 1 i słownikiem Browna), K-SIF (z


Rysunek 10: Zestaw danych użyty do eksperymentu. Fioletowe ścieżki to normalne dane, a pomarańczowe ścieżki to dane nienormalne.


k = 2, ω = 10 i słownik Browna) i SIF (z k = 2 i ω = 10). Aby wyświetlić wyniki zwrócone przez algorytm, przedstawiamy Rysunek 11. Należy zauważyć, że wykresy pokazują wyniki dla tych 100 ścieżek po ich posortowaniu. Stąd oś x przedstawia indeks uporządkowanych wyników, podczas gdy oś y przedstawia wartości wyników. Jeśli chodzi o symulację, na fioletowo przedstawiamy wyniki normalnych danych, a na pomarańczowo wyniki danych anormalnych. Trzy panele odnoszą się odpowiednio do FIF, K-SIF i SIF.


Można zauważyć, że wyniki K-SIF i SIF dobrze oddzielają dane nienormalne i normalne, ze skokiem w wynikach, który jest dość wyraźny, tj. wyniki danych normalnych są stosunkowo odległe od wyników danych nienormalnych. Jeśli zamiast tego skupimy się na FIF, wówczas rozróżnienie takich anomalii wydaje się być trudniejsze; pierwszy panel pokazuje w rzeczywistości ciągłość w odniesieniu do wyniku zwróconego przez algorytm AD, który nie oddziela danych normalnych i nienormalnych.


Podsumowując, proponowane algorytmy wykorzystujące jądro sygnatury (K-SIF) i współrzędną sygnatury (SIF) wykazują bardziej wiarygodne wyniki w tym eksperymentalnym ustawieniu, co sugeruje ich skuteczność w rozróżnianiu anomalii w symulowanym zestawie danych. Wykrywanie kolejności, w jakiej zachodzą zdarzenia, jest o wiele bardziej informatywną cechą niż włączanie aspektu funkcjonalnego do algorytmu wykrywania anomalii. Ten aspekt musi zostać dalej zbadany i zbadany, szczególnie w obszarach zastosowań, w których uwzględniane są dane sekwencyjne, takie jak szeregi czasowe.


Rysunek 11: Wyniki zwrócone przez FIF (po lewej), K-SIF (w środku) i SIF (po prawej) dotyczące płaskiego ruchu Browna z danymi nieprawidłowymi (pomarańczowy).

C.6. Dane porównawcze wykrywania anomalii


C.7. Informacje ogólne na temat funkcji głębokości danych

Narzędzia statystyczne znane jako głębokości danych służą w tym kontekście jako wewnętrzne wyniki podobieństwa. Głębokości danych oferują prostą interpretację geometryczną, porządkując punkty od środka na zewnątrz względem rozkładu prawdopodobieństwa (Tukey, 1975; Zuo i Serfling, 2000). Geometrycznie głębokości danych mierzą głębokość próbki w ramach danego rozkładu. Pomimo przyciągania uwagi społeczności statystycznej, głębokości danych zostały w dużej mierze pominięte przez społeczność uczenia maszynowego. Zaproponowano liczne definicje jako alternatywy dla najwcześniejszej propozycji, głębokości półprzestrzeni wprowadzonej w (Tukey, 1975). Wśród wielu innych należą do nich: głębokość symplicjalna (Liu, 1988), głębokość projekcji (Liu i Singh, 1993), głębokość zonoidowa (Koshevoy i Mosler, 1997), głębokość regresji (Rousseeuw i Hubert, 1999), głębokość przestrzenna (Vardi i Zhang, 2000) lub głębokość AI-IRW (Clemen ´ c¸on i in., 2023), różniące się właściwościami i zastosowaniami. Głębokość danych znajduje wiele zastosowań, takich jak definiowanie solidnych metryk pomiędzy rozkładem prawdopodobieństwa (Staerman i in., 2021b) konkurujących z solidnymi metrykami opartymi na optymalnym transporcie (Staerman i in., 2021a), znajdowanie ataków antagonistycznych w komputerowym widzeniu (Picot i in., 2022; Dadalto i in., 2023) lub wykrywanie halucynacji w transformatorach NLP (Colombo i in., 2023; Darrin i in., 2023; Colombo i in., 2022) i LLM (Himmi i in., 2024).


Artykuł jest dostępny w serwisie arxiv na licencji CC BY 4.0 DEED.