Autorski:
(1) Guillaume Staerman, INRIA, CEA, Univ. Paryż-Saclay, Francja;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Francja;
(3) Gareth W. Peters, Katedra Statystyki i Rachunku Prawdopodobieństwa Stosowanego, Uniwersytet Kalifornijski w Santa Barbara, USA.
2.1. Funkcjonalny las izolacyjny
3. Metoda izolacji lasu sygnatur
4.1. Analiza wrażliwości parametrów
4.2. Zalety (K-)SIF w porównaniu z FIF
4.3. Test wykrywania anomalii w danych rzeczywistych
5. Dyskusja i wnioski, oświadczenia o wpływie i odniesienia
Załącznik
A. Dodatkowe informacje o podpisie
C. Dodatkowe eksperymenty numeryczne
W tej sekcji przedstawiamy dodatkowe eksperymenty numeryczne na poparcie proponowanych algorytmów i argumentów opracowanych w głównej części artykułu. Najpierw opisujemy rolę głębokości sygnatury w algorytmach i wyjaśniamy, jak ten parametr na nie wpływa. Przedstawiamy wykresy pudełkowe dla dwóch zestawów wygenerowanych danych i argumentujemy za znaczeniem parametru głębokości w tym kontekście. Następnie przedstawiamy dodatkowe eksperymenty dotyczące przewagi odporności na szum (K)-SIF nad FIF, związane z sekcją 4.2 głównej części artykułu. Trzeci akapit odnosi się do wygenerowanych danych dla eksperymentu „wydarzeń zamiany” w sekcji 4.2 głównej części artykułu. Przedstawiamy rysunek w celu wizualizacji i lepszego zrozumienia. Ponadto zwracamy uwagę na sposób, w jaki skonstruowaliśmy dane. Czwarta podsekcja następnie demonstruje czas obliczeniowy proponowanych algorytmów z bezpośrednim porównaniem z FIF. Następnie przedstawiono dodatkowy eksperyment przedstawiający dalsze dowody na moc dyskryminacyjną w odniesieniu do zadania AD (K)-SIF nad FIF. Na koniec, w ostatniej podsekcji znajduje się tabela zawierająca informacje o rozmiarze zestawów danych odnoszących się do testu porównawczego z sekcji 4.3.
W tym eksperymencie badamy wpływ tego parametru na K-SIF z dwiema różnymi klasami procesów stochastycznych. Trójwymiarowy ruch Browna (z µ = 0 i σ = 0,1), charakteryzujący się dwoma pierwszymi momentami, oraz jednowymiarowy proces dyfuzji skoku Mertona, proces ciężkiego ogona szeroko stosowany do modelowania rynku akcji. W takim
Algorytmy
W ten sposób porównujemy pierwszą klasę modeli stochastycznych z drugą, których z kolei nie można scharakteryzować za pomocą dwóch pierwszych momentów, i obserwujemy w tym względzie wydajność (K)-SIF.
Obliczyliśmy K-SIF z trzema słownikami z poziomami obcięcia różniącymi się w {2, 3, 4} dla obu symulowanych zestawów danych. Ustawiliśmy liczbę podzielonych okien na 10, zgodnie z poprzednią sekcją, a liczbę drzew na 1000. Następnie obliczyliśmy korelację Kendalla rangi zwracanej przez te modele dla trzech ustawień parami: poziom 2 vs poziom 3, poziom 2 vs poziom 4 i poziom 3 vs poziom 4.
Powtórzyliśmy ten eksperyment 100 razy i przedstawiamy wykresy skrzynkowe korelacji na rysunku 5 dla ruchu Browna i na rysunku 6 dla procesu dyfuzji skoku Mertona. Należy zauważyć, że wykresy lewy i prawy odnoszą się do różnych parametrów okna podziału wybranych dla K-SIF, odpowiadających ω = 3 dla lewych paneli, podczas gdy dla prawych wybraliśmy ω = 5. Te wykresy skrzynkowe pokazują korelację tau Kendalla między wynikiem zwróconym przez jeden z algorytmów użytych z jedną określoną głębokością i tym samym algorytmem z inną głębokością. Wyniki K-SIF z trzema słownikami są przedstawione na niebiesko, pomarańczowo i zielono odpowiednio dla falek Browna, Cosinusa i zielonej Gaussa. Wykresy skrzynkowe SIF są zamiast tego na fioletowo. Oś Y odnosi się do wartości korelacji Kendalla, a oś X do ustawień wartości głębokości, względem których korelacja została przeprowadzona.
Wysoka korelacja wskazuje na równoważną rangę zwróconą przez algorytm z różnymi parametrami głębokości. Dlatego też, jeśli korelacja jest wysoka, sugeruje to, że ten parametr nie wpływa na wyniki rozważanego algorytmu i należy wybrać niższą głębokość w celu uzyskania lepszej wydajności obliczeniowej. Wysokie korelacje są pokazane zarówno dla SIF (fioletowe wykresy pudełkowe), jak i K-SIF dla dwóch słowników, tj. Browna i Cosinusa (niebieskie i pomarańczowe wykresy pudełkowe). Dlatego zaleca się wybranie minimalnego poziomu obcięcia w celu poprawy wydajności obliczeniowej. W przypadku tych samych algorytmów, nieco niższe korelacje są identyfikowane w przypadku procesów Mertona, ale nadal na poziomie około 0,8, co potwierdza równoważne twierdzenie. W przypadku K-SIF ze słownikiem Gaussa (zielone wykresy pudełkowe) uzyskano znacznie wyższą zmienność w odniesieniu do wyników korelacji w trzech testowanych scenariuszach. Ponadto, w przypadku procesów dyfuzji skoku Mertona, wyniki pokazują niższą korelację, co jest zgodne z innymi wynikami. Dlatego w przypadku algorytmu K-SIF z takim słownikiem głębokość powinna być dobierana ostrożnie, ponieważ różne parametry mogą prowadzić do lepszego wykrywania momentów procesu bazowego.
Ta część zawiera dodatkowe eksperymenty dotyczące przewagi (K)-SIF nad FIF w zakresie odporności na szum, związane z sekcją 4.2 głównej części artykułu. Konfiguracja symulacji danych przebiega następująco. Definiujemy syntetyczny zbiór danych 100 gładkich funkcji podanych przez
gdzie ε(t) ∼ N (0, 0,5). Wybieramy losowo 10% ponownie i tworzymy lekko zaszumione krzywe, dodając mały szum na innym podprzedziale w porównaniu do pierwszego, tj.
gdzie ε(t) ∼ N (0, 0,1).
Rysunek 7 przedstawia wizualizację podsumowującą wygenerowany zestaw danych w pierwszym panelu. 10 anomalii krzywych jest przedstawionych na czerwono, podczas gdy 10 uznanych za lekko zaszumione dane normalne jest przedstawionych na niebiesko. Pozostałe krzywe, uznawane za dane normalne, są przedstawione na szaro. Pomysł polega na zrozumieniu, w jaki sposób wybór słownika wpływa na K-SIF i FIF w wykrywaniu lekko zaszumionych danych normalnych w porównaniu z nienormalnym szumem. Wyniki dla K-SIF i FIF przedstawiono odpowiednio na drugim, trzecim i czwartym panelu rysunku 7.
Obliczamy K-SIF za pomocą słownika Browna, k = 2 i ω = 10 oraz FIF dla α = 0 i α = 1 również za pomocą słownika Browna. Kolory paneli reprezentują wynik anomalii przypisany do każdej krzywej dla danego algorytmu. Na drugim (K-SIF) i ostatnim (FIF z α = 0) panelu wynik anomalii wzrasta od żółtego do ciemnoniebieskiego, tj. ciemna krzywa jest nienormalna, a żółta jest normalna, podczas gdy na trzecim wykresie (FIF z α = 1) jest odwrotnie, tj. ciemna krzywa jest normalna, a żółta jest nienormalna.
Można zaobserwować, jak K-SIF może skutecznie identyfikować zaszumione i nieprawidłowe dane jako takie. Rzeczywiście, podczas gdy nieprawidłowe dane są pokolorowane na ciemnoniebiesko, zaszumione wyświetlają żółty wynik koloru. Zamiast tego, w FIF z α = 1 (trzeci panel) zarówno nieprawidłowe, jak i lekko zaszumione krzywe są identyfikowane jako normalne dane (biorąc pod uwagę odwróconą skalę i ciemnoniebieskie kolory). Jeśli chodzi o FIF z α = 0 (ostatni i czwarty panel), zarówno nieprawidłowe, jak i zaszumione dane są punktowane jako nieprawidłowe krzywe. Stąd FIF z obydwoma ustawieniami parametru α nie może zapewnić innego wyniku niż dane zaszumione i lekko zaszumione. K-SIF, zamiast tego, skutecznie wykonuje takie zadanie.
Ta część przedstawia wizualizację zestawu danych użytego w eksperymencie „wydarzeń zamiany” w sekcji 4.2 głównego dokumentu. Rysunek 8 przedstawia symulowane dane. Należy zauważyć, że definiujemy syntetyczny zestaw danych 100 gładkich funkcji podanych przez
z t ∈ [0, 1] i q równoodległymi w [1, 1.4]. Następnie symulujemy występowanie zdarzeń, dodając szum Gaussa do różnych części funkcji. Losowo wybieramy 90% z nich i dodajemy wartości Gaussa do podprzedziału, tj.
gdzie ε(t) ∼ N (0, 0,8). Pozostałe 10% uznajemy za nienormalne poprzez dodanie tych samych „wydarzeń” w innym podinterwale w porównaniu do pierwszego, tj.
gdzie ε(t) ∼ N (0, 0,8). Następnie skonstruowaliśmy dwa identyczne zdarzenia występujące w różnych częściach funkcji, co prowadzi do izolowania anomalii.
W tej części konstruujemy dodatkowy eksperyment zabawkowy, aby pokazać moc dyskryminacyjną (K-)SIF w stosunku do FIF. Symulujemy 100 płaskich ścieżek ruchu Browna z 90% normalnych danych z dryftem µ = [0, 0] i odchyleniem standardowym σ = [0,1, 0,1] i 10% nieprawidłowych danych z dryftem µ = [0, 0] i odchyleniem standardowym σ = [0,4, 0,4].
Rysunek 10 przedstawia jedną symulację tego zestawu danych. Należy zauważyć, że fioletowe ścieżki reprezentują normalne dane, podczas gdy na pomarańczowo reprezentowane są dane nienormalne. W tym zestawie danych obliczamy FIF (z α = 1 i słownikiem Browna), K-SIF (z
k = 2, ω = 10 i słownik Browna) i SIF (z k = 2 i ω = 10). Aby wyświetlić wyniki zwrócone przez algorytm, przedstawiamy Rysunek 11. Należy zauważyć, że wykresy pokazują wyniki dla tych 100 ścieżek po ich posortowaniu. Stąd oś x przedstawia indeks uporządkowanych wyników, podczas gdy oś y przedstawia wartości wyników. Jeśli chodzi o symulację, na fioletowo przedstawiamy wyniki normalnych danych, a na pomarańczowo wyniki danych anormalnych. Trzy panele odnoszą się odpowiednio do FIF, K-SIF i SIF.
Można zauważyć, że wyniki K-SIF i SIF dobrze oddzielają dane nienormalne i normalne, ze skokiem w wynikach, który jest dość wyraźny, tj. wyniki danych normalnych są stosunkowo odległe od wyników danych nienormalnych. Jeśli zamiast tego skupimy się na FIF, wówczas rozróżnienie takich anomalii wydaje się być trudniejsze; pierwszy panel pokazuje w rzeczywistości ciągłość w odniesieniu do wyniku zwróconego przez algorytm AD, który nie oddziela danych normalnych i nienormalnych.
Podsumowując, proponowane algorytmy wykorzystujące jądro sygnatury (K-SIF) i współrzędną sygnatury (SIF) wykazują bardziej wiarygodne wyniki w tym eksperymentalnym ustawieniu, co sugeruje ich skuteczność w rozróżnianiu anomalii w symulowanym zestawie danych. Wykrywanie kolejności, w jakiej zachodzą zdarzenia, jest o wiele bardziej informatywną cechą niż włączanie aspektu funkcjonalnego do algorytmu wykrywania anomalii. Ten aspekt musi zostać dalej zbadany i zbadany, szczególnie w obszarach zastosowań, w których uwzględniane są dane sekwencyjne, takie jak szeregi czasowe.
Narzędzia statystyczne znane jako głębokości danych służą w tym kontekście jako wewnętrzne wyniki podobieństwa. Głębokości danych oferują prostą interpretację geometryczną, porządkując punkty od środka na zewnątrz względem rozkładu prawdopodobieństwa (Tukey, 1975; Zuo i Serfling, 2000). Geometrycznie głębokości danych mierzą głębokość próbki w ramach danego rozkładu. Pomimo przyciągania uwagi społeczności statystycznej, głębokości danych zostały w dużej mierze pominięte przez społeczność uczenia maszynowego. Zaproponowano liczne definicje jako alternatywy dla najwcześniejszej propozycji, głębokości półprzestrzeni wprowadzonej w (Tukey, 1975). Wśród wielu innych należą do nich: głębokość symplicjalna (Liu, 1988), głębokość projekcji (Liu i Singh, 1993), głębokość zonoidowa (Koshevoy i Mosler, 1997), głębokość regresji (Rousseeuw i Hubert, 1999), głębokość przestrzenna (Vardi i Zhang, 2000) lub głębokość AI-IRW (Clemen ´ c¸on i in., 2023), różniące się właściwościami i zastosowaniami. Głębokość danych znajduje wiele zastosowań, takich jak definiowanie solidnych metryk pomiędzy rozkładem prawdopodobieństwa (Staerman i in., 2021b) konkurujących z solidnymi metrykami opartymi na optymalnym transporcie (Staerman i in., 2021a), znajdowanie ataków antagonistycznych w komputerowym widzeniu (Picot i in., 2022; Dadalto i in., 2023) lub wykrywanie halucynacji w transformatorach NLP (Colombo i in., 2023; Darrin i in., 2023; Colombo i in., 2022) i LLM (Himmi i in., 2024).
Artykuł jest dostępny w serwisie arxiv na licencji CC BY 4.0 DEED.