paint-brush
Додаткові чисельні експерименти з K-SIF і SIF: глибина, шум і потужність дискримінаціїза@computational

Додаткові чисельні експерименти з K-SIF і SIF: глибина, шум і потужність дискримінації

Надто довго; Читати

Ознайомтеся з додатковими експериментами щодо K-SIF і SIF, зокрема про роль глибини сигнатури, шумостійкості та продуктивності у розрізненні аномалій. Експерименти охоплюють різні стохастичні процеси, моделювання набору даних і порівняння з FIF, демонструючи сильні сторони алгоритмів і обчислювальні аспекти.
featured image - Додаткові чисельні експерименти з K-SIF і SIF: глибина, шум і потужність дискримінації
Computational Technology for All HackerNoon profile picture
0-item

Автори:

(1) Гійом Штаерман, INRIA, CEA, Univ. Париж-Сакле, Франція;

(2) Марта Кампі, CERIAH, Institut de l'Audition, Інститут Пастера, Франція;

(3) Гарет В. Пітерс, Департамент статистики та прикладної ймовірності, Каліфорнійський університет Санта-Барбара, США.

Таблиця посилань

Анотація та 1. Вступ

2. Передумови та попередні відомості

2.1. Ліс функціональної ізоляції

2.2. Метод підпису

3. Метод лісу ізоляції підписів

4. Числові експерименти

4.1. Аналіз чутливості параметрів

4.2. Переваги (K-)SIF над FIF

4.3. Тест виявлення аномалій у реальних даних

5. Обговорення та висновок, заяви про вплив та посилання


Додаток

A. Додаткова інформація про підпис

B. K-SIF і алгоритми SIF

C. Додаткові чисельні експерименти

C. Додаткові чисельні експерименти

У цьому розділі ми представляємо додаткові чисельні експерименти на підтримку запропонованих алгоритмів і аргументів, наведених в основній частині статті. Спочатку ми описуємо роль глибини підпису в алгоритмах і пояснюємо, як цей параметр впливає на них. Ми надаємо коробкові діаграми для двох наборів згенерованих даних і аргументуємо важливість параметра глибини в цьому контексті. Після цього ми надаємо додаткові експерименти щодо переваг (K)-SIF порівняно з FIF щодо стійкості до шуму, пов’язані з розділом 4.2 основної частини статті. У третьому абзаці йдеться про згенеровані дані для експерименту «події обміну» в розділі 4.2 основної частини статті. Ми надаємо малюнок для візуалізації та кращого розуміння. Далі ми зауважимо, як ми побудували дані. Потім у четвертому підрозділі демонструється час обчислення запропонованих алгоритмів із прямим порівнянням із FIF. Потім представлено додатковий експеримент, який представляє додаткові докази дискримінаційної здатності щодо завдання AD (K)-SIF над FIF. Нарешті, в останньому підрозділі показано таблицю, яка описує інформацію про розмір наборів даних, пов’язаних із еталонним тестом у розділі 4.3.

C.1. Роль глибини підпису


У цьому експерименті ми досліджуємо вплив цього параметра на K-SIF з двома різними класами стохастичних процесів. Тривимірний броунівський рух (з µ = 0 і σ = 0,1), що характеризується двома першими моментами, і одновимірний процес дифузії Мертона-стрибка, процес із важким хвостом, який широко використовується для моделювання фондового ринку. У такому


Алгоритми



Таким чином, ми порівнюємо попередній клас стохастичних моделей з останніми, які, натомість, не можуть бути охарактеризовані першими двома моментами та спостерігаємо продуктивність (K)-SIF у цьому відношенні.


Ми обчислили K-SIF з трьома словниками з рівнями скорочення, що змінюються в {2, 3, 4} для обох змодельованих наборів даних. Ми встановили кількість розділених вікон на 10, відповідно до попереднього розділу, і кількість дерев на 1000. Після цього ми обчислили кореляцію Кендалла рангу, отриманого цими моделями, для трьох парних налаштувань: рівень 2 проти рівня 3 , рівень 2 проти рівня 4 і рівень 3 проти рівня 4.


Ми повторили цей експеримент 100 разів і представили коробкові діаграми кореляції на малюнку 5 для броунівського руху та на малюнку 6 для процесу дифузії Мертона-стрибка. Зауважте, що ліві та праві графіки стосуються різних параметрів розділеного вікна, вибраних для K-SIF, що відповідає ω = 3 для лівих панелей, тоді як для правих ми вибрали ω = 5. Ці коробкові графіки показують кореляцію Kendall tau між оцінкою, повернутою одним із алгоритмів, що використовуються з однією конкретною глибиною, і тим самим алгоритмом з іншою глибиною. Результати K-SIF із трьома словниками представлені синім, помаранчевим і зеленим кольором для вейвлетів Броуна, косинуса та зеленого Гауса відповідно. Натомість коробкові діаграми SIF виділені фіолетовим кольором. Вісь ординат стосується значень кореляції Кендалла, а вісь х — налаштувань значень глибини, щодо яких була кореляція.


Висока кореляція вказує на еквівалентний ранг, повернутий алгоритмом з різними параметрами глибини. Отже, якщо кореляція висока, це говорить про те, що цей параметр не впливає на результати розглянутого алгоритму, і для кращої ефективності обчислень слід вибрати меншу глибину. Високі кореляції показані як для SIF (фіолетові прямокутні діаграми), так і для K-SIF для двох словників, тобто броунівського та косинусного (сині та оранжеві прямокутні діаграми). Тому для підвищення ефективності обчислень рекомендується вибрати мінімальний рівень скорочення. Для тих самих алгоритмів у випадку процесів Мертона виявлено дещо нижчу кореляцію, але все ще близько рівня 0,8, що підтверджує еквівалентне твердження. У випадку K-SIF зі словником Гаусса (зелені прямокутні діаграми) отримано набагато вищу варіацію щодо результатів кореляції між трьома протестованими сценаріями. Крім того, у випадку процесів дифузії Мертона-стрибка результати демонструють нижчу кореляцію, що узгоджується з іншими результатами. Таким чином, у випадку K-SIF з таким словником глибину слід вибирати ретельно, оскільки різні параметри можуть призвести до кращого виявлення моментів основного процесу.


Рисунок 5: Результати процесу броунівського руху. Кореляція Kendall tau між оцінкою, яку повертає SIF (фіолетовий) і K-SIF з різними значеннями глибини, ω = 3 (ліворуч) і ω = 5 (праворуч), для трьох словників: «Броунівський» (синій), «Косинусний» (помаранчевий) і «гаусівські хвилі» (зелений) на тривимірних броунівських шляхах.


Рисунок 6: Результати процесу дифузії Мертона-Джампа. Кореляція Kendall tau між оцінкою, яку повертає SIF (фіолетовий) і K-SIF з різними значеннями глибини для трьох словників: «Броунівський» (синій), «Косинус» (помаранчевий) і «Вейвлети Гауса» (зелений) з ω = 3 (ліворуч) і ω = 5 (праворуч) на процеси дифузії Мертона-стрибка.

C.2. Стійкість до шуму

У цій частині наведено додаткові експерименти щодо переваг (K)-SIF порівняно з FIF щодо стійкості до шуму, що стосується розділу 4.2 основної частини статті. Конфігурація для моделювання даних виглядає наступним чином. Ми визначаємо синтетичний набір даних зі 100 згладжених функцій, заданих за допомогою



де ε(t) ∼ N (0, 0,5). Ми знову вибираємо випадковим чином 10% і створюємо трохи зашумлені криві, додаючи невеликий шум на іншому підінтервалі порівняно з першим, тобто



де ε(t) ∼ N (0, 0,1).


На рисунку 7 наведено зведену візуалізацію згенерованого набору даних на першій панелі. 10 аномальних кривих нанесено червоним кольором, тоді як 10 нормальних даних, які вважаються трохи зашумленими, нанесені синім кольором. Решта кривих, які вважаються нормальними даними, представлені сірим кольором. Ідея полягає в тому, щоб зрозуміти, як вибір словника впливає на K-SIF і FIF при виявленні звичайних даних з незначним шумом у порівнянні з аномальним шумом. Результати для K-SIF і FIF наведені на другій, третій і четвертій панелях рисунка 7 відповідно.


Ми обчислюємо K-SIF за допомогою броунівського словника, k = 2 і ω = 10 і FIF для α = 0 і α = 1 також за допомогою броунівського словника. Кольори панелей представляють оцінку аномалії, призначену кожній кривій для цього конкретного алгоритму. На другій (K-SIF) і останній (FIF з α = 0) панелях показник аномалії збільшується від жовтого до темно-синього, тобто темна крива є аномальною, а жовта – нормальною, тоді як на третьому графіку (FIF з α = 1) це навпаки, тобто темна крива є нормальною, а жовта – ненормальною.


Рисунок 7: Стійкість до шуму. На першій панелі представлено необроблені дані, де є 120 кривих, з яких червоним кольором ми маємо 10 кривих для аномальних або шумних даних, синім 10 кривих трохи шумних, але нормальних даних, а сірим кольором решта кривих. Конфігурацію для моделювання даних наведено на початку цього розділу. Друга, третя та четверта панелі показують бали аномалії, призначені кривим на основі цікавого алгоритму. Друга панель стосується K-SIF, виконаного з броунівським словником, k = 2 і ω = 10. Третя і четверта панелі стосуються виконання FIF із броунівським словником з α = 1 (третій) і α = 0 (четвертий). , відповідно. Колір оцінки аномалії збільшується від жовтого до темно-синього на другому та четвертому графіках, тобто темна крива є аномальною, а жовта – нормальною. На третьому графіку, з метою візуалізації, він зменшується, тобто темна крива є нормальною, а жовта – ненормальною.


Можна спостерігати, як K-SIF успішно може ідентифікувати зашумлені та аномальні дані як такі. Дійсно, у той час як аномальні дані забарвлені в темно-синій колір, зашумлені відображають жовтий колір. Натомість у FIF з α = 1 (третя панель) як аномальні, так і трохи зашумлені криві ідентифікуються як нормальні дані (враховуючи обернений масштаб і темно-сині кольори). Коли справа доходить до FIF з α = 0 (остання та четверта панелі), як ненормальні, так і шумові дані оцінюються як аномальні криві. Отже, FIF з обома налаштуваннями параметра α не може надати різні оцінки для даних із шумом і трохи шумом. K-SIF, натомість, успішно виконує таке завдання.

C.3. Обмін даними подій

У цій частині представлено візуалізацію набору даних, використаного в експерименті «події обміну» в розділі 4.2 основної статті. На малюнку 8 показано змодельовані дані. Зауважте, що ми визначаємо синтетичний набір даних зі 100 гладких функцій, заданих за допомогою



з t ∈ [0, 1] і рівновіддаленим q в [1, 1.4]. Потім ми моделюємо виникнення подій, додаючи гаусівський шум до різних частин функцій. Ми випадково вибираємо 90% з них і додаємо значення Гауса на підінтервалі, тобто



де ε(t) ∼ N (0, 0,8). Ми вважаємо 10%, що залишилися, ненормальними, додаючи ті самі «події» на іншому підінтервалі порівняно з першим, тобто



де ε(t) ∼ N (0, 0,8). Потім ми побудували дві ідентичні події, що відбуваються в різних частинах функцій, що призводить до окремих аномалій.


Рисунок 8: Події обміну. Набір даних, використаний в експерименті Розділу 4.2. Фіолетові криві представляють нормальні дані, а жовті криві – відхилення від норми. Конфігурація симуляції наведена на початку розділу.

C.4. Час обчислення K-SIF, SIF і FIF


Рисунок 9: Час обчислення для K-SIF і FIF щодо кількості кривих (ліворуч), кількості точок дискретизації (посередині) і кількості вимірів (праворуч).

C.5. K-SIF і SIF: краща дискримінація аномалій порівняно з FIF

У цій частині ми будуємо додатковий іграшковий експеримент, щоб показати здатність розрізнення (K-)SIF над FIF. Ми моделюємо 100 траєкторій планарного броунівського руху з 90% нормальних даних із дрейфом µ = [0, 0] і стандартним відхиленням σ = [0,1, 0,1] та 10% аномальних даних із дрейфом µ = [0, 0] і стандартним відхилення σ = [0,4, 0,4].


На рисунку 10 представлено одне моделювання цього набору даних. Зауважте, що фіолетові шляхи представляють нормальні дані, тоді як помаранчеві натомість представлені аномальні. На цьому наборі даних ми обчислюємо FIF (з α = 1 і броунівським словником), K-SIF (з


Рисунок 10: Набір даних, використаний для експерименту. Фіолетові шляхи є нормальними даними, а помаранчеві – ненормальними.


k = 2, ω = 10 і броунівський словник) і SIF (з k = 2 і ω = 10). Щоб відобразити оцінки, які повертає алгоритм, ми надаємо рисунок 11. Зауважте, що на графіках показано оцінки для цих 100 шляхів після їх сортування. Таким чином, вісь x забезпечує індекс упорядкованих балів, тоді як вісь y представляє значення балів. Що стосується симуляції, ми наносимо фіолетовим кольором бали нормальних даних і помаранчевим бали аномальних даних. Три панелі стосуються FIF, K-SIF і SIF відповідно.


Можна спостерігати, що оцінки K-SIF і SIF добре відокремлюють аномальні та нормальні дані, зі стрибком у балах, який є досить вираженим, тобто бали нормальних даних відносно віддалені від балів аномальних. даних. Якщо натомість зосередитися на FIF, то розрізнення таких аномалій видається більш складним; перша панель фактично показує безперервне значення оцінки, яку повертає алгоритм AD, який не розділяє нормальні та аномальні дані.


Таким чином, запропоновані алгоритми, які використовують ядро підпису (K-SIF) і координати підпису (SIF), демонструють більш надійні результати в цьому експериментальному положенні, що свідчить про їхню ефективність у розпізнаванні аномалій у змодельованому наборі даних. Виявлення порядку, в якому відбуваються події, є набагато більш інформативною функцією, ніж включення функціонального аспекту в алгоритм виявлення аномалій. Цей аспект необхідно додатково досліджувати та досліджувати, особливо в областях застосування, де враховуються послідовні дані, такі як часові ряди.


Рисунок 11: Оцінки, отримані за допомогою FIF (ліворуч), K-SIF (посередині) і SIF (праворуч) щодо плоского броунівського руху з аномальними даними (помаранчевий).

C.6. Порівняльні дані виявлення аномалій


C.7. Довідкова інформація про функцію глибини даних

У цьому контексті статистичні інструменти, відомі як глибини даних, служать оцінками внутрішньої подібності. Глибина даних пропонує пряму геометричну інтерпретацію, впорядковуючи точки від центру назовні відповідно до розподілу ймовірностей (Tukey, 1975; Zuo and Serfling, 2000). Геометрично глибина даних вимірює глибину вибірки в межах заданого розподілу. Незважаючи на те, що статистичне співтовариство привернуло увагу, спільнота машинного навчання не звертала уваги на глибину даних. Численні визначення були запропоновані як альтернатива найдавнішій пропозиції, глибині півпростору, введеній у (Тукеція, 1975). Серед багатьох інших вони включають: симпліціальну глибину (Liu, 1988), глибину проекції (Liu та Singh, 1993), глибину зоноїду (Koshevoy та Mosler, 1997), глибину регресії (Russeeuw та Hubert, 1999), просторову глибини (Vardi and Zhang, 2000) або глибини AI-IRW (Clemen ´ c¸on et al., 2023), що відрізняються своїми властивостями та застосуванням. Глибина даних знаходить багато застосувань, як-от визначення надійних показників між розподілом ймовірностей (Staerman та ін., 2021b) і конкуруючих з надійними оптимальними метриками на основі транспорту (Staerman та ін., 2021a), пошук змагальних атак у комп’ютерному зорі (Picot та ін., 2022). ; Дадалто та ін., 2023) або виявлення галюцинацій у трансформаторах НЛП (Коломбо). et al., 2023; Darrin et al., 2023; Colombo et al., 2022) і LLM (Himmi et al., 2024).


Цей документ доступний на arxiv під ліцензією CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Computational Technology for All HackerNoon profile picture
Computational Technology for All@computational
Computational: We take random inputs, follow complex steps, and hope the output makes sense. And then blog about it.

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...