paint-brush
(K-)SIF vượt trội hơn FIF như thế nào trong việc phát hiện dị thường dữ liệu thựctừ tác giả@computational

(K-)SIF vượt trội hơn FIF như thế nào trong việc phát hiện dị thường dữ liệu thực

từ tác giả Computational Technology for All2m2024/11/21
Read on Terminal Reader

dài quá đọc không nổi

(K-)SIF cho thấy lợi thế hiệu suất rõ ràng so với FIF trong việc phát hiện dị thường dữ liệu thực, đặc biệt là với từ điển Brownian. SIF chứng tỏ là phương pháp mạnh mẽ nhất, đạt được kết quả tốt nhất trên năm tập dữ liệu mà không cần dựa vào các tham số nhạy cảm.
featured image - (K-)SIF vượt trội hơn FIF như thế nào trong việc phát hiện dị thường dữ liệu thực
Computational Technology for All HackerNoon profile picture
0-item

Tác giả:

(1) Guillaume Staerman, INRIA, CEA, Đại học. Paris-Saclay, Pháp;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Pháp;

(3) Gareth W. Peters, Khoa Thống kê & Xác suất ứng dụng, Đại học California Santa Barbara, Hoa Kỳ.

Bảng liên kết

Tóm tắt và 1. Giới thiệu

2. Bối cảnh & Chuẩn bị

2.1. Rừng cô lập chức năng

2.2. Phương pháp chữ ký

3. Phương pháp Rừng cô lập chữ ký

4. Thí nghiệm số

4.1. Phân tích độ nhạy của các thông số

4.2. Ưu điểm của (K-)SIF so với FIF

4.3. Điểm chuẩn phát hiện dị thường dữ liệu thực

5. Thảo luận & Kết luận, Báo cáo tác động và Tài liệu tham khảo


Phụ lục

A. Thông tin bổ sung về chữ ký

B. Thuật toán K-SIF và SIF

C. Các thí nghiệm số bổ sung

4.3. Điểm chuẩn phát hiện dị thường dữ liệu thực

Để đánh giá hiệu quả của các thuật toán (K-)SIF được đề xuất và cung cấp sự so sánh với FIF, chúng tôi thực hiện một phân tích so sánh bằng cách sử dụng mười tập dữ liệu phát hiện dị thường được xây dựng trong Staerman et al. (2019) và lấy từ kho lưu trữ UCR (Chen et al., 2015). Ngược lại với Staerman et al. (2019), chúng tôi không sử dụng phần đào tạo/kiểm tra vì các nhãn không được sử dụng cho đào tạo và đào tạo và đánh giá các mô hình chỉ trên dữ liệu đào tạo. Chúng tôi đánh giá hiệu suất của các thuật toán bằng cách định lượng AUC theo các đường cong ROC.



Bảng 1: AUC của các phương pháp phát hiện dị thường khác nhau được tính toán trên bộ thử nghiệm. Các số in đậm tương ứng với kết quả tốt nhất.


Một mặt, Hình 4 minh họa sự chênh lệch hiệu suất giữa FIF và K-SIF khi sử dụng từ điển Brownian. Đáng chú ý, K-SIF thể hiện lợi thế hiệu suất đáng kể so với FIF. Quan sát này nhấn mạnh tính hiệu quả của hạt nhân chữ ký trong việc cải thiện hiệu suất của FIF trên hầu hết các tập dữ liệu, nhấn mạnh những lợi thế khi sử dụng nó so với một tích vô hướng đơn giản. Mặt khác, xét đến sự phức tạp của dữ liệu chức năng, không có phương pháp duy nhất nào được kỳ vọng sẽ vượt trội hơn các phương pháp khác trên toàn cầu.


Tuy nhiên, SIF thể hiện hiệu suất mạnh mẽ trong hầu hết các trường hợp, đạt được kết quả tốt nhất cho năm tập dữ liệu. Trái ngược với FIF và K-SIF, nó cho thấy sự mạnh mẽ đối với nhiều tập dữ liệu trong khi không bị ảnh hưởng đáng kể bởi sự lựa chọn các tham số liên quan đến FIF (từ điển và tích vô hướng) và K-SIF (từ điển).


Bài báo này có sẵn trên arxiv theo giấy phép CC BY 4.0 DEED.