Tác giả:
(1) Guillaume Staerman, INRIA, CEA, Đại học. Paris-Saclay, Pháp;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Pháp;
(3) Gareth W. Peters, Khoa Thống kê & Xác suất ứng dụng, Đại học California Santa Barbara, Hoa Kỳ.
3. Phương pháp Rừng cô lập chữ ký
4.1. Phân tích độ nhạy của các thông số
4.2. Ưu điểm của (K-)SIF so với FIF
4.3. Điểm chuẩn phát hiện dị thường dữ liệu thực
5. Thảo luận & Kết luận, Báo cáo tác động và Tài liệu tham khảo
Phụ lục
A. Thông tin bổ sung về chữ ký
Để đánh giá hiệu quả của các thuật toán (K-)SIF được đề xuất và cung cấp sự so sánh với FIF, chúng tôi thực hiện một phân tích so sánh bằng cách sử dụng mười tập dữ liệu phát hiện dị thường được xây dựng trong Staerman et al. (2019) và lấy từ kho lưu trữ UCR (Chen et al., 2015). Ngược lại với Staerman et al. (2019), chúng tôi không sử dụng phần đào tạo/kiểm tra vì các nhãn không được sử dụng cho đào tạo và đào tạo và đánh giá các mô hình chỉ trên dữ liệu đào tạo. Chúng tôi đánh giá hiệu suất của các thuật toán bằng cách định lượng AUC theo các đường cong ROC.
Một mặt, Hình 4 minh họa sự chênh lệch hiệu suất giữa FIF và K-SIF khi sử dụng từ điển Brownian. Đáng chú ý, K-SIF thể hiện lợi thế hiệu suất đáng kể so với FIF. Quan sát này nhấn mạnh tính hiệu quả của hạt nhân chữ ký trong việc cải thiện hiệu suất của FIF trên hầu hết các tập dữ liệu, nhấn mạnh những lợi thế khi sử dụng nó so với một tích vô hướng đơn giản. Mặt khác, xét đến sự phức tạp của dữ liệu chức năng, không có phương pháp duy nhất nào được kỳ vọng sẽ vượt trội hơn các phương pháp khác trên toàn cầu.
Tuy nhiên, SIF thể hiện hiệu suất mạnh mẽ trong hầu hết các trường hợp, đạt được kết quả tốt nhất cho năm tập dữ liệu. Trái ngược với FIF và K-SIF, nó cho thấy sự mạnh mẽ đối với nhiều tập dữ liệu trong khi không bị ảnh hưởng đáng kể bởi sự lựa chọn các tham số liên quan đến FIF (từ điển và tích vô hướng) và K-SIF (từ điển).
Bài báo này có sẵn trên arxiv theo giấy phép CC BY 4.0 DEED.