Mô tả dữ liệu vectơ hỗ trợ (SVDD) là một trong những phương pháp ranh giới phổ biến được sử dụng trong học máy để phát hiện sự bất thường. Mục tiêu của SVDD là tạo ra một mô hình nắm bắt các đặc điểm của dữ liệu bình thường (không dị thường) và sau đó xác định các trường hợp đi chệch khỏi các đặc điểm này là bất thường.
Phát hiện bất thường được sử dụng rộng rãi trong nhiều ứng dụng khác nhau, chẳng hạn như phát hiện gian lận thẻ tín dụng, bảo hiểm hoặc chăm sóc sức khỏe, phát hiện xâm nhập để đảm bảo an ninh mạng, phát hiện lỗi trong các hệ thống quan trọng về an toàn và giám sát quân sự đối với các hoạt động của kẻ thù.
Hãy tưởng tượng bạn có một tập hợp các điểm dữ liệu và hầu hết chúng thể hiện hành vi bình thường. SVDD nhằm mục đích tạo ra một ranh giới xung quanh các điểm dữ liệu thông thường này theo cách mà phần lớn dữ liệu nằm trong ranh giới này. Bất kỳ điểm dữ liệu nào nằm ngoài ranh giới này đều được coi là điểm bất thường hoặc điểm ngoại lệ.
Nói cách khác, chúng tôi đang dạy máy tính nhận biết thế nào là "bình thường" dựa trên một tập hợp các ví dụ và sau đó có thể gắn cờ điều gì đó là "bất thường" nếu nó không phù hợp với mẫu đã học.
Trong bài viết này, chúng tôi đi sâu vào các khái niệm cơ bản của SVDD, khám phá cách sử dụng thông tin đặc quyền trong giai đoạn huấn luyện — một kỹ thuật nhằm nâng cao độ chính xác phân loại trong các tình huống phát hiện bất thường.
Như đã nói ở trên, cách tiếp cận cổ điển để phát hiện sự bất thường là mô tả hành vi dự kiến ("bình thường") bằng cách sử dụng các kỹ thuật phân loại một lớp, nghĩa là xây dựng mô tả về trạng thái "bình thường" bằng nhiều ví dụ, ví dụ: bằng cách mô tả một vị trí hình học các mẫu huấn luyện trong không gian đặc trưng. Nếu một mẫu thử nghiệm mới không thuộc lớp "bình thường", chúng tôi coi đó là bất thường.
Để xây dựng một miền "bình thường", chúng ta có thể sử dụng các phương pháp phổ biến như Mô tả miền vectơ hỗ trợ.
Chúng tôi bắt đầu với phần giải thích ngắn gọn về SVDD gốc mà không sử dụng thông tin đặc quyền. Chúng tôi có mẫu iid (x1, . . ., xl)
Ý tưởng chính của thuật toán này là tách một phần đáng kể các mẫu được coi là "bình thường" khỏi những mẫu được coi là "bất thường" theo một nghĩa nào đó. Chúng tôi biểu thị bằng φ(·) ánh xạ điểm dữ liệu ban đầu tới một số không gian đối tượng biểu cảm hơn, ví dụ: thêm một số đối tượng đa thức, áp dụng một số trích xuất đối tượng với mạng lưới thần kinh sâu hoặc thậm chí giả sử rằng ánh xạ nằm trong một không gian có chiều vô hạn.
Giả sử a là một điểm nào đó trong ảnh của bản đồ đặc trưng và R là một giá trị dương nào đó. Mẫu x thuộc về lớp "bình thường" nếu nó nằm trong hình cầu ∥a − φ(x)∥ ≤ R. Để tìm tâm a
và bán kính R
, chúng ta giải bài toán tối ưu hóa:
Ở đây ξ là khoảng cách từ xi, nằm ngoài hình cầu, đến bề mặt của hình cầu. Nếu một điểm nằm bên trong hình cầu thì chúng ta coi ξi = 0 Biến R chỉ có thể được coi là bán kính nếu chúng ta yêu cầu giá trị dương của nó. Tuy nhiên, có thể dễ dàng chứng minh rằng điều kiện này tự động được đáp ứng nếu ν ∈ (0, 1) và với ν ̸ ∈ (0, 1), nghiệm hoặc chứa tất cả các điểm hoặc không chứa điểm nào trong số chúng.
Như bạn có thể đoán, vì chúng tôi có hỗ trợ về tên thuật toán nên chúng tôi sẽ giải quyết vấn đề kép:
Ở đây chúng ta thay thế tích vô hướng (φ(xi) · φ(xj )) bằng nhân tương ứng K(xi, xj). Chúng ta có thể tính a và R bằng cách sử dụng bất kỳ xi nào sao cho αi > 0
Dựa vào điều này, chúng ta có thể xác định hàm quyết định:
Nếu f(x) > 0 thì mẫu x nằm bên ngoài hình cầu và được coi là dị thường. Ngoài ra, chúng ta có thể nhận thấy rằng giá trị trả về của f(x) và chúng ta có thể điều chỉnh ngưỡng để đạt được mức mục tiêu là giá trị dương thực và âm thực.
Đối với Máy vectơ hỗ trợ hai lớp ban đầu, một thuật toán tạo ranh giới tối ưu giữa các lớp điểm dữ liệu khác nhau,
Hãy để chúng tôi cung cấp một số ví dụ về thông tin đặc quyền. Nếu chúng ta giải quyết được vấn đề phân loại hình ảnh thì với tư cách là thông tin đặc quyền, chúng ta có thể sử dụng mô tả hình ảnh bằng văn bản. Trong trường hợp phát hiện phần mềm độc hại, chúng ta có thể sử dụng mã nguồn của phần mềm độc hại để có thêm các tính năng phân loại.
Những thông tin như vậy không có sẵn trong giai đoạn thử nghiệm (ví dụ: nó có thể bị cấm về mặt tính toán hoặc quá tốn kém để có được) khi chúng tôi sử dụng mô hình đã được đào tạo để phát hiện và phân loại điểm bất thường. Tuy nhiên, nó có thể được sử dụng trong giai đoạn đào tạo.
Giả sử rằng dữ liệu huấn luyện được sắp xếp theo cặp (xi, xi*). Ví dụ, hãy tưởng tượng chúng ta đang cố gắng phát hiện những điểm bất thường trong hình ảnh X-quang. Chúng tôi có cả hình ảnh và mô tả của bác sĩ. Nói chung, một mô tả văn bản là quá đủ nhưng cần có sự hỗ trợ bổ sung. Chúng có thể được sử dụng trong quá trình đào tạo mô hình nhưng chỉ đưa ra dự đoán bằng hình ảnh không? Có thể sử dụng thông tin bổ sung này để cải thiện khả năng phát hiện.
Trong công thức trước, chúng ta có lỗi ở dạng ξi. giả sử rằng dữ liệu đặc quyền tốt đến mức có thể dự đoán được quy mô của lỗi:
Chúng ta có thể nghĩ về điều này như một giáo viên thông minh, người nói trong quá trình đào tạo rằng bạn không thể mắc một lỗi nhỏ nào với giá trị này. Thật hợp lý khi tập trung vào những ví dụ khác có giá trị hơn.
Bây giờ, hãy viết ra phương trình quái vật này:
Ở đây γ là tham số chính quy hóa cho phép tính gần đúng tuyến tính của các biến chùng. ζi là các biến công cụ ngăn chặn các mẫu thuộc nửa mặt phẳng "dương" khỏi bị phạt. Lưu ý rằng nếu γ tiến tới vô cùng thì nghiệm gần với nghiệm gốc của SVDD.
Để tránh những rắc rối xảy ra với hàm Lagrange, hãy viết ra dạng kép của bài toán này:
Ở đây chúng ta thay thế tích vô hướng (φ* (xi* ) · φ*(xj* )) bằng hàm nhân tương ứng K* (xi*, xj*). Cuối cùng, hàm quyết định có dạng tương tự như trong trường hợp SVDD gốc:
Lưu ý rằng mặc dù hơi đáng sợ hơn bài toán ban đầu, nhưng nhiệm vụ này là một loại tối ưu hóa cụ thể được gọi là tối ưu hóa bậc hai và có thể được giải dễ dàng bằng các phương pháp tiêu chuẩn như hàm rào cản logarit.
Cách tiếp cận SVDD ban đầu tập trung vào việc xây dựng ranh giới xung quanh các điểm dữ liệu thông thường trong không gian nhiều chiều. Tuy nhiên, lý thuyết SVDD+ đưa ra khái niệm thông tin đặc quyền trong giai đoạn huấn luyện để nâng cao độ chính xác của phân loại.
Thông tin đặc quyền, không có sẵn trong quá trình thử nghiệm, có thể được sử dụng trong quá trình đào tạo để cung cấp thêm thông tin chi tiết, cải thiện khả năng phát hiện điểm bất thường của mô hình. Việc kết hợp thông tin đặc quyền liên quan đến việc sửa đổi thuật toán SVDD ban đầu, cho phép nó xem xét dữ liệu bổ sung trong quá trình đào tạo, chẳng hạn như mô tả bằng văn bản kèm theo hình ảnh trong phát hiện dị thường y tế.
Việc đưa vào thông tin đặc quyền được coi là một hình thức hướng dẫn thông minh, giống như một giáo viên có hiểu biết cung cấp những hiểu biết sâu sắc có giá trị để cải thiện việc học tập của mô hình. Công thức SVDD+ được sửa đổi bao gồm một nhiệm vụ tối ưu hóa bậc hai, có thể giải được thông qua các phương pháp tiêu chuẩn như hàm rào cản logarit. Bất chấp sự phức tạp do đưa vào thông tin đặc quyền, hàm quyết định trong lý thuyết SVDD+ vẫn duy trì một dạng tương tự như SVDD ban đầu, tạo điều kiện thuận lợi cho việc triển khai thực tế.
Tóm lại, lý thuyết SVDD+ cho thấy một hướng đi đầy hứa hẹn để cải thiện khả năng phát hiện bất thường bằng cách tận dụng thông tin đặc quyền trong giai đoạn đào tạo, cung cấp các ứng dụng tiềm năng trên nhiều lĩnh vực khác nhau, bao gồm phân loại hình ảnh và phát hiện phần mềm độc hại.