Описание данных опорных векторов (SVDD) — один из популярных граничных методов, используемых в машинном обучении для обнаружения аномалий. Цель SVDD — создать модель, которая фиксирует характеристики нормальных (неаномальных) данных, а затем идентифицирует экземпляры, которые отклоняются от этих характеристик, как аномалии.
Обнаружение аномалий находит широкое применение в различных приложениях, таких как обнаружение мошенничества с кредитными картами, страхованием или здравоохранением, обнаружение вторжений для кибербезопасности, обнаружение неисправностей в критически важных для безопасности системах и военное наблюдение за действиями противника.
Представьте, что у вас есть набор точек данных, и большинство из них представляют нормальное поведение. SVDD стремится создать границу вокруг этих обычных точек данных таким образом, чтобы большая часть данных попадала внутрь этой границы. Любая точка данных за пределами этой границы считается аномалией или выбросом.
Другими словами, мы учим компьютер распознавать, как выглядит «нормально», на основе набора примеров, а затем иметь возможность пометить что-то как «необычное», если оно не соответствует изученному шаблону.
В этой статье мы глубоко погружаемся в фундаментальные концепции SVDD, изучая использование конфиденциальной информации на этапе обучения — метод, направленный на повышение точности классификации в сценариях обнаружения аномалий.
Как было сказано выше, классический подход к обнаружению аномалий заключается в описании ожидаемого («нормального») поведения с помощью одноклассовых методов классификации, т. е. в построении описания «нормального» состояния на многих примерах, например, путем описания геометрического места. шаблонов обучения в пространстве признаков. Если новый тестовый образец не принадлежит к «нормальному» классу, мы считаем его аномальным.
Чтобы построить «нормальный» домен, мы можем использовать хорошо известные подходы, такие как описание домена опорного вектора.
Начнем с краткого объяснения оригинального SVDD без использования конфиденциальной информации. У нас есть образцы iid (x1,...,xl)
Основная идея этого алгоритма состоит в том, чтобы отделить значительную часть образцов, считающихся «нормальными», от тех, которые в некотором смысле считаются «аномальными». Через φ(·) мы обозначаем отображение исходной точки данных в какое-то более выразительное пространство признаков, например, добавление некоторых полиномиальных признаков, применение некоторого извлечения признаков с помощью глубокой нейронной сети или даже предположение, что отображение находится в каком-то бесконечномерном пространстве.
Пусть a — некоторая точка на изображении карты объектов, а R — некоторое положительное значение. Образец x принадлежит к «нормальному» классу, если он находится внутри сферы ∥a − φ(x)∥ ≤ R. Чтобы найти центр a
и радиус R
, решаем задачу оптимизации:
Здесь ξ — расстояние от точки xi, находящейся вне сферы, до поверхности сферы. Если точка находится внутри сферы, мы считаем ξi = 0. Переменную R можно рассматривать как радиус только в том случае, если мы требуем ее положительности. Однако нетрудно доказать, что это условие автоматически выполняется, если ν ∈ (0, 1), а при ν ̸ ∈ (0, 1) решение либо содержит все точки, либо не содержит ни одной из них.
Как вы, наверное, догадались, поскольку у нас есть поддержка в названии алгоритма, мы будем решать двойственную задачу:
Здесь мы заменяем скалярное произведение (φ(xi) · φ(xj)) соответствующим ядром K(xi, xj). Мы можем вычислить a и R, используя любые xi такие, что αi > 0
На основе этого мы могли бы определить функцию решения:
Если f(x) > 0, то узор x находится вне сферы и считается аномальным. Также мы могли заметить, что f(x) возвращает значение, и могли настроить порог для достижения целевого уровня истинно положительных и истинно отрицательных значений.
Для исходной двухклассовой машины опорных векторов — алгоритма, создающего оптимальную границу между различными классами точек данных.
Приведем несколько примеров конфиденциальной информации. Если мы решаем задачу классификации изображений, то в качестве секретной информации мы можем использовать текстовое описание изображения. В случае обнаружения вредоносного ПО мы можем использовать исходный код вредоносного ПО, чтобы получить дополнительные возможности для классификации.
Такая информация недоступна на этапе тестирования (например, ее получение может оказаться непомерно трудоёмким или слишком дорогостоящим), когда мы используем обученную модель для обнаружения и классификации аномалий. Тем не менее, его можно использовать на этапе обучения.
Предположим, что обучающие данные поступают парами (xi, xi*). Например, представьте, что мы пытаемся обнаружить аномалии на рентгеновских изображениях. У нас есть и само изображение, и описание врача. Обычно текстового описания более чем достаточно, но требуется дополнительная помощь. Можно ли их использовать во время обучения модели, но делать прогнозы только с использованием изображений? Эту дополнительную информацию можно использовать для улучшения обнаружения.
В предыдущей формулировке мы имеем ошибку в виде ξi. давайте предположим, что привилегированные данные настолько хороши, что могут предсказать размер ошибки:
Мы могли бы думать об этом как об умном учителе, который говорит во время обучения, что с этим значением нельзя получить небольшую ошибку. Разумно сконцентрироваться на других, более ценных примерах.
Теперь давайте запишем это чудовищное уравнение:
Здесь γ — параметр регуляризации линейной аппроксимации слабых переменных. ζi - это инструментальные переменные, которые предотвращают наложение штрафов на шаблоны, принадлежащие «положительной» полуплоскости. Обратите внимание: если γ стремится к бесконечности, то решение близко к исходному решению SVDD.
Чтобы избежать сложностей с функцией Лагранжа, запишите двойственную форму этой задачи:
Здесь мы заменяем скалярное произведение (φ* (xi* ) · φ*(xj* )) соответствующей ядерной функцией K* (xi*, xj*). В итоге решающая функция имеет тот же вид, что и в случае исходного SVDD:
Обратите внимание: несмотря на то, что эта задача немного сложнее исходной задачи, она представляет собой особый тип оптимизации, называемый квадратичной оптимизацией, и ее можно легко решить с помощью стандартных подходов, таких как логарифмическая барьерная функция.
Оригинальный подход SVDD фокусируется на построении границы вокруг нормальных точек данных в многомерном пространстве. Однако теория SVDD+ вводит концепцию конфиденциальной информации на этапе обучения для повышения точности классификации.
Привилегированная информация, недоступная во время тестирования, может быть использована во время обучения для получения дополнительной информации, улучшающей способность модели обнаруживать аномалии. Включение конфиденциальной информации предполагает модификацию исходного алгоритма SVDD, что позволяет ему учитывать дополнительные данные во время обучения, такие как текстовые описания, сопровождающие изображения при обнаружении медицинских аномалий.
Включение конфиденциальной информации оформлено как форма интеллектуального руководства, аналогично информированному учителю, предоставляющему ценную информацию для улучшения обучения модели. Модифицированная формулировка SVDD+ включает задачу квадратичной оптимизации, решаемую с помощью стандартных подходов, таких как логарифмическая барьерная функция. Несмотря на сложность, связанную с включением конфиденциальной информации, функция решения в теории SVDD+ сохраняет форму, аналогичную исходной SVDD, что облегчает практическую реализацию.
Подводя итог, можно сказать, что теория SVDD+ демонстрирует многообещающий путь улучшения обнаружения аномалий за счет использования конфиденциальной информации на этапе обучения, предлагая потенциальные приложения в различных областях, включая классификацию изображений и обнаружение вредоносного ПО.