paint-brush
Практический подход к обнаружению новых классов в табличных данныхк@dataology
558 чтения
558 чтения

Практический подход к обнаружению новых классов в табличных данных

Слишком долго; Читать

В этой статье рассматривается обнаружение новых классов (NCD) в табличных данных без предварительного знания новых классов, а также представлены методы, позволяющие избежать переобучения путем настройки гиперпараметров с помощью адаптированного процесса перекрестной проверки в k-кратном порядке. В нем представлена простая глубокая модель НИЗ, а также адаптированные алгоритмы k-средних и спектральной кластеризации, демонстрирующие их эффективность посредством обширных экспериментов на семи наборах табличных данных.
featured image - Практический подход к обнаружению новых классов в табличных данных
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Авторы:

(1) Труазмен Колен, факультет компьютерных наук, IMT Atlantique, Брест, Франция, и Orange Labs, Ланьон, Франция;

(2) Райфферс-Массон Александр, факультет компьютерных наук, IMT Atlantique, Брест, Франция;

(3) Госслен Стефан, Orange Labs, Ланнион, Франция;

(4) Лемэр Винсент, Orange Labs, Ланьон, Франция;

(5) Ватон Сандрин, факультет компьютерных наук, IMT Atlantique, Брест, Франция.

Таблица ссылок

Аннотация и введение

Связанных с работой

Подходы

Оптимизация гиперпараметров

Оценка количества новых классов

Полная процедура обучения

Эксперименты

Заключение

Декларации

Рекомендации

Приложение A: Дополнительные показатели результатов

Приложение B: Гиперпараметры

Приложение C: Численные результаты индексов валидности кластера

Приложение D: Исследование сходимости центроидов k-средних NCD

Абстрактный

Проблема обнаружения новых классов (NCD) состоит в извлечении знаний из помеченного набора известных классов для точного разделения немаркированного набора новых классов. Хотя НИЗ в последнее время привлекают к себе большое внимание сообщества, их часто решают с помощью проблем компьютерного зрения и в нереальных условиях. В частности, обычно предполагается, что количество новых классов известно заранее, а их метки иногда используются для настройки гиперпараметров. Методы, основанные на этих предположениях, неприменимы в реальных сценариях. В этой работе мы концентрируемся на решении проблем НИЗ с помощью табличных данных, когда предварительные знания о новых классах отсутствуют. С этой целью мы предлагаем настроить гиперпараметры методов NCD, адаптировав процесс перекрестной проверки в k-кратном порядке и скрывая некоторые известные классы в каждом из них. Поскольку мы обнаружили, что методы со слишком большим количеством гиперпараметров могут перекрывать эти скрытые классы, мы определяем простую глубокую модель НИЗ. Этот метод состоит только из основных элементов, необходимых для решения проблемы НИЗ, и впечатляюще хорошо работает в реальных условиях. Более того, мы обнаружили, что скрытое пространство этого метода можно использовать для надежной оценки количества новых классов. Кроме того, мы адаптируем два алгоритма неконтролируемой кластеризации (k-средние и спектральная кластеризация), чтобы использовать знания известных классов. Обширные эксперименты проводятся на 7 наборах табличных данных и демонстрируют эффективность предлагаемого метода и процесса настройки гиперпараметров, а также показывают, что проблему НИЗ можно решить, не полагаясь на знания из новых классов.


Ключевые слова : открытие новых классов, кластеризация, табличные данные, обучение в открытом мире, трансферное обучение.

1. Введение

В последнее время значительный прогресс был достигнут в контролируемых задачах, частично с помощью больших и полностью размеченных наборов, таких как ImageNet [1]. Эти достижения в основном сосредоточены на сценариях закрытого мира, где во время обучения предполагается, что все классы известны заранее и имеют некоторые помеченные примеры. Однако в практических приложениях получение помеченных экземпляров для всех интересующих классов может оказаться сложной задачей из-за таких факторов, как бюджетные ограничения или отсутствие исчерпывающей информации. Более того, чтобы модели могли переносить изученные концепции в новые классы, их необходимо проектировать с учетом этого с самого начала, что бывает редко. Тем не менее, это важный навык, который люди могут использовать без особых усилий. Например, научившись различать несколько животных, человек легко сможет распознавать и «группировать» новые виды, которые он никогда раньше не видел. Перенос этих человеческих способностей в область машинного обучения может стать моделью, способной классифицировать новые продукты по новым категориям.


Это наблюдение побудило исследователей сформулировать новую проблему под названием «Обнаружение нового класса» (NCD) [2, 3]. Здесь нам дан помеченный набор известных классов и немаркированный набор разных, но связанных классов, которые необходимо открыть. В последнее время эта задача привлекла большое внимание сообщества благодаря множеству новых методов, таких как AutoNovel [4], OpenMix [5] или NCL [6] и теоретическим исследованиям [7, 8]. Однако большинство этих работ решают проблему НИЗ при нереалистичном предположении, что количество новых классов известно заранее или что целевые метки новых классов доступны для оптимизации гиперпараметров [9]. Эти предположения делают эти методы непрактичными для реальных сценариев НИЗ. Для решения этих проблем мы предлагаем общую основу для оптимизации гиперпараметров методов НИЗ, в которой никогда не используются достоверные метки новых классов, поскольку они недоступны в реальных сценариях НИЗ. Кроме того, мы показываем, что скрытые пространства, полученные такими методами, можно использовать для точной оценки количества новых классов.


Мы также представляем три новых метода борьбы с НИЗ. Два из них представляют собой алгоритмы неконтролируемой кластеризации, модифицированные для использования дополнительной информации, доступной в условиях НИЗ. Первый из них улучшает этап инициализации центроида k-средних, в результате чего получается быстрый и простой в использовании алгоритм, который по-прежнему может давать хорошие результаты во многих сценариях. Второй метод направлен на оптимизацию параметров алгоритма спектральной кластеризации (SC). Этот подход потенциально обладает более высокой способностью к обучению, поскольку само представление (т. е. спектральное встраивание) настроено на легкую кластеризацию новых данных. Наконец, последний подход представляет собой глубокий метод НИЗ, состоящий только из основных компонентов, необходимых для решения проблемы НИЗ. По сравнению с СК этот метод более гибок в определении своего скрытого пространства и эффективно интегрирует знания известных классов.


Хотя эти вклады могут быть применены к любому типу данных, наша работа сосредоточена на табличных данных. Сообщество НИЗ сосредоточило свое внимание почти исключительно на проблемах компьютерного зрения, и, насколько нам известно, только одна статья [9] рассматривала проблему НИЗ в табличном контексте. Однако эта работа потребовала тщательной настройки большого количества гиперпараметров для достижения оптимальных результатов. Методы, разработанные для табличных данных, не могут использовать преимущества мощных методов, обычно используемых в компьютерном зрении. Примеры включают свертки, увеличение данных или методы самоконтролируемого обучения, такие как DINO [10], которые с большим успехом использовались в работах по НИЗ [11–13] благодаря их сильной способности получать репрезентативные скрытые пространства без какого-либо контроля. С другой стороны, методы табличных данных должны полагаться на точно настроенные гиперпараметры для достижения оптимальных результатов. По этой причине мы считаем, что наш вклад принесет наибольшую пользу области табличных данных.


Делая следующие материалы, мы демонстрируем возможность решения проблемы НИЗ с помощью табличных данных и в реалистичных условиях:


• Мы разрабатываем процедуру оптимизации гиперпараметров, предназначенную для переноса результатов из известных классов в новые классы с хорошим обобщением.


• Мы показываем, что можно точно оценить количество новых классов в контексте НИЗ, применяя простые показатели качества кластеризации в скрытом пространстве методов НИЗ.


• Мы модифицируем два классических алгоритма неконтролируемой кластеризации, чтобы эффективно использовать данные, доступные в условиях НИЗ.


• Мы предлагаем простой и надежный метод, называемый PBN (от NCD на основе проекции), который изучает скрытое представление, которое включает в себя важные особенности известных классов, без их переобучения. Код доступен по адресу https://github.com/Orange-OpenSource/PracticalNCD.


Этот документ доступен на arxiv под лицензией CC 4.0.