paint-brush
表形式データにおける新規クラスの発見への実践的アプローチ@dataology
558 測定値
558 測定値

表形式データにおける新規クラスの発見への実践的アプローチ

長すぎる; 読むには

この論文では、新規クラスに関する事前知識のない表形式データにおける新規クラス発見 (NCD) について取り上げ、適応型 k 分割クロス検証プロセスを通じてハイパーパラメータを調整することでオーバーフィッティングを回避する方法を紹介します。また、適応型 k 平均法およびスペクトル クラスタリング アルゴリズムとともに、シンプルなディープ NCD モデルを紹介し、7 つの表形式データセットでの広範な実験を通じてその有効性を実証します。
featured image - 表形式データにおける新規クラスの発見への実践的アプローチ
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

著者:

(1) Troisemaine Colin、IMT Atlantiqueコンピュータサイエンス学部、フランス・ブレスト、およびOrange Labs、フランス・ラニオン

(2)Reiffers-Masson Alexandre、IMT Atlantiqueコンピュータサイエンス学部、フランス、ブレスト。

(3)ゴスリン・ステファン、オレンジ・ラボ、ラニオン、フランス

(4)ルメール・ヴァンサン、オレンジ・ラボ、ラニオン、フランス

(5)ヴァトン・サンドリーヌ、IMTアトランティック、コンピュータサイエンス学部、フランス、ブレスト。

リンク一覧

概要と序文

関連作業

アプローチ

ハイパーパラメータの最適化

新規クラスの数の推定

完全なトレーニング手順

実験

結論

宣言

参考文献

付録A: 追加の結果指標

付録 B: ハイパーパラメータ

付録C: クラスター妥当性指標の数値結果

付録 D: NCD k-means 重心収束研究

抽象的な

新クラス発見 (NCD) の問題は、ラベル付きの既知クラスのセットから知識を抽出し、ラベルなしの新クラスセットを正確に分割することです。NCD は最近コミュニティから多くの注目を集めていますが、コンピューター ビジョンの問題で、非現実的な条件下で解決されることがよくあります。特に、新クラスの数は通常、事前にわかっていると想定されており、そのラベルはハイパーパラメータの調整に使用されることがあります。これらの想定に依存する方法は、実際のシナリオには適用できません。この研究では、新クラスに関する事前知識がない場合に、表形式のデータで NCD を解決することに焦点を当てています。この目的のために、k 分割交差検証プロセスを適応させ、各分割で既知のクラスの一部を非表示にすることで、NCD メソッドのハイパーパラメータを調整することを提案します。ハイパーパラメータが多すぎるメソッドは、これらの非表示クラスに過剰適合する可能性が高いことがわかったため、単純なディープ NCD モデルを定義します。このメソッドは、NCD 問題に必要な必須要素のみで構成されており、現実的な条件下で非常に優れたパフォーマンスを発揮します。さらに、この方法の潜在空間を使用して、新しいクラスの数を確実に推定できることがわかっています。さらに、既知のクラスの知識を活用するために、2 つの教師なしクラスタリング アルゴリズム (k-means とスペクトル クラスタリング) を採用しています。7 つの表形式のデータセットで広範な実験が行われ、提案された方法とハイパーパラメータ調整プロセスの有効性が実証され、新しいクラスの知識に依存せずに NCD 問題を解決できることが示されています。


キーワード: 新しいクラスの発見、クラスタリング、表形式データ、オープンワールド学習、転移学習

1 はじめに

最近、教師ありタスクにおいて、ImageNet [1] などの大規模で完全にラベル付けされたセットの助けもあって、目覚ましい進歩が達成されています。これらの進歩は主に、トレーニング中にすべてのクラスが事前にわかっていて、いくつかのラベル付けされた例があると想定される、閉世界のシナリオに焦点を当てています。しかし、実際のアプリケーションでは、予算の制約や包括的な情報の欠如などの要因により、関心のあるすべてのクラスのラベル付けされたインスタンスを取得することが困難な場合があります。さらに、学習した概念を新しいクラスに転送できるようにするには、モデルを最初からこれを念頭に置いて設計する必要がありますが、そうすることはめったにありません。しかし、これは人間が苦労せずに使用できる重要なスキルです。たとえば、いくつかの動物を見分けることを学んだ人は、これまで見たことのない新しい種を簡単に認識し、「クラスター化」できるようになります。この人間の能力を機械学習の分野に転用すると、新しい製品を新しいカテゴリに分類できるモデルになる可能性があります。


この観察から、研究者は、新規クラス発見 (NCD) [2, 3] と呼ばれる新しい問題を定式化しました。ここでは、既知のクラスのラベル付きセットと、発見する必要がある異なるが関連するクラスのラベルなしセットが与えられます。最近、このタスクはコミュニティから多くの注目を集めており、AutoNovel [4]、OpenMix [5]、NCL [6] などの多くの新しい方法や理論的研究 [7, 8] があります。ただし、これらの研究のほとんどは、新規クラスの数が事前にわかっている、または新規クラスのターゲットラベルがハイパーパラメータ最適化に使用できるという非現実的な仮定の下で NCD 問題に取り組んでいます [9]。これらの仮定により、これらの方法は実際の NCD シナリオでは実用的ではありません。これらの課題に対処するために、実際の NCD シナリオでは利用できないため、新規クラスのグランドトゥルースラベルを使用しない NCD 方法のハイパーパラメータを最適化するための一般的なフレームワークを提案します。さらに、このような方法によって取得された潜在空間を使用して、新規クラスの数を正確に推定できることを示します。


また、3 つの新しい NCD 手法も紹介します。そのうち 2 つは、NCD 設定で利用可能な追加情報を活用するように変更された教師なしクラスタリング アルゴリズムです。最初の手法では、k-means の重心初期化ステップが改善され、多くのシナリオで良好な結果が得られる高速で使いやすいアルゴリズムが実現しました。2 番目の手法では、スペクトル クラスタリング (SC) アルゴリズムのパラメーターの最適化に重点を置いています。このアプローチでは、表現自体 (つまり、スペクトル埋め込み) が新しいデータを簡単にクラスタリングするように調整されているため、潜在的に高い学習能力が得られます。最後のアプローチは、NCD 問題に必要な必須コンポーネントのみで構成されたディープ NCD 手法です。SC と比較して、この手法は潜在空間の定義においてより柔軟であり、既知のクラスの知識を効果的に統合します。


これらの貢献はあらゆる種類のデータに適用できますが、私たちの研究は表形式のデータに焦点を当てています。NCD コミュニティは、ほぼもっぱらコンピューター ビジョンの問題に焦点を当てており、私たちの知る限り、表形式のコンテキストで NCD の問題に取り組んだ論文は 1 つだけです [9]。ただし、この研究では、最適な結果を得るために、多数のハイパーパラメータを細かく調整する必要がありました。表形式データ用に設計された方法では、コンピューター ビジョンで一般的に使用されている強力な手法を活用できません。例としては、畳み込み、データ拡張、DINO [10] などの自己教師あり学習法が挙げられます。これらは、教師なしで代表的な潜在空間を取得できる強力な機能により、NCD の研究で大きな成功を収めてきました [11–13]。一方、表形式データの方法では、最適な結果を得るために細かく調整されたハイパーパラメータに頼る必要があります。このため、表形式データの分野が私たちの貢献から最も恩恵を受けると考えています。


以下の貢献を行うことで、表形式のデータと現実的な条件下で NCD 問題を解決する実現可能性を実証します。


• 既知のクラスの結果を良好な一般化で新規クラスに転送するように調整されたハイパーパラメータ最適化手順を開発します。


• NCD 手法の潜在空間に単純なクラスタリング品質メトリックを適用することで、NCD のコンテキストにおける新規クラスの数を正確に推定できることを示します。


• NCD 設定で利用可能なデータを効果的に活用するために、2 つの従来の教師なしクラスタリング アルゴリズムを修正しました。


• 我々は、既知のクラスの重要な特徴を過剰適合することなく組み込んだ潜在表現を学習する、PBN (Projection-Based NCD) と呼ばれるシンプルで堅牢な手法を提案します。コードは https://github.com/Orange-OpenSource/PracticalNCD で入手できます。


この論文はCC 4.0ライセンスの下でarxivで公開されています