paint-brush
署名分離フォレストにおける分割ウィンドウの感度のデコード@computational
新しい歴史

署名分離フォレストにおける分割ウィンドウの感度のデコード

長すぎる; 読むには

シグネチャ分離フォレストの感度分析により、異常検出における分割ウィンドウの重要性が明らかになりました。分割を増やすと、孤立した異常の精度が向上し、永続的な異常の効率が維持されます。
featured image - 署名分離フォレストにおける分割ウィンドウの感度のデコード
Computational Technology for All HackerNoon profile picture
0-item

著者:

(1) Guillaume Staerman、INRIA、CEA、大学パリ・サクレー、フランス。

(2) Marta Campi、CERIAH、Institut de l'Audition、Institut Pasteur、フランス。

(3)ガレス・W・ピーターズ、米国カリフォルニア大学サンタバーバラ校統計・応用確率学部

リンク一覧

要約と1. はじめに

2. 背景と準備

2.1. 機能分離フォレスト

2.2. 署名方式

3. 署名分離フォレスト方式

4. 数値実験

4.1. パラメータ感度分析

4.2. FIFに対する(K-)SIFの利点

4.3. 実データ異常検出ベンチマーク

5. 議論と結論、影響に関する声明、参考文献


付録

A. 署名に関する追加情報

B. K-SIF および SIF アルゴリズム

C. 追加の数値実験

4.1. パラメータ感度分析

K-SIF と SIF の 2 つの主なパラメータ、つまりシグネチャの深さ k と分割ウィンドウの数 ω に関して、その動作を調査します。スペースの都合上、深さに関する実験は付録のセクション C.1 に延期されます。


シグネチャ分割ウィンドウの役割。分割ウィンドウの数によって、基になるデータの特定の間隔 (ランダムに選択) に関する情報を抽出できます。したがって、各ツリー ノードでは、比較のためにすべてのサンプル曲線で同じであるデータの特定の部分に焦点が当てられます。このアプローチにより、データの比較可能なセクションで分析が実行され、サンプル曲線全体のさまざまな間隔または機能を体系的に調査および比較できるようになります。


このパラメータの役割を、2 種類の異常シナリオを再現する 2 つの異なるデータセットで調査します。1 つ目は、小さな間隔で孤立した異常を考慮したもので、2 つ目は、関数パラメータ化全体にわたって持続する異常を含みます。このようにして、異なる種類の異常に対する K-SIF と SIF の動作を観察します。


最初のデータセットは次のように構築されます。100 個の定数関数をシミュレートします。次に、これらの曲線の 90% とサブ区間のガウス ノイズをランダムに選択します。残りの 10% の曲線については、最初のものとは異なる別のサブ区間にガウス ノイズを追加します。より正確には、次のようになります。


• 正常とみなされる曲線の90%は、



ここでε(t) ∼ N (0, 1)、b ∼ U([0, 100])、Uは一様分布を表します。


• 異常とみなされる曲線の10%は、



ここでε(t) ∼ N (0, 1) かつ b ∼ U([0, 100]) である。



µ = 0、σ = 0.5 でパスの 90% をランダムにシミュレートし、それらを正常データと見なします。次に、残りの 10% をドリフト µ = 0.2、標準偏差 σ = 0.4 でシミュレートし、異常データと見なします。切り捨てレベルを 2 に設定し、ツリーの数を N = 1,000 にして、1 から 10 までの異なる分割ウィンドウ数で K-SIF を計算します。実験は 100 回繰り返され、両方のデータセットと 3 つの事前選択された辞書の ROC 曲線の下の平均 AUC が図 1 に報告されます。


最初のデータセットでは、関数のごく一部に異常が見られますが、分割数を増やすと、異常を検出するアルゴリズムのパフォーマンスが大幅に向上します。パフォーマンスの向上は、9 つの分割ウィンドウの後、頭打ちになります。異常が持続する 2 番目のデータセットの場合、分割ウィンドウの数を増やしてもアルゴリズムのパフォーマンスにわずかな影響しか与えず、満足のいく結果が維持されます。したがって、データに関する事前知識がなくても、10 などの比較的高い分割ウィンドウ数を選択すると、両方のシナリオで堅牢なパフォーマンスが保証されます。さらに、分割ウィンドウの数を増やすと、関数のより小さな部分でシグネチャを計算できるため、計算効率が向上します。


図 1: 3 つの辞書の最初の (左) データセットと 2 番目の (右) データセットにおける分割ウィンドウの数に対する ROC 曲線の下の AUC。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています