著者:
(1) Guillaume Staerman、INRIA、CEA、大学パリ・サクレー、フランス。
(2) Marta Campi、CERIAH、Institut de l'Audition、Institut Pasteur、フランス。
(3)ガレス・W・ピーターズ、米国カリフォルニア大学サンタバーバラ校統計・応用確率学部
付録
K-SIF と SIF の 2 つの主なパラメータ、つまりシグネチャの深さ k と分割ウィンドウの数 ω に関して、その動作を調査します。スペースの都合上、深さに関する実験は付録のセクション C.1 に延期されます。
シグネチャ分割ウィンドウの役割。分割ウィンドウの数によって、基になるデータの特定の間隔 (ランダムに選択) に関する情報を抽出できます。したがって、各ツリー ノードでは、比較のためにすべてのサンプル曲線で同じであるデータの特定の部分に焦点が当てられます。このアプローチにより、データの比較可能なセクションで分析が実行され、サンプル曲線全体のさまざまな間隔または機能を体系的に調査および比較できるようになります。
このパラメータの役割を、2 種類の異常シナリオを再現する 2 つの異なるデータセットで調査します。1 つ目は、小さな間隔で孤立した異常を考慮したもので、2 つ目は、関数パラメータ化全体にわたって持続する異常を含みます。このようにして、異なる種類の異常に対する K-SIF と SIF の動作を観察します。
最初のデータセットは次のように構築されます。100 個の定数関数をシミュレートします。次に、これらの曲線の 90% とサブ区間のガウス ノイズをランダムに選択します。残りの 10% の曲線については、最初のものとは異なる別のサブ区間にガウス ノイズを追加します。より正確には、次のようになります。
• 正常とみなされる曲線の90%は、
ここでε(t) ∼ N (0, 1)、b ∼ U([0, 100])、Uは一様分布を表します。
• 異常とみなされる曲線の10%は、
ここでε(t) ∼ N (0, 1) かつ b ∼ U([0, 100]) である。
µ = 0、σ = 0.5 でパスの 90% をランダムにシミュレートし、それらを正常データと見なします。次に、残りの 10% をドリフト µ = 0.2、標準偏差 σ = 0.4 でシミュレートし、異常データと見なします。切り捨てレベルを 2 に設定し、ツリーの数を N = 1,000 にして、1 から 10 までの異なる分割ウィンドウ数で K-SIF を計算します。実験は 100 回繰り返され、両方のデータセットと 3 つの事前選択された辞書の ROC 曲線の下の平均 AUC が図 1 に報告されます。
最初のデータセットでは、関数のごく一部に異常が見られますが、分割数を増やすと、異常を検出するアルゴリズムのパフォーマンスが大幅に向上します。パフォーマンスの向上は、9 つの分割ウィンドウの後、頭打ちになります。異常が持続する 2 番目のデータセットの場合、分割ウィンドウの数を増やしてもアルゴリズムのパフォーマンスにわずかな影響しか与えず、満足のいく結果が維持されます。したがって、データに関する事前知識がなくても、10 などの比較的高い分割ウィンドウ数を選択すると、両方のシナリオで堅牢なパフォーマンスが保証されます。さらに、分割ウィンドウの数を増やすと、関数のより小さな部分でシグネチャを計算できるため、計算効率が向上します。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。