著者:
(1) Guillaume Staerman、INRIA、CEA、大学パリ・サクレー、フランス。
(2) Marta Campi、CERIAH、Institut de l'Audition、Institut Pasteur、フランス。
(3)ガレス・W・ピーターズ、米国カリフォルニア大学サンタバーバラ校統計・応用確率学部
付録
このセクションでは、提案されたアルゴリズムと本文で展開された議論をサポートするために、追加の数値実験を示します。まず、アルゴリズムにおけるシグネチャ深度の役割について説明し、このパラメーターがアルゴリズムに及ぼす影響を説明します。生成された 2 セットのデータのボックス プロットを示し、このコンテキストでの深度パラメーターの重要性について説明します。その後、本文のセクション 4.2 に関連して、FIF に対する (K)-SIF のノイズに対する堅牢性の利点に関する追加の実験を示します。3 番目の段落では、本文のセクション 4.2 の「スワッピング イベント」実験で生成されたデータを示します。視覚化と理解を深めるための図を示します。さらに、データの構築方法についても説明します。4 番目のサブセクションでは、提案されたアルゴリズムの計算時間を FIF と直接比較して示します。次に、AD タスクに関して FIF よりも (K)-SIF の方が優れているというさらなる証拠を示す追加の実験を示します。最後に、最後のサブセクションでは、セクション 4.3 のベンチマークに関連するデータセットのサイズに関する情報を説明する表を示します。
この実験では、このパラメータがK-SIFに与える影響を、2つの異なる確率過程を用いて調査します。2つの第1モーメントで特徴付けられる3次元ブラウン運動(µ = 0、σ = 0.1)と、株式市場のモデル化に広く使用されているヘビーテールプロセスである1次元マートンジャンプ拡散プロセスです。
アルゴリズム
そこで、前者の確率モデルを後者の確率モデルと比較します。後者は最初の 2 つのモーメントでは特徴付けられず、この点で (K)-SIF のパフォーマンスを観察します。
両方のシミュレートされたデータセットに対して、切り捨てレベルが {2、3、4} の 3 つの辞書を使用して K-SIF を計算しました。前のセクションに従って、分割ウィンドウの数を 10 に設定し、ツリーの数を 1000 に設定しました。その後、レベル 2 対レベル 3、レベル 2 対レベル 4、レベル 3 対レベル 4 の 3 つのペアワイズ設定について、これらのモデルによって返されたランクの Kendall 相関を計算しました。
この実験を 100 回繰り返し、ブラウン運動については図 5、マートン ジャンプ拡散プロセスについては図 6 に相関ボックス プロットを報告します。左と右のプロットは、K-SIF 用に選択された異なる分割ウィンドウ パラメーターを示しており、左のパネルでは ω = 3 に対応し、右のパネルでは ω = 5 を選択していることに注意してください。これらのボックス プロットは、特定の深度で使用されるアルゴリズムの 1 つによって返されたスコアと、異なる深度での同じアルゴリズムによって返されたスコアとの間の Kendall タウ相関を示しています。3 つの辞書を使用した K-SIF の結果は、それぞれブラウン、コサイン、緑のガウス ウェーブレットに対して青、オレンジ、緑で表されます。SIF ボックス プロットは紫で表示されます。y 軸は Kendall 相関値を示し、x 軸は相関関係が示された深度値の設定を示します。
高い相関は、異なる深度パラメータを持つアルゴリズムによって返されるランクが同等であることを示します。したがって、相関が高い場合、このパラメータは検討中のアルゴリズムの結果に影響を与えないことを示唆しており、計算効率を高めるにはより低い深度を選択する必要があります。2 つの辞書、つまりブラウンとコサイン (青とオレンジの箱ひげ図) について、SIF (紫の箱ひげ図) と K-SIF の両方で高い相関が示されています。したがって、計算効率を高めるには、最小の切り捨てレベルを選択することをお勧めします。同じアルゴリズムでは、マートン プロセスの場合にはわずかに低い相関が識別されますが、それでも約 0.8 レベルであるため、同等の主張を裏付けています。ガウス辞書を使用した K-SIF (緑の箱ひげ図) の場合、テストされた 3 つのシナリオ全体で相関結果に関してはるかに高い変動が得られます。さらに、マートン ジャンプ拡散プロセスの場合、結果は他の結果と一致して低い相関を示しています。したがって、このような辞書を使用する K-SIF の場合、異なるパラメータによって基礎となるプロセスのモーメントの検出が向上する可能性があるため、深さは慎重に選択する必要があります。
この部分では、本論文のセクション4.2に関連して、FIFに対する(K)-SIFのノイズ耐性の利点に関する追加の実験を提供します。データシミュレーションの構成は次のとおりです。100個の滑らかな関数の合成データセットを定義します。
ここでε(t) ∼ N (0, 0.5)である。再びランダムに10%を選択し、最初の区間と比較して別の区間に小さなノイズを追加することで、わずかにノイズの多い曲線を作成する。
ここでε(t) ∼ N (0, 0.1)である。
図 7 は、最初のパネルで生成されたデータセットの概要を視覚化したものです。10 個の異常な曲線は赤でプロットされ、10 個のわずかにノイズの多い正常データと見なされる曲線は青でプロットされています。残りの曲線は正常データと見なされ、灰色で示されています。目的は、辞書の選択が、わずかにノイズの多い正常データと異常なノイズの検出において K-SIF と FIF にどのように影響するかを理解することです。K-SIF と FIF の結果は、それぞれ図 7 の 2 番目、3 番目、4 番目のパネルに示されています。
K-SIF はブラウン辞書、k = 2、ω = 10 で計算し、FIF は α = 0、α = 1 でブラウン辞書で計算します。パネルの色は、その特定のアルゴリズムの各曲線に割り当てられた異常スコアを表します。2 番目のパネル (K-SIF) と最後のパネル (α = 0 の FIF) では、異常スコアが黄色から濃い青に増加します。つまり、濃い曲線は異常で黄色は正常です。一方、3 番目のプロット (α = 1 の FIF) ではその逆で、濃い曲線は正常で黄色は異常です。
K-SIF がノイズの多いデータや異常なデータをうまく識別できる様子を見ることができます。実際、異常なデータは濃い青で表示され、ノイズの多いデータは黄色のスコアで表示されます。一方、α = 1 の FIF (3 番目のパネル) では、異常な曲線とわずかにノイズの多い曲線の両方が正常データとして識別されます (スケールが反転され、濃い青で表示されます)。α = 0 の FIF (最後の 4 番目のパネル) では、異常なデータとノイズの多いデータの両方が異常な曲線としてスコア付けされます。したがって、α パラメーターの両方の設定を持つ FIF では、ノイズとわずかにノイズの多いデータに異なるスコアを提供することはできません。代わりに、K-SIF はそのようなタスクをうまく実行します。
この部分では、コア論文のセクション4.2の「スワッピングイベント」実験で使用されたデータセットを視覚化します。図8はシミュレーションデータを示しています。100個の滑らかな関数の合成データセットを次のように定義します。
ここで、t ∈ [0, 1]、q は [1, 1.4] の等間隔である。次に、関数のさまざまな部分にガウスノイズを追加してイベントの発生をシミュレートします。ランダムに 90% を選択し、サブ区間にガウス値を追加します。
ここでε(t) ∼ N (0, 0.8)である。最初の区間と比較して別の区間で同じ「イベント」を追加することで、残りの10%を異常とみなす。つまり、
ここでε(t) ∼ N (0, 0.8)である。関数の異なる部分で発生する2つの同一のイベントを構築し、孤立した異常を導きました。
この部分では、(K-)SIF の FIF に対する識別力を示すための追加のおもちゃの実験を構築します。ドリフト µ = [0, 0] および標準偏差 σ = [0.1, 0.1] の正常データの 90% と、ドリフト µ = [0, 0] および標準偏差 σ = [0.4, 0.4] の異常データの 10% を使用して、100 個の平面ブラウン運動パスをシミュレートします。
図10は、このデータセットの1つのシミュレーションを示しています。紫色のパスは正常データを表し、オレンジ色のパスは異常データを表しています。このデータセットでは、FIF(α = 1、ブラウン辞書を使用)、K-SIF(α = 1、ブラウン辞書を使用)を計算します。
シミュレーションでは、K-SIF(k = 2、ω = 10、ブラウン辞書)と SIF(k = 2、ω = 10)の 2 つのパスをプロットしました。アルゴリズムによって返されたスコアを表示するために、図 11 を用意しました。プロットは、ソート後の 100 パスのスコアを示していることに注意してください。したがって、x 軸は順序付けられたスコアのインデックスを提供し、y 軸はスコア値を表します。シミュレーションに関しては、正常データのスコアを紫色でプロットし、異常データのスコアをオレンジ色でプロットします。3 つのパネルは、それぞれ FIF、K-SIF、および SIF を示します。
K-SIF と SIF のスコアは異常データと正常データをうまく分離しており、スコアの急上昇が非常に顕著であることがわかります。つまり、正常データのスコアは異常データのスコアから比較的離れています。代わりに FIF に焦点を当てると、このような異常の区別はより困難になります。最初のパネルは、実際、正常データと異常データを分離しない AD アルゴリズムによって返されるスコアに関して連続的であることを示しています。
要約すると、シグネチャ カーネル (K-SIF) とシグネチャ座標 (SIF) を活用した提案アルゴリズムは、この実験設定でより信頼性の高い結果を示し、シミュレートされたデータセット内の異常を識別するのに有効であることが示唆されています。イベントが発生する順序を検出することは、異常検出アルゴリズムに機能的な側面を組み込むよりもはるかに有益な機能です。この側面は、特に時系列などの連続データが考慮されるアプリケーション領域で、さらに調査および検討する必要があります。
データ深度と呼ばれる統計ツールは、このコンテキストでは本質的な類似性スコアとして機能します。データ深度は、確率分布に関して中心から外側に向かってポイントを順序付けるという、単純な幾何学的解釈を提供します (Tukey、1975 年、Zuo と Serfling、2000 年)。幾何学的には、データ深度は、特定の分布内のサンプルの深度を測定します。統計コミュニティから注目を集めているにもかかわらず、データ深度は機械学習コミュニティではほとんど見過ごされてきました。最も初期の提案である (Tukey、1975 年) で導入された半空間深度の代替として、多数の定義が提案されてきました。他にも、単体深度 (Liu、1988)、投影深度 (Liu および Singh、1993)、ゾノイド深度 (Koshevoy および Mosler、1997)、回帰深度 (Rousseeuw および Hubert、1999)、空間深度 (Vardi および Zhang、2000)、AI-IRW 深度 (Clemen ´ c¸on 他、2023) などがあり、それぞれ特性と用途が異なります。データ深度は、確率分布間の堅牢なメトリックの定義 (Staerman et al., 2021b) と堅牢な最適トランスポートベースのメトリックの競合 (Staerman et al., 2021a)、コンピュータービジョンにおける敵対的攻撃の検出 (Picot et al., 2022; Dadalto et al., 2023)、NLP トランスフォーマーにおける幻覚の検出 (Colombo et al., 2023; Darrin et al., 2023; Colombo et al., 2022)、LLM (Himmi et al., 2024) など、多くの用途に使用されています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。