著者:
(1)ルイ・ドゥアン サウスフロリダ大学タンパ校、米国(電子メール:[email protected])
(2)中国・長沙市浙区中南大学(メール:[email protected])
(3)リア・ディン・アメリカン大学ワシントンD.C.、米国(メール:[email protected])
(4)ヤオ・リウ、サウスフロリダ大学タンパ校、米国(メール:[email protected])
(5)ヤオ・リウ、サウスフロリダ大学タンパ校、米国(メール:[email protected])。
要約— オーディオ敵対的サンプル (AE) は、現実世界の話者認識システムに重大なセキュリティ上の課題をもたらしています。ほとんどのブラック ボックス攻撃では、効果を発揮するために、話者認識モデルからの特定の情報が必要です (たとえば、調査を継続し、類似性スコアの知識を要求します)。この研究は、攻撃者がターゲット話者認識モデルについて持つ知識を最小限に抑えることで、ブラック ボックス攻撃の実用性を高めることを目的としています。攻撃者がまったく知識がない状態で攻撃に成功することは現実的ではありませんが、攻撃者はターゲット話者の短い (または数秒) 音声サンプルしか知らないと想定しています。ターゲット モデルに関するさらなる知識を得るための調査を行わずに、ターゲット モデルに対して AE を生成するための、パロット トレーニングと呼ばれる新しいメカニズムを提案します。音声変換 (VC) の最近の進歩に着目し、1 つの短い文の知識を使用して、ターゲット話者のように聞こえる合成音声サンプル (パロット音声) をさらに生成することを提案します。次に、これらのパロット音声サンプルを使用して、攻撃者用のパロット トレーニング (PT) サロゲート モデルをトレーニングします。移転可能性と知覚を統合したフレームワークの下で、PTモデル上でAEを生成するさまざまな方法(PT-AEと呼ばれる)を調査し、人間の知覚品質に優れたブラックボックスターゲットモデルへの高い移転可能性を備えたPT-AEを生成できることを保証します。実際の実験では、結果として得られたPT-AEは、デジタル回線シナリオではオープンソースモデルに対して45.8%~80.8%の攻撃成功率を達成し、無線シナリオではApple HomePod(Siri)、Amazon Echo、Google Homeなどのスマートデバイスに対して47.9%~58.3%の攻撃成功率を達成することが示されています[1]。
音声認識 [28], [114], [72], [101], [105], [32], [43], [118] および話者認識 [43], [29], [118] に対する敵対的音声攻撃は、コンピューターオーディオセキュリティにおける機械学習の最も活発な研究分野の 1 つになっています。これらの攻撃では、ホワイトボックス [28], [114], [72], [52] またはブラックボックス設定 [105], [32], [43], [118], [29], [74], [17] のいずれかで音声分類器を偽装できるオーディオ敵対的サンプル (AE) が作成されます。対象のオーディオ分類モデルに関する完全な知識を必要とするホワイトボックス攻撃と比較して、ブラックボックス攻撃では完全な知識を前提としていないため、さまざまな攻撃シナリオ [29], [118] に基づいて文献で調査されています。ブラックボックス攻撃の設計は大幅に進歩しましたが、攻撃者がターゲット モデルから情報を取得する必要があるため、実際のシナリオでブラックボックス攻撃を実行するのは依然として困難です。
一般的に、攻撃者はクエリ(またはプロービング)プロセスを使用して、ターゲットモデルを徐々に知ることができます。つまり、ターゲットモデルに音声信号を繰り返し送信し、信頼度レベル/予測スコア [32]、[43]、[29] または分類器の最終出力結果 [118]、[113] のいずれかを測定します。プロービングプロセスでは通常、多数のインタラクション(1000 回を超えるクエリ [113] など)が必要であり、かなりの労力と時間がかかります。これは、ローカル機械学習モデル(Kaldi ツールキット [93] など)やオンライン商用プラットフォーム(Microsoft Azure [12] など)とのやり取りなど、デジタルラインでは機能する可能性があります。ただし、今日のスマートデバイス(Amazon Echo [2] など)は無線で人間の音声を受け入れるため、物理デバイスをプロービングすることは、不可能ではないにしてもさらに面倒です。さらに、ターゲットモデルの内部知識の一部は、攻撃者に知られていると想定する必要があります(ターゲットモデルの類似度スコアへのアクセス [29]、[113])。最近の2つの研究では、攻撃者の知識がさらに(i)[118]ターゲット話者の1文のスピーチのみを知っており[118]、ターゲットモデルのハードラベル(受け入れまたは拒否)結果を取得するために調査を必要とする(例えば、10,000回以上)、(ii)[30]ターゲットモデルに登録された各話者の1文のスピーチのみを知っている、と制限されました。
本稿では、話者認識に対するブラックボックス攻撃について、新しい、さらに実用的な観点を提示する。まず、最も実用的な攻撃の仮定は、攻撃者にターゲット モデルについて何も知らせず、モデルを調査させないことであると指摘する。しかし、攻撃者がそのようなまったくのゼロ知識では、効果的なオーディオ AE につながる可能性は低い。ある程度の知識を仮定する必要があるが、攻撃の実用性に向けて最小限のレベルに抑える必要がある。本研究では、攻撃者の知識を、ターゲット モデルに関するその他の情報を知らずに、ターゲット話者の 1 文 (または数秒) の音声サンプルのみに制限する。攻撃者は、ターゲット モデルの内部について知識もアクセスも持っていない。さらに、攻撃者は分類器を調査しず、分類結果 (ソフト ラベルまたはハード ラベル) を観察する必要もない。私たちの知る限り、攻撃者の知識に関する仮定は、以前の研究 (特に最近の 2 つの攻撃 [118]、[30]) と比較して最も制限されている。
ターゲット話者のこの一文の知識を中心に、私たちの基本的な攻撃フレームワークは、(i) ターゲット話者の十分な数の合成音声サンプルを生成し、それらを使用してさらなる転送攻撃のためのオウムトレーニング (PT) モデルを構築する、パロットトレーニングと呼ばれる新しいトレーニング手順を提案し、(ii) さまざまな AE 生成メカニズムの転送可能性と認識を体系的に評価し、高い攻撃成功率と良好なオーディオ品質に向けて PT モデルベースの AE (PT-AE) を作成することです。
オウム訓練の背後にある私たちの動機は、音声変換(VC)分野における最近の進歩により、ワンショット音声方法[34]、[77]、[110]、[31]が意味的な人間の音声特徴を活用して、さまざまな言語内容で対象話者の声のように聞こえる音声サンプルを生成できることが示されたことです。攻撃者の一文の知識に基づいて、対象話者のさまざまな合成音声サンプルを生成し、それらを使用して話者認識用のPTモデルを構築できるはずです。実現可能性評価では、PTモデルは、対象話者の実際の音声サンプルを使用するグラウンドトゥルーストレーニング(GT)モデルと同様に機能することが示されています。
PTモデルとGTモデルの類似性は、移転可能性という新しい興味深い疑問を生み出します。PTモデルからPT-AEを作成した場合、GTモデルから生成されたAE(GT-AE)と同様に機能し、ブラックボックスターゲットGTモデルに移転できるでしょうか?敵対的機械学習における移転可能性はすでに興味深い概念です。移転可能性は、モデルアーキテクチャ、モデルパラメータ、トレーニングデータセット、攻撃アルゴリズムなど、多くの側面に依存することが観察されています[79]、[76]。既存のAE評価は、主に合成データを含まないGTモデル上のGT-AEに焦点を当てています。その結果、私たちはPT-AEの生成と品質に関する包括的な研究を実施します。
• 品質: まず、PT-AE が優れているかどうかを定量化するための品質メトリックを定義する必要があります。PT-AE には 2 つの重要な要素があります。(i) ブラックボックス ターゲット モデルへの PT-AE の転送可能性。転送可能性を測定するために、画像領域で包括的に研究されている一致率 [79] を採用します。一致率は、ブラックボックス GT モデルで同じターゲット ラベルとして誤分類される可能性のある PT-AE の割合として定義されます。(ii) オーディオ AE の知覚品質。人間の参加者に、音声評価研究 [47]、[108]、[23]、[19]、[91]、[36] で一般的に使用される 1 (最悪) から 7 (最高) までの統一された知覚スコア スケールで、さまざまなタイプのキャリアを持つ AE の音声品質を評価させる人間研究を実施し、次に回帰モデルを構築して音声品質の人間のスコアを予測します。ただし、これら 2 つの要素は一般的に矛盾しており、転移性のレベルが高いと知覚品質が低下する可能性があります。そこで、特定の種類のキャリアを使用して生成された PT-AE に対して、転移性知覚比 (TPR) と呼ばれる新しいメトリックを定義します。このメトリックは、一致率と平均知覚スコアに基づいており、キャリアの種類が人間の知覚の単位スコアを低下させることで達成できる転移性のレベルを定量化します。高い TPR は、比較的小さな知覚低下コストで達成される高い転移性と解釈できます。
TPRフレームワークの下で、ブラックボックスターゲットモデルに対して無線で実行できる2段階のPTAE攻撃を定式化する。第1段階では、キャリアのフルセットから、攻撃者のターゲットスピーカーのTPRが高い候補のサブセットに絞り込む。第2段階では、第1段階から最適なキャリア候補を選択し、その聴覚機能を操作して、攻撃の有効性と人間の知覚の共同損失目標を最小化するアンサンブル学習ベースの定式化[76]を採用する。実際の実験では、提案されたPT-AE攻撃は、デジタルラインシナリオではオープンソースモデルに対して45.8%〜80.8%の成功率を達成し、無線シナリオではApple HomePod(Siri)、Amazon Echo、Google Homeなどのスマートデバイスに対して47.9%〜58.3%の成功率を達成することが示された。最近の2つの攻撃戦略であるSmack [113]とQFA2SR [30]と比較すると、私たちの戦略はSmackに対して263.7% (攻撃成功率) と10.7% (人間の知覚スコア) の改善を達成し、QFA2SRに対して95.9% (攻撃成功率) と44.9% (人間の知覚スコア) の改善を達成しています。表Iは、提案されたPT-AE攻撃と既存の戦略との間で必要な知識の比較を示しています。
私たちの主な貢献は、次のようにまとめることができます。(i) PT モデルの新しい概念を提案し、最先端の VC 手法を調査してオウムの音声サンプルを生成し、対象話者の 1 文の音声のみの知識を持つ攻撃者のための代理モデルを構築します。(ii) 異なるタイプのキャリアを持つ PT-AE 生成の転送可能性と知覚品質を共同で評価するための新しい TPR フレームワークを提案します。(iii) 攻撃者の知識を最小限にしながら、既存の攻撃戦略よりも効果的であることが証明されている 2 段階の PT-AE 攻撃戦略を作成します。
この論文はCC0 1.0 DEEDライセンスの下でarxivで公開されています。
[1] 攻撃デモは以下でご覧いただけます: https://sites.google.com/view/pt-attack-demo