저자:
(1) 미국 사우스 플로리다 탬파 소재 Rui Duan 대학교 (이메일: [email protected]);
(2) Zhe Qu Central South University Changsha, 중국 (이메일: [email protected]);
(3) Leah Ding American University 워싱턴 DC, 미국 (이메일: [email protected]);
(4) 미국 사우스 플로리다 탬파 소재 Yao Liu 대학교 (이메일: [email protected]);
(5) 미국 탬파 사우스플로리다 야오류대학교(이메일: [email protected]).
개요 - 오디오 적대적 사례(AE)는 실제 화자 인식 시스템에 심각한 보안 문제를 야기했습니다. 대부분의 블랙박스 공격이 효과적이려면 여전히 화자 인식 모델의 특정 정보가 필요합니다(예: 계속해서 탐색하고 유사성 점수에 대한 지식이 필요함). 본 연구는 대상 화자 인식 모델에 대한 공격자의 지식을 최소화하여 블랙박스 공격의 실용성을 높이는 것을 목표로 한다. 공격자가 완전히 지식이 없는 상태에서 성공하는 것은 불가능하지만 공격자가 대상 화자의 짧은(또는 몇 초) 음성 샘플만 알고 있다고 가정합니다. 대상 모델에 대한 추가 지식을 얻기 위한 탐색 없이 대상 모델에 대해 AE를 생성하는 앵무새 훈련이라는 새로운 메커니즘을 제안합니다. 최근 음성 변환(VC)의 발전에 힘입어 우리는 짧은 문장 지식을 사용하여 앵무새 음성이라고 하는 대상 화자와 비슷하게 들리는 더 많은 합성 음성 샘플을 생성할 것을 제안합니다. 그런 다음 이러한 앵무새 음성 샘플을 사용하여 공격자를 위한 앵무새 훈련(PT) 대리 모델을 훈련합니다. 공동 전달 가능성 및 인식 프레임워크에서 우리는 PT 모델(PT-AE라고 함)에서 AE를 생성하는 다양한 방법을 조사하여 PT-AE가 인간의 지각 품질이 좋은 블랙박스 대상 모델에 대한 높은 전달 가능성으로 생성될 수 있도록 보장합니다. 실제 실험에 따르면 결과적으로 생성된 PT-AE는 디지털 회선 시나리오에서 오픈 소스 모델에 대해 45.8%~80.8%, Apple HomePod(Siri)를 포함한 스마트 장치에 대해 47.9%~58.3%의 공격 성공률을 달성하는 것으로 나타났습니다. , Amazon Echo 및 Google Home이 OTA 시나리오에서 사용됩니다[1].
음성 인식 [28], [114], [72], [101], [105], [32], [43], [118] 및 화자 인식 [43], [29], [118]에 대한 적대적 음성 공격 ]는 컴퓨터 오디오 보안 분야에서 가장 활발한 머신러닝 연구 분야 중 하나가 되었습니다. 이러한 공격은 화이트박스[28], [114], [72], [52] 또는 블랙박스 설정[105], [32], [43]에서 음성 분류기를 스푸핑할 수 있는 오디오 AE(Adversarial example)를 만듭니다. ], [118], [29], [74], [17]. 대상 오디오 분류 모델에 대한 전체 지식이 필요한 화이트박스 공격과 비교하여 블랙박스 공격은 전체 지식을 가정하지 않으며 다양한 공격 시나리오에서 문헌에서 조사되었습니다[29], [118]. 블랙박스 공격 설계의 상당한 진전에도 불구하고 공격자가 여전히 대상 모델에서 정보를 얻어야 한다는 점에서 실제 시나리오에서 실행하기는 여전히 어려울 수 있습니다.
일반적으로 공격자는 쿼리(또는 프로빙) 프로세스를 사용하여 대상 모델을 점진적으로 알 수 있습니다. 대상 모델에 음성 신호를 반복적으로 보낸 다음 신뢰 수준/예측 점수를 측정합니다 [32], [43], [29] 또는 분류기의 최종 출력 결과 [118], [113]. 프로빙 프로세스에는 일반적으로 많은 수의 상호 작용(예: 1000개 이상의 쿼리[113])이 필요하므로 상당한 노동력과 시간이 소요될 수 있습니다. 이는 로컬 기계 학습 모델(예: Kaldi 툴킷 [93]) 또는 온라인 상용 플랫폼(예: Microsoft Azure [12])과의 상호 작용과 같은 디지털 라인에서 작동할 수 있습니다. 그러나 오늘날의 스마트 장치(예: Amazon Echo [2])는 사람의 음성을 무선으로 수신하기 때문에 가능하지 않더라도 물리적 장치를 검색하는 것이 훨씬 더 번거로울 수 있습니다. 더욱이, 대상 모델의 일부 내부 지식은 여전히 공격자가 알고 있다고 가정해야 합니다(예: 대상 모델의 유사성 점수에 대한 액세스 [29], [113]). 최근의 두 연구에서는 공격자의 지식을 (i) [118] 대상 화자의 한 문장 음성만 알고 [118] 대상 모델의 하드 라벨(수락 또는 거부) 결과(예: 10,000개 이상)를 얻기 위해 조사가 필요하도록 제한했습니다. 회) 및 (ii) [30] 대상 모델에 등록된 각 화자에 대해 한 문장 음성만 알고 있습니다.
본 논문에서는 화자 인식에 대한 블랙박스 공격에 대한 새롭고 더욱 실용적인 관점을 제시합니다. 먼저 가장 실용적인 공격 가정은 공격자가 대상 모델에 대해 아무 것도 알지 못하게 하고 모델을 조사하지 않는다는 것입니다. 그러나 공격자에 대한 지식이 전혀 없기 때문에 효과적인 오디오 AE가 발생할 가능성은 거의 없습니다. 우리는 약간의 지식을 가정해야 하지만 공격 실용성을 위해 최소한의 수준으로 유지해야 합니다. 우리의 작업은 공격자의 지식을 대상 모델에 대한 다른 정보를 알지 못한 채 대상 화자의 단 한 문장(또는 몇 초) 음성 샘플로 제한합니다. 공격자는 대상 모델의 내부에 대한 지식도 없고 접근할 수도 없습니다. 더욱이 그녀는 분류자를 조사하지 않으며 분류 결과(소프트 라벨 또는 하드 라벨)를 관찰할 필요도 없습니다. 우리가 아는 한, 공격자의 지식에 대한 우리의 가정은 이전 작업(특히 최근 두 번의 공격[118], [30])에 비해 가장 제한적입니다.
목표 화자의 한 문장 지식을 중심으로 우리의 기본 공격 프레임워크는 (i) 목표 화자의 충분한 수의 합성 음성 샘플을 생성하고 이를 사용하여 앵무새 훈련이라는 새로운 훈련 절차를 제안하는 것입니다. 추가 전송 공격을 위한 앵무새 훈련(PT) 모델, (ii) 다양한 AE 생성 메커니즘의 전달 가능성과 인식을 체계적으로 평가하고 높은 공격 성공률과 우수한 오디오 품질을 향한 PT 모델 기반 AE(PT-AE)를 생성합니다.
앵무새 훈련의 동기는 최근 음성 변환(VC) 영역의 발전을 통해 일회성 음성 방법[34], [77], [110], [31]이 의미론적 인간 음성을 활용할 수 있음을 보여주었다는 것입니다. 다양한 언어 콘텐츠에서 대상 화자의 음성처럼 들리는 음성 샘플을 생성하는 기능입니다. 공격자의 한 문장 지식을 기반으로 우리는 대상 화자의 다양한 합성 음성 샘플을 생성하고 이를 사용하여 화자 인식을 위한 PT 모델을 구축할 수 있어야 합니다. 우리의 타당성 평가는 PT 모델이 대상 화자의 실제 음성 샘플을 사용하는 GT(Ground-Truth Training) 모델과 유사하게 수행될 수 있음을 보여줍니다.
PT와 GT 모델의 유사성은 이전 가능성에 대한 새롭고 흥미로운 질문을 만듭니다. PT 모델에서 PT-AE를 생성하면 GT 모델(GT-AE)에서 생성된 AE와 유사하게 수행되어 검정색으로 이전될 수 있습니까? -박스 타겟 GT 모델? 적대적 기계 학습의 전이 가능성은 이미 흥미로운 개념입니다. 전송 가능성은 모델 아키텍처, 모델 매개변수, 교육 데이터 세트 및 공격 알고리즘과 같은 여러 측면에 따라 달라지는 것으로 관찰되었습니다[79], [76]. 기존 AE 평가는 주로 합성 데이터를 포함하지 않고 GT 모델의 GT-AE에 중점을 두었습니다. 결과적으로 우리는 PT-AE의 생성 및 품질 측면에서 포괄적인 연구를 수행합니다.
• 품질: 먼저 PT-AE가 좋은지 여부를 정량화하기 위해 품질 측정 기준을 정의해야 합니다. PT-AE에는 두 가지 중요한 요소가 있습니다. (i) PT-AE를 블랙박스 대상 모델로의 전환 가능성. 전사 가능성을 측정하기 위해 이미지 영역에서 포괄적으로 연구된 일치율을 채택합니다[79]. 일치율은 블랙박스 GT 모델에서 여전히 동일한 대상 라벨로 잘못 분류될 수 있는 PT-AE의 비율로 정의됩니다. (ii) 오디오 AE의 인식 품질. 우리는 인간 참가자가 음성 평가 연구에서 일반적으로 사용되는 1(최악)에서 7(최고)까지의 통합된 인식 점수 척도로 다양한 유형의 반송파를 사용하여 AE의 음성 품질을 평가할 수 있도록 인간 연구를 수행합니다[47]. 108], [23], [19], [91], [36] 그런 다음 회귀 모델을 구축하여 인간의 음성 품질 점수를 예측합니다. 그러나 이 두 가지 요소는 일반적으로 모순적입니다. 높은 수준의 전달 가능성은 낮은 인식 품질을 초래할 수 있기 때문입니다. 그런 다음 특정 유형의 반송파를 사용하여 생성된 PT-AE에 대한 TPR(Transferability-Perception Ratio)이라는 새로운 측정항목을 정의합니다. 이 측정항목은 일치율과 평균 인식 점수를 기반으로 하며, 인간 인식의 단위 점수를 저하시킬 때 통신업체 유형이 달성할 수 있는 전송 가능성 수준을 정량화합니다. 높은 TPR은 상대적으로 적은 인식 저하 비용으로 달성된 높은 전달 가능성으로 해석될 수 있습니다.
TPR 프레임워크에서 우리는 블랙박스 대상 모델에 대해 무선으로 실행될 수 있는 2단계 PTAE 공격을 공식화합니다. 첫 번째 단계에서는 전체 캐리어 세트에서 공격자의 대상 스피커에 대해 TPR이 높은 후보 하위 세트로 범위를 좁힙니다. 두 번째 단계에서는 첫 번째 단계에서 최고의 캐리어 후보를 선택하고 청각 특성을 조작하여 공격 효율성과 인간 인식의 공동 손실 목표를 최소화하는 앙상블 학습 기반 공식 [76]을 채택합니다. 실제 실험에 따르면 제안된 PT-AE 공격은 디지털 회선 시나리오에서 오픈 소스 모델에 대해 45.8%~80.8%, Apple HomePod(Siri)를 포함한 스마트 장치에 대해 47.9%~58.3%의 성공률을 달성하는 것으로 나타났습니다. OTA 시나리오의 Amazon Echo 및 Google Home. 최근 두 가지 공격 전략 Smack [113] 및 QFA2SR [30]과 비교하여 우리의 전략은 Smack에 비해 263.7%(공격 성공) 및 10.7%(인간 인식 점수)의 향상을 달성했으며, 95.9%(공격 성공) 및 44.9%(인간 인식 점수)를 달성했습니다. 인식 점수) QFA2SR에 비해. 표 I은 제안된 PT-AE 공격과 기존 전략 사이에 필요한 지식을 비교한 것입니다.
우리의 주요 기여는 다음과 같이 요약될 수 있습니다. (i) 새로운 개념의 PT 모델을 제안하고, 표적 화자의 단 한 문장 음성에 대한 지식만으로 공격자에 대한 대리 모델을 구축하기 위해 앵무새 음성 샘플을 생성하는 최첨단 VC 방법을 조사한다. (ii) 우리는 다양한 유형의 반송파를 사용하여 PT-AE 세대의 전달 가능성과 지각 품질을 공동으로 평가하기 위한 새로운 TPR 프레임워크를 제안합니다. (iii) 공격자의 최소한의 지식을 요구하면서 기존 공격 전략보다 더 효과적인 것으로 입증된 2단계 PT-AE 공격 전략을 만듭니다.
이 문서는 CC0 1.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.
[1] 공격 데모는 https://sites.google.com/view/pt-attack-demo 에서 확인할 수 있습니다.