paint-brush
화자 인식 및 적대적 음성 공격 이해~에 의해@botbeat
273 판독값

화자 인식 및 적대적 음성 공격 이해

너무 오래; 읽다

앵무새 훈련은 최소한의 지식을 사용하고 탐색의 필요성을 제거함으로써 화자 인식 시스템에 대한 블랙박스 오디오 적대적 공격에 대한 실용적인 접근 방식을 제공합니다. 이 방법은 짧은 음성 샘플을 활용하여 높은 전달성과 우수한 지각 품질을 갖춘 효과적인 오디오 적대적 예를 생성합니다.
featured image - 화자 인식 및 적대적 음성 공격 이해
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

저자:

(1) 미국 사우스 플로리다 탬파 소재 Rui Duan 대학교 (이메일: [email protected]);

(2) Zhe Qu Central South University Changsha, 중국 (이메일: [email protected]);

(3) Leah Ding American University 워싱턴 DC, 미국 (이메일: [email protected]);

(4) 미국 사우스 플로리다 탬파 소재 Yao Liu 대학교 (이메일: [email protected]);

(5) 미국 탬파 사우스플로리다 야오류대학교(이메일: [email protected]).

링크 표

초록 및 소개

배경과 동기

앵무새 훈련: 타당성 및 평가

PT-AE 생성: 공동 이전 가능성 및 인식 관점

최적화된 블랙박스 PT-AE 공격

실험적 평가

관련된 일

결론 및 참고자료

부록

II. 배경과 동기

이 섹션에서는 먼저 화자 인식의 배경을 소개한 다음, 화자 인식에 대한 오디오 AE를 생성하기 위한 블랙박스 적대 공격 공식을 설명합니다.


A. 화자 인식


화자 인식은 최근 몇 년 동안 점점 더 대중화되고 있습니다. 이는 개인 음성 특성을 통해 화자를 식별하는 기능을 기계에 제공하여 편리한 로그인[4], 전화 및 메시지에 대한 개인화된 경험[1]과 같은 개인화된 서비스를 제공할 수 있습니다. 일반적으로 화자 인식 작업에는 훈련, 등록 및 인식의 세 단계가 포함됩니다. 화자 인식 작업[29], [118], [113]은 (i) 다중 화자 기반 화자 식별(SI) 또는 (ii) 단일 화자 기반 화자 검증(SV)이 될 수 있다는 점을 강조하는 것이 중요합니다. . 구체적으로 SI는 CSI(Close-Set Identification)와 OSI(Open-Set Identification)로 구분할 수 있다[39], [29]. 자세한 정보는 부록 A에 나와 있습니다.


B. 적대적인 언어 공격


원래 음성 신호 x의 입력을 받아 화자의 레이블 y를 출력하는 화자 인식 함수 f가 주어지면, 적대적 공격자는 다음과 같은 오디오 AE x + δ를 생성하기 위해 작은 섭동 신호 δ ∈ Ω을 찾는 것을 목표로 합니다.


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


여기서 yt ̸= y는 공격자의 대상 레이블입니다. Ω은 δ에 대한 검색 공간입니다. D(x, x + δ)는 원래 음성 x와 교란된 음성 x+δ 사이의 차이를 측정하는 거리 함수이며 Lp 표준 기반 거리[29], [118] 또는 청각 특징 차이의 척도일 수 있습니다. (예: qDev [44] 및 NISQA [113]); ϵ는 x에서 x + δ로의 변화를 제한합니다.


(1)을 해결하기 위한 일반적인 화이트박스 공격 공식[28], [72]은 다음과 같이 작성할 수 있습니다.



여기서 J(·,·)는 입력 x + δ를 공격자가 알고 있다고 가정하는 대상 레이블 yt에 연관시킬 때 분류기 f의 예측 손실입니다. c는 공격 효율성과 원화의 변화의 균형을 맞추는 요소이다.


블랙박스 공격은 (2)의 J(·,·)에 대한 지식이 없으므로 분류기 f에서 얻을 수 있는 다른 정보가 무엇인지에 따라 다른 형식의 공식을 채택해야 합니다. 공격이 이진(수락 또는 거부) 결과를 제공하는 분류자를 조사할 수 있는 경우 공격[118], [74]은 다음과 같이 공식화될 수 있습니다.



(3)에는 f(x + δ)가 포함되어 있으므로 공격자는 계속해서 다른 버전의 δ를 생성하고 성공할 때까지 f(x + δ)의 결과를 측정하는 탐색 전략을 만들어야 합니다. 따라서 많은 수의 프로브(예: 10,000개 이상[118])가 필요하며 이는 무선으로 음성 신호를 수신하는 상용 화자 인식 모델에 대한 실제 공격의 실용성을 떨어뜨립니다.


그림 1: 앵무새 훈련 기반 블랙박스 공격 절차.


다. 디자인 동기


블랙박스 공격의 번거로운 탐색 과정을 극복하기 위해 실용적인 블랙박스 공격을 생성할 수 있는 대안을 찾는 것을 목표로 합니다. 분류기에 대한 지식을 조사하거나 알지 못하면 블랙박스 공격이 불가능하다는 사실을 고려하여 공격자가 대상 화자의 매우 짧은 오디오 샘플을 보유하고 있다는 [118]에서 사용된 사전 지식의 가정을 채택합니다(참고: [118]은 이 지식 외에도 대상 모델을 조사해야 합니다. 이 가정은 공격자가 분류기의 내부를 알 수 있도록 하는 것보다 더 실용적입니다. 이러한 제한된 지식을 바탕으로 우리는 프로빙 프로세스를 제거하고 효과적인 AE를 만드는 것을 목표로 합니다.




기존 연구는 GT-AE(ground-truth training AE)와 관련된 광범위한 측면에 중점을 두었습니다. 앵무새 음성 및 앵무새 훈련의 개념은 새로운 유형의 AE인 앵무새 훈련 AE(PT-AE)를 생성하고 실제 블랙박스 공격에 대한 PT-AE의 타당성과 효율성에 대한 세 가지 주요 질문을 제기합니다. ) PT 모델이 GT 모델과 유사할 수 있습니까? (ii) PT 모델을 기반으로 구축된 PT-AE는 블랙박스 GT 모델에 대한 GT-AE처럼 이전 가능합니까? (iii) 효과적인 블랙박스 공격을 위해 PT-AE 생성을 최적화하는 방법은 무엇입니까? 그림 1은 새롭고 실용적이며 탐색할 수 없는 블랙박스 공격에 대한 이러한 질문을 해결하기 위한 전체 절차를 보여줍니다. (1) 섹션 III에서 앵무새 훈련을 위한 앵무새 음성을 생성하기 위한 2단계 원샷 변환 방법을 제안합니다. (2) 섹션 IV의 전달 가능성 및 인식 품질과 관련하여 PT 모델에서 다양한 유형의 PT-AE 세대를 연구합니다. (3) 섹션 V에서 PT-AE를 기반으로 최적화된 블랙박스 공격을 공식화합니다. 그런 다음 섹션 VI에서 제안된 공격이 상업용 오디오 시스템에 미치는 영향을 이해하기 위해 포괄적인 평가를 수행합니다.


D. 위협 모델


본 논문에서는 모델이 AE를 대상 화자의 음성으로 인식하도록 화자 인식 모델을 속이기 위해 오디오 AE를 생성하려고 시도하는 공격자를 고려합니다. 우리는 공격자가 음성 인식 모델에 사용되는 아키텍처, 매개 변수 및 훈련 데이터에 대한 지식이 없다는 블랙박스 공격 가정을 채택합니다. 우리는 공격자가 공개 설정에서 수집할 수 있는 대상 화자의 매우 짧은 음성 샘플(평가에서 몇 초)을 가지고 있다고 가정하지만 [118] 샘플이 대상 모델의 훈련에 반드시 사용되는 것은 아닙니다. 우리는 많은 탐색이 필요한 대부분의 블랙박스 공격 연구[113], [29], [118]와 달리 공격자가 모델을 탐색하지 않는 보다 현실적인 시나리오에 중점을 둡니다. 우리는 공격자가 모델(예: Amazon Echo, Apple HomePod 및 Google Assistant)에 대해 OTA(over-the-air) 주입을 시작해야 한다고 가정합니다.


이 문서는 CC0 1.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.