tác giả:
(1) Đại học Rui Duan, Nam Florida Tampa, Hoa Kỳ (email: [email protected]);
(2) Đại học Trung Nam Zhe Qu Trường Sa, Trung Quốc (email: [email protected]);
(3) Leah Ding American University Washington, DC, USA (email: [email protected]);
(4) Đại học Yao Liu, Nam Florida Tampa, Hoa Kỳ (email: [email protected]);
(5) Đại học Yao Liu, Nam Florida Tampa, Hoa Kỳ (email: [email protected]).
Huấn luyện vẹt: Tính khả thi và đánh giá
Thế hệ PT-AE: Khả năng chuyển giao chung và quan điểm nhận thức
Các cuộc tấn công PT-AE hộp đen được tối ưu hóa
Kết luận và tài liệu tham khảo
Trong phần này, trước tiên chúng tôi giới thiệu nền tảng của nhận dạng người nói, sau đó mô tả các công thức tấn công đối nghịch hộp đen để tạo ra các AE âm thanh chống lại nhận dạng người nói.
A. Nhận dạng người nói
Nhận dạng người nói ngày càng trở nên phổ biến trong những năm gần đây. Nó mang đến cho máy móc khả năng nhận dạng người nói thông qua đặc điểm giọng nói cá nhân của họ, từ đó có thể cung cấp các dịch vụ được cá nhân hóa như đăng nhập thuận tiện [4] và trải nghiệm cá nhân hóa [1] để gọi điện và nhắn tin. Thông thường, nhiệm vụ nhận dạng người nói bao gồm ba giai đoạn: đào tạo, tuyển sinh và công nhận. Điều quan trọng cần nhấn mạnh là các tác vụ nhận dạng người nói [29], [118], [113] có thể là (i) nhận dạng người nói dựa trên nhiều người nói (SI) hoặc (ii) xác minh người nói dựa trên người nói (SV) . Cụ thể, SI có thể được chia thành nhận dạng tập đóng (CSI) và nhận dạng tập mở (OSI) [39], [29]. Chúng tôi cung cấp thông tin chi tiết trong Phụ lục A.
B. Tấn công bằng lời nói bất lợi
Với chức năng nhận dạng loa f, lấy đầu vào của tín hiệu giọng nói gốc x và xuất ra nhãn y của người nói, kẻ tấn công đối nghịch nhằm mục đích tìm tín hiệu nhiễu loạn nhỏ δ ∈ Ω để tạo ra âm thanh AE x + δ sao cho
f(x + δ) = yt, D(x, x + δ) ϵ, (1)
trong đó yt ̸= y là nhãn mục tiêu của kẻ tấn công; Ω là không gian tìm kiếm cho δ; D(x, x + δ) là hàm khoảng cách đo lường sự khác biệt giữa lời nói gốc x và lời nói bị nhiễu x+δ và có thể là khoảng cách dựa trên chuẩn Lp [29], [118] hoặc thước đo sự khác biệt về đặc điểm thính giác (ví dụ: qDev [44] và NISQA [113]); và ϵ giới hạn sự thay đổi từ x đến x + δ.
Công thức tấn công hộp trắng phổ biến [28], [72] để giải (1) có thể được viết là
trong đó J (·, ·) là tổn thất dự đoán trong bộ phân loại f khi liên kết đầu vào x + δ với nhãn mục tiêu yt, được cho là kẻ tấn công đã biết; và c là yếu tố cân bằng giữa hiệu quả tấn công và sự thay đổi của lời nói gốc.
Một cuộc tấn công hộp đen không biết về J (·, ·) trong (2) và do đó phải áp dụng một kiểu công thức khác tùy thuộc vào những thông tin khác mà nó có thể thu được từ bộ phân loại f. Nếu cuộc tấn công có thể thăm dò bộ phân loại đưa ra kết quả nhị phân (chấp nhận hoặc từ chối), thì cuộc tấn công [118], [74] có thể được xây dựng dưới dạng
Vì (3) chứa f(x + δ), kẻ tấn công phải tạo chiến lược thăm dò để liên tục tạo ra một phiên bản khác của δ và đo kết quả của f(x + δ) cho đến khi thành công. Theo đó, cần có một số lượng lớn đầu dò (ví dụ: hơn 10.000 [118]), điều này khiến cho các cuộc tấn công trong thế giới thực trở nên kém thực tế hơn đối với các mô hình nhận dạng loa thương mại chấp nhận tín hiệu giọng nói qua mạng.
C. Động lực thiết kế
Để khắc phục quá trình thăm dò rườm rà của một cuộc tấn công hộp đen, chúng tôi mong muốn tìm ra một cách khác để tạo ra các cuộc tấn công hộp đen thực tế. Với thực tế là không thể thực hiện được một cuộc tấn công hộp đen nếu không thăm dò hoặc biết bất kỳ kiến thức nào về bộ phân loại, chúng tôi áp dụng giả định về kiến thức trước đó được sử dụng trong [118] rằng kẻ tấn công sở hữu một mẫu âm thanh rất ngắn của người nói mục tiêu (lưu ý rằng [118] phải thăm dò mô hình mục tiêu ngoài kiến thức này). Giả định này thực tế hơn việc cho kẻ tấn công biết nội bộ của bộ phân loại. Với kiến thức hạn chế này, chúng tôi mong muốn loại bỏ quy trình thăm dò và tạo ra các AE hiệu quả.
Các nghiên cứu hiện tại đã tập trung vào nhiều khía cạnh liên quan đến các AE được đào tạo thực tế (GT-AE). Các khái niệm về lời nói vẹt và huấn luyện vẹt tạo ra một loại AE mới, AE huấn luyện vẹt (PT-AE), đồng thời đặt ra ba câu hỏi chính về tính khả thi và hiệu quả của PT-AE đối với một cuộc tấn công hộp đen thực tế: (i ) Mô hình PT có thể gần đúng với mô hình GT không? (ii) Các PT-AE được xây dựng dựa trên mô hình PT có thể chuyển nhượng được như GT-AE so với mô hình GT hộp đen không? (iii) Làm thế nào để tối ưu hóa việc tạo PT-AE theo hướng tấn công hộp đen hiệu quả? Hình 1 cho thấy quy trình tổng thể để chúng tôi giải quyết những câu hỏi này theo hướng tấn công hộp đen mới, thực tế và không thăm dò: (1) chúng tôi đề xuất phương pháp chuyển đổi một lần hai bước để tạo ra lời nói vẹt để huấn luyện vẹt trong Phần III; (2) chúng tôi nghiên cứu các loại thế hệ PT-AE khác nhau từ mô hình PT về khả năng chuyển giao và chất lượng nhận thức của chúng trong Phần IV; và (3) chúng tôi xây dựng một cuộc tấn công hộp đen được tối ưu hóa dựa trên PT-AE trong Phần V. Sau đó, chúng tôi thực hiện các đánh giá toàn diện để hiểu tác động của cuộc tấn công được đề xuất đối với các hệ thống âm thanh thương mại trong Phần VI.
D. Mô hình mối đe dọa
Trong bài viết này, chúng tôi xem xét kẻ tấn công cố gắng tạo AE âm thanh để đánh lừa mô hình nhận dạng người nói sao cho mô hình này nhận ra AE là giọng nói của người nói mục tiêu. Chúng tôi áp dụng giả định tấn công hộp đen rằng kẻ tấn công không có kiến thức về kiến trúc, tham số và dữ liệu huấn luyện được sử dụng trong mô hình nhận dạng giọng nói. Chúng tôi giả định rằng kẻ tấn công có một mẫu giọng nói rất ngắn (một vài giây trong đánh giá của chúng tôi) của người nói mục tiêu, mẫu này có thể được thu thập ở các cơ sở công cộng [118], nhưng mẫu này không nhất thiết phải được sử dụng để đào tạo trong mô hình mục tiêu. Chúng tôi tập trung vào một kịch bản thực tế hơn trong đó kẻ tấn công không thăm dò mô hình, khác với hầu hết các nghiên cứu tấn công hộp đen [113], [29], [118] yêu cầu nhiều thăm dò. Chúng tôi giả định rằng kẻ tấn công cần khởi động quá trình tiêm qua mạng đối với mô hình (ví dụ: Amazon Echo, Apple HomePod và Google Assistant).
Bài viết này có sẵn trên arxiv theo giấy phép CC0 1.0 DEED.