Autoren:
(1) Rui Duan University of South Florida Tampa, USA (E-Mail: [email protected]);
(2) Zhe Qu Central South University Changsha, China (E-Mail: [email protected]);
(3) Leah Ding American University Washington, DC, USA (E-Mail: [email protected]);
(4) Yao Liu University of South Florida Tampa, USA (E-Mail: [email protected]);
(5) Yao Liu University of South Florida Tampa, USA (E-Mail: [email protected]).
Zusammenfassung und Einleitung
Papageientraining: Machbarkeit und Evaluation
PT-AE-Generation: Eine gemeinsame Übertragbarkeits- und Wahrnehmungsperspektive
Optimierte Black-Box PT-AE-Angriffe
Schlussfolgerung und Referenzen
In diesem Abschnitt stellen wir zunächst den Hintergrund der Sprechererkennung vor und beschreiben dann Black-Box-Angriffsformeln zum Erstellen von Audio-AEs gegen die Sprechererkennung.
A. Sprechererkennung
Sprechererkennung wird in den letzten Jahren immer beliebter. Sie ermöglicht es Maschinen, einen Sprecher anhand seiner persönlichen Sprachmerkmale zu identifizieren, was personalisierte Dienste wie eine bequeme Anmeldung [4] und ein personalisiertes Erlebnis [1] beim Anrufen und Versenden von Nachrichten ermöglichen kann. Normalerweise umfasst die Sprechererkennungsaufgabe drei Phasen: Training, Registrierung und Erkennung. Es ist wichtig hervorzuheben, dass Sprechererkennungsaufgaben [29], [118], [113] entweder (i) auf mehreren Sprechern basierende Sprecheridentifizierung (SI) oder (ii) auf einem Sprecher basierende Sprecherverifizierung (SV) sein können. Insbesondere kann SI in Close-Set-Identifikation (CSI) und Open-Set-Identifikation (OSI) unterteilt werden [39], [29]. Detaillierte Informationen finden Sie in Anhang A.
B. Feindselige Redeangriffe
Bei einer Sprechererkennungsfunktion f, die das ursprüngliche Sprachsignal x als Eingabe verwendet und die Bezeichnung y des Sprechers ausgibt, versucht ein Angreifer, ein kleines Störsignal δ ∈ Ω zu finden, um eine Audio-AE x + δ zu erzeugen, sodass
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
wobei yt ̸= y die Zielbezeichnung des Angreifers ist; Ω der Suchraum für δ ist; D(x, x + δ) eine Distanzfunktion ist, welche die Differenz zwischen der Originalsprache x und der gestörten Sprache x+δ misst und die die auf der Lp-Norm basierende Distanz [29], [118] oder ein Maß für die Differenz auditorischer Merkmale (z. B. qDev [44] und NISQA [113]) sein kann; und ϵ die Änderung von x auf x + δ begrenzt.
Eine übliche White-Box-Angriffsformulierung [28], [72] zur Lösung von (1) kann wie folgt geschrieben werden:
wobei J (·, ·) der Vorhersageverlust im Klassifikator f ist, wenn die Eingabe x + δ mit dem Ziellabel yt verknüpft wird, das dem Angreifer als bekannt vorausgesetzt wird; und c ein Faktor zum Ausgleich zwischen Angriffseffektivität und Änderung der Originalsprache ist.
Ein Black-Box-Angriff hat keine Kenntnis von J (·, ·) in (2) und muss daher eine andere Art der Formulierung wählen, je nachdem, welche anderen Informationen er vom Klassifikator f erhalten kann. Wenn der Angriff den Klassifikator testen kann, der ein binäres (Akzeptieren oder Ablehnen) Ergebnis liefert, kann der Angriff [118], [74] wie folgt formuliert werden
Da (3) f(x + δ) enthält, muss der Angreifer eine Teststrategie entwickeln, um kontinuierlich eine andere Version von δ zu erzeugen und das Ergebnis von f(x + δ) zu messen, bis er erfolgreich ist. Dementsprechend ist eine große Anzahl von Tests (z. B. über 10.000 [118]) erforderlich, was reale Angriffe gegen kommerzielle Sprechererkennungsmodelle, die Sprachsignale über Funk akzeptieren, weniger praktikabel macht
C. Designmotivation
Um den umständlichen Sondierungsprozess eines Blackbox-Angriffs zu umgehen, wollen wir einen alternativen Weg finden, um praktische Blackbox-Angriffe zu erstellen. Angesichts der Tatsache, dass ein Blackbox-Angriff ohne Sondierung oder Kenntnis eines Klassifikators nicht möglich ist, übernehmen wir die in [118] verwendete Annahme des Vorwissens, dass der Angreifer über eine sehr kurze Audioprobe des Zielsprechers verfügt (beachten Sie, dass [118] zusätzlich zu diesem Wissen das Zielmodell sondieren muss). Diese Annahme ist praktischer, als den Angreifer über die internen Vorgänge des Klassifikators zu informieren. Angesichts dieses begrenzten Wissens wollen wir den Sondierungsprozess entfernen und effektive AEs erstellen.
Bestehende Studien haben sich auf ein breites Spektrum von Aspekten bezüglich Ground-Truth-trainierter AEs (GT-AEs) konzentriert. Die Konzepte „Papageisprache“ und „Papageitraining“ schaffen einen neuen AEs-Typ, die „Papageitrainings-AEs“ (PT-AEs), und werfen drei wichtige Fragen zur Durchführbarkeit und Effektivität von PT-AEs im Hinblick auf einen praktischen Black-Box-Angriff auf: (i) Kann ein PT-Modell ein GT-Modell approximieren? (ii) Sind auf einem PT-Modell aufbauende PT-AEs genauso übertragbar wie GT-AEs auf ein Black-Box-GT-Modell? (iii) Wie lässt sich die Generierung von PT-AEs im Hinblick auf einen effektiven Black-Box-Angriff optimieren? Abb. 1 zeigt unser allgemeines Vorgehen zur Beantwortung dieser Fragen im Hinblick auf einen neuen, praktischen Black-Box-Angriff ohne Sondierungsaufbau: (1) In Abschnitt III schlagen wir eine zweistufige One-Shot-Konvertierungsmethode zur Erstellung von Papageisprache für das Papageitraining vor; (2) in Abschnitt IV untersuchen wir unterschiedliche Arten der Generierung von PT-AEs aus einem PT-Modell im Hinblick auf ihre Übertragbarkeit und Wahrnehmungsqualität; und (3) wir formulieren in Abschnitt V einen optimierten Blackbox-Angriff auf der Grundlage von PT-AEs. Anschließend führen wir in Abschnitt VI umfassende Bewertungen durch, um die Auswirkungen des vorgeschlagenen Angriffs auf kommerzielle Audiosysteme zu verstehen.
D. Bedrohungsmodell
In diesem Artikel betrachten wir einen Angreifer, der versucht, eine Audio-AE zu erstellen, um ein Sprechererkennungsmodell so zu täuschen, dass das Modell die AE als Stimme eines Zielsprechers erkennt. Wir gehen von einer Black-Box-Angriffsannahme aus, bei der der Angreifer keine Kenntnisse über die Architektur, Parameter und Trainingsdaten hat, die im Spracherkennungsmodell verwendet werden. Wir gehen davon aus, dass der Angreifer über eine sehr kurze Sprachprobe (einige Sekunden in unseren Auswertungen) des Zielsprechers verfügt, die in öffentlichen Umgebungen gesammelt werden kann [118], aber die Probe wird nicht unbedingt für das Training im Zielmodell verwendet. Wir konzentrieren uns auf ein realistischeres Szenario, in dem der Angreifer das Modell nicht sondiert, was sich von den meisten Black-Box-Angriffsstudien [113], [29], [118] unterscheidet, die viele Sondierungen erfordern. Wir gehen davon aus, dass der Angreifer die Over-the-Air-Injektion gegen das Modell starten muss (z. B. Amazon Echo, Apple HomePod und Google Assistant).
Dieses Dokument ist auf arxiv unter der Lizenz CC0 1.0 DEED verfügbar .