paint-brush
Die praktische Anwendbarkeit von Black-Box-Audioangriffen auf Sprechererkennungsmodelle weiter ausbauenvon@botbeat
134 Lesungen

Die praktische Anwendbarkeit von Black-Box-Audioangriffen auf Sprechererkennungsmodelle weiter ausbauen

Zu lang; Lesen

Beim Training von Parrot wird nur minimales Wissen (eine kurze Sprachprobe) verwendet, um wirksame Audiobeispiele gegen Gegner zu generieren. Dadurch werden hohe Erfolgsraten bei Black-Box-Angriffen auf Sprechererkennungssysteme erzielt.
featured image - Die praktische Anwendbarkeit von Black-Box-Audioangriffen auf Sprechererkennungsmodelle weiter ausbauen
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autoren:

(1) Rui Duan University of South Florida Tampa, USA (E-Mail: [email protected]);

(2) Zhe Qu Central South University Changsha, China (E-Mail: [email protected]);

(3) Leah Ding American University Washington, DC, USA (E-Mail: [email protected]);

(4) Yao Liu University of South Florida Tampa, USA (E-Mail: [email protected]);

(5) Yao Liu University of South Florida Tampa, USA (E-Mail: [email protected]).

Linktabelle

Zusammenfassung und Einleitung

Hintergrund und Motivation

Papageientraining: Machbarkeit und Evaluation

PT-AE-Generation: Eine gemeinsame Übertragbarkeits- und Wahrnehmungsperspektive

Optimierte Black-Box PT-AE-Angriffe

Experimentelle Auswertungen

Ähnliche Projekte

Schlussfolgerung und Referenzen

Anhang


Zusammenfassung – Audio-Adversarial-Beispiele (AEs) haben für reale Sprechererkennungssysteme erhebliche Sicherheitsherausforderungen mit sich gebracht. Die meisten Black-Box-Angriffe erfordern für ihre Wirksamkeit immer noch bestimmte Informationen aus dem Sprechererkennungsmodell (z. B. ständiges Sondieren und Kenntnis der Ähnlichkeitswerte). Ziel dieser Arbeit ist es, die Praktikabilität der Black-Box-Angriffe zu erhöhen, indem das Wissen des Angreifers über ein Zielsprechererkennungsmodell minimiert wird. Obwohl es für einen Angreifer nicht möglich ist, mit völlig null Wissen erfolgreich zu sein, gehen wir davon aus, dass der Angreifer nur eine kurze (oder wenige Sekunden lange) Sprachprobe eines Zielsprechers kennt. Ohne Sondieren, um weiteres Wissen über das Zielmodell zu erlangen, schlagen wir einen neuen Mechanismus namens Parrot-Training vor, um AEs gegen das Zielmodell zu generieren. Motiviert durch die jüngsten Fortschritte bei der Stimmkonvertierung (VC) schlagen wir vor, das Wissen über einen kurzen Satz zu verwenden, um mehr synthetische Sprachproben zu generieren, die wie der Zielsprecher klingen, sogenannte Parrot-Sprache. Dann verwenden wir diese Parrot-Sprachproben, um ein Parrot-trainiertes (PT) Ersatzmodell für den Angreifer zu trainieren. Im Rahmen eines gemeinsamen Übertragbarkeits- und Wahrnehmungsrahmens untersuchen wir verschiedene Möglichkeiten zur Generierung von AEs auf dem PT-Modell (sogenannte PT-AEs), um sicherzustellen, dass die PT-AEs mit hoher Übertragbarkeit auf ein Black-Box-Zielmodell mit guter menschlicher Wahrnehmungsqualität generiert werden können. Reale Experimente zeigen, dass die resultierenden PT-AEs Angriffserfolgsraten von 45,8 %–80,8 % gegen die Open-Source-Modelle im Digitalleitungsszenario und 47,9 %–58,3 % gegen Smartgeräte, darunter Apple HomePod (Siri), Amazon Echo und Google Home, im Over-the-Air-Szenario erreichen[1].

I. EINLEITUNG

Adversarial Speech Attacks gegen Spracherkennung [28], [114], [72], [101], [105], [32], [43], [118] und Sprechererkennung [43], [29], [118] sind zu einem der aktivsten Forschungsgebiete des maschinellen Lernens in der Computer-Audiosicherheit geworden. Diese Angriffe erzeugen Audio-Adversarial-Examples (AEs), die den Sprachklassifizierer entweder in White-Box- [28], [114], [72], [52] oder Black-Box-Einstellungen [105], [32], [43], [118], [29], [74], [17] fälschen können. Im Vergleich zu White-Box-Angriffen, die die vollständige Kenntnis eines Ziel-Audioklassifizierungsmodells erfordern, setzen Blackbox-Angriffe diese vollständige Kenntnis nicht voraus und wurden in der Literatur unter verschiedenen Angriffsszenarien untersucht [29], [118]. Trotz der erheblichen Fortschritte bei der Entwicklung von Blackbox-Angriffen kann ihre Durchführung in realen Szenarien immer noch eine Herausforderung darstellen, da der Angreifer nach wie vor Informationen aus dem Zielmodell abrufen muss.


Im Allgemeinen kann der Angreifer einen Abfrage- (oder Sondierungs-)Prozess verwenden, um das Zielmodell schrittweise kennenzulernen: Er sendet wiederholt ein Sprachsignal an das Zielmodell und misst dann entweder das Konfidenzniveau/den Vorhersagewert [32], [43], [29] oder die endgültigen Ausgabeergebnisse [118], [113] eines Klassifikators. Der Sondierungsvorgang erfordert normalerweise eine große Anzahl von Interaktionen (z. B. über 1000 Abfragen [113]), was viel Arbeit und Zeit kosten kann. Dies kann im digitalen Bereich funktionieren, beispielsweise durch die Interaktion mit lokalen Modellen des maschinellen Lernens (z. B. Kaldi-Toolkit [93]) oder kommerziellen Online-Plattformen (z. B. Microsoft Azure [12]). Es kann jedoch noch umständlicher oder sogar unmöglich sein, physische Geräte zu sondieren, da die heutigen intelligenten Geräte (z. B. Amazon Echo [2]) menschliche Sprache über Funk akzeptieren. Darüber hinaus muss davon ausgegangen werden, dass dem Angreifer einige interne Kenntnisse des Zielmodells bekannt sind (z. B. der Zugriff auf die Ähnlichkeitswerte des Zielmodells [29], [113]). In zwei aktuellen Studien wurde das Wissen des Angreifers noch weiter eingeschränkt: (i) [118] er kannte nur den einzeiligen Redefluss des Zielsprechers [118] und musste nachforschen, um die Hard-Label-Ergebnisse (Akzeptieren oder Ablehnen) des Zielmodells zu erhalten (z. B. über 10.000 Mal) und (ii) [30] er kannte nur den einzeiligen Redefluss jedes im Zielmodell registrierten Sprechers.


In diesem Artikel präsentieren wir eine neue, noch praktischere Perspektive für Black-Box-Angriffe gegen Sprechererkennung. Wir stellen zunächst fest, dass die praktischste Angriffsannahme darin besteht, den Angreifer nichts über das Zielmodell wissen zu lassen und das Modell niemals zu testen. Ein solches völliges Nullwissen des Angreifers führt jedoch wahrscheinlich nicht zu effektiven Audio-AEs. Wir müssen ein gewisses Wissen annehmen, es aber im Hinblick auf die Angriffspraktikabilität auf einem Mindestniveau halten. Unsere Arbeit beschränkt das Wissen des Angreifers auf nur eine ein Satz (oder ein paar Sekunden) lange Sprachprobe seines Zielsprechers, ohne weitere Informationen über das Zielmodell zu kennen. Der Angreifer hat weder Wissen noch Zugriff auf die internen Vorgänge des Zielmodells. Darüber hinaus testet er den Klassifikator nicht und muss die Klassifizierungsergebnisse (weder weiche noch harte Bezeichnungen) nicht beobachten. Nach bestem Wissen ist unsere Annahme des Wissens des Angreifers im Vergleich zu früheren Arbeiten (insbesondere zu den beiden jüngsten Angriffen [118], [30]) die eingeschränkteste.


Basierend auf diesem ein-Satz-Wissen über den Zielsprecher besteht unser grundlegender Angriffsrahmen darin, (i) ein neues Trainingsverfahren namens „Papagei-Training“ vorzuschlagen, das eine ausreichende Anzahl synthetischer Sprachproben des Zielsprechers generiert und diese zum Erstellen eines „Papagei-trainierten“ (PT) Modells für einen weiteren Übertragungsangriff verwendet, und (ii) die Übertragbarkeit und Wahrnehmung verschiedener AE-Generierungsmechanismen systematisch zu bewerten und PT-Modell-basierte AEs (PT-AEs) für hohe Angriffserfolgsraten und gute Audioqualität zu erstellen.


Unsere Motivation hinter dem Parrot-Training ist, dass die jüngsten Fortschritte im Bereich der Stimmkonvertierung (VC) gezeigt haben, dass die One-Shot-Sprachmethoden [34], [77], [110], [31] in der Lage sind, die semantischen menschlichen Sprachmerkmale zu nutzen, um Sprachproben zu erzeugen, die in verschiedenen sprachlichen Inhalten wie die Stimme eines Zielsprechers klingen. Basierend auf dem Ein-Satz-Wissen des Angreifers sollten wir in der Lage sein, verschiedene synthetische Sprachproben seines Zielsprechers zu erzeugen und diese zum Aufbau eines PT-Modells zur Sprechererkennung zu verwenden. Unsere Machbarkeitsbewertungen zeigen, dass ein PT-Modell eine ähnliche Leistung erbringen kann wie ein Ground-Truth-trainiertes (GT) Modell, das die tatsächlichen Sprachproben des Zielsprechers verwendet.


Die Ähnlichkeit zwischen PT- und GT-Modellen wirft eine neue, interessante Frage der Übertragbarkeit auf: Wenn wir ein PT-AE aus einem PT-Modell erstellen, kann es dann eine ähnliche Leistung erbringen wie ein aus dem GT-Modell (GT-AE) generiertes AE und auf ein Black-Box-Ziel-GT-Modell übertragen werden? Die Übertragbarkeit im kontroversen maschinellen Lernen ist bereits ein faszinierendes Konzept. Es wurde beobachtet, dass die Übertragbarkeit von vielen Aspekten abhängt, wie z. B. Modellarchitektur, Modellparametern, Trainingsdatensatz und Angriffsalgorithmen [79], [76]. Bestehende AE-Bewertungen konzentrierten sich hauptsächlich auf GT-AEs auf GT-Modellen ohne Einbeziehung synthetischer Daten. Daher führen wir eine umfassende Studie zu PT-AEs im Hinblick auf ihre Generierung und Qualität durch.



• Qualität: Wir müssen zunächst eine Qualitätsmetrik definieren, um zu quantifizieren, ob ein PT-AE gut ist oder nicht. Es gibt zwei wichtige Faktoren für PT-AEs: (i) Übertragbarkeit von PT-AEs auf ein Blackbox-Zielmodell. Wir verwenden die Übereinstimmungsrate, die im Bildbereich umfassend untersucht wurde [79], um die Übertragbarkeit zu messen. Die Übereinstimmungsrate ist definiert als der Prozentsatz der PT-AEs, die in einem Blackbox-GT-Modell immer noch als dieselbe Zielbezeichnung fehlklassifiziert werden können. (ii) Die Wahrnehmungsqualität von Audio-AEs. Wir führen eine Studie mit Menschen durch, bei der menschliche Teilnehmer die Sprachqualität von AEs mit verschiedenen Trägertypen auf einer einheitlichen Wahrnehmungsskala von 1 (das Schlechteste) bis 7 (das Beste) bewerten, die häufig in Sprachbewertungsstudien verwendet wird [47], [108], [23], [19], [91], [36], und erstellen dann Regressionsmodelle, um menschliche Bewertungen der Sprachqualität vorherzusagen. Diese beiden Faktoren sind jedoch im Allgemeinen widersprüchlich, da ein hohes Maß an Übertragbarkeit wahrscheinlich zu einer schlechten Wahrnehmungsqualität führt. Anschließend definieren wir eine neue Metrik namens Transferability-Perception Ratio (TPR) für PT-AEs, die mit einem bestimmten Trägertyp generiert werden. Diese Metrik basiert auf ihrer Übereinstimmungsrate und ihrem durchschnittlichen Wahrnehmungswert und quantifiziert den Grad der Übertragbarkeit, den ein Trägertyp bei der Verschlechterung eines Einheitswerts der menschlichen Wahrnehmung erreichen kann. Ein hoher TPR kann als hohe Übertragbarkeit interpretiert werden, die durch relativ geringe Kosten der Wahrnehmungsverschlechterung erreicht wird.


(i) Abfragen: Angabe der typischen Anzahl von Sonden, die zur Interaktion mit dem Blackbox-Zielmodell erforderlich sind. (ii) Weiche Ebene: der Konfidenzwert [32] oder der Vorhersagewert [101], [105], [32], [29], [113] des Zielmodells. (iii) Harte Ebene: Akzeptieren oder Ablehnen des Ergebnisses [118], [74] des Zielmodells. (iv) QFA2SR [30] erfordert die Sprachprobe jedes im Zielmodell registrierten Sprechers. (v) Menschliche Wahrnehmung bedeutet, den Faktor der menschlichen Wahrnehmung in die AE-Generierung zu integrieren.


Im Rahmen des TPR-Frameworks formulieren wir einen zweistufigen PTAE-Angriff, der drahtlos gegen ein Black-Box-Zielmodell gestartet werden kann. In der ersten Phase grenzen wir von einem vollständigen Satz von Trägern auf eine Teilmenge von Kandidaten mit hohen TPRs für den Zielsprecher des Angreifers ein. In der zweiten Phase übernehmen wir eine auf Ensemble-Lernen basierende Formulierung [76], die die besten Trägerkandidaten aus der ersten Phase auswählt und ihre Hörmerkmale manipuliert, um ein gemeinsames Verlustziel aus Angriffseffektivität und menschlicher Wahrnehmung zu minimieren. Reale Experimente zeigen, dass der vorgeschlagene PT-AE-Angriff Erfolgsraten von 45,8 % bis 80,8 % gegen Open-Source-Modelle im digitalen Leitungsszenario und 47,9 % bis 58,3 % gegen intelligente Geräte, darunter Apple HomePod (Siri), Amazon Echo und Google Home, im drahtlosen Szenario erreicht. Im Vergleich zu den beiden aktuellen Angriffsstrategien Smack [113] und QFA2SR [30] erzielt unsere Strategie Verbesserungen von 263,7 % (Angriffserfolg) und 10,7 % (menschliche Wahrnehmung) gegenüber Smack sowie von 95,9 % (Angriffserfolg) und 44,9 % (menschliche Wahrnehmung) gegenüber QFA2SR. Tabelle I bietet einen Vergleich des erforderlichen Wissens zwischen dem vorgeschlagenen PT-AE-Angriff und bestehenden Strategien.


Unser Hauptbeitrag kann wie folgt zusammengefasst werden. (i) Wir schlagen ein neues Konzept des PT-Modells vor und untersuchen modernste VC-Methoden, um Papageiensprachproben zu generieren und so ein Ersatzmodell für einen Angreifer zu erstellen, der nur einen Satz des Zielsprechers kennt. (ii) Wir schlagen ein neues TPR-Framework vor, um die Übertragbarkeit und Wahrnehmungsqualität für PT-AE-Generationen mit verschiedenen Trägertypen gemeinsam zu bewerten. (iii) Wir erstellen eine zweistufige PT-AE-Angriffsstrategie, die sich als effektiver als bestehende Angriffsstrategien erwiesen hat und gleichzeitig nur ein Mindestmaß an Wissen des Angreifers erfordert.



[1] Unsere Angriffsdemo finden Sie unter: https://sites.google.com/view/pt-attack-demo