paint-brush
Renforcer le caractère pratique des attaques audio par boîte noire contre les modèles de reconnaissance de locuteurspar@botbeat
134 lectures

Renforcer le caractère pratique des attaques audio par boîte noire contre les modèles de reconnaissance de locuteurs

Trop long; Pour lire

La formation Parrot utilise un minimum de connaissances (un court échantillon de parole) pour générer des exemples contradictoires audio efficaces, obtenant ainsi des taux de réussite élevés dans les attaques par boîte noire contre les systèmes de reconnaissance de locuteurs.
featured image - Renforcer le caractère pratique des attaques audio par boîte noire contre les modèles de reconnaissance de locuteurs
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Auteurs:

(1) Université Rui Duan de Floride du Sud, Tampa, États-Unis (e-mail : [email protected]) ;

(2) Université Zhe Qu Central South Changsha, Chine (e-mail : [email protected]) ;

(3) Université américaine Leah Ding, Washington, DC, États-Unis (e-mail : [email protected]) ;

(4) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : [email protected]) ;

(5) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : [email protected]).

Tableau des liens

Résumé et introduction

Contexte et motivation

Formation Parrot : faisabilité et évaluation

Génération PT-AE : une perspective conjointe de transférabilité et de perception

Attaques PT-AE optimisées par boîte noire

Évaluations expérimentales

Travaux connexes

Conclusion et références

annexe


Résumé — Les exemples contradictoires audio (AE) ont posé des défis de sécurité importants aux systèmes de reconnaissance de locuteurs du monde réel. La plupart des attaques par boîte noire nécessitent toujours certaines informations du modèle de reconnaissance du locuteur pour être efficaces (par exemple, continuer à sonder et exiger la connaissance des scores de similarité). Ce travail vise à renforcer le caractère pratique des attaques par boîte noire en minimisant les connaissances de l'attaquant sur un modèle de reconnaissance du locuteur cible. Bien qu’il ne soit pas possible pour un attaquant de réussir avec une connaissance totalement nulle, nous supposons que l’attaquant ne connaît qu’un court (ou quelques secondes) échantillon de parole d’un locuteur cible. Sans aucune recherche pour approfondir nos connaissances sur le modèle cible, nous proposons un nouveau mécanisme, appelé entraînement par perroquet, pour générer des AE par rapport au modèle cible. Motivés par les récents progrès en matière de conversion vocale (VC), nous proposons d'utiliser la connaissance d'une phrase courte pour générer des échantillons de parole plus synthétiques qui ressemblent à ceux du locuteur cible, appelés discours de perroquet. Ensuite, nous utilisons ces échantillons de parole de perroquet pour former un modèle de substitution formé par un perroquet (PT) pour l'attaquant. Dans un cadre commun de transférabilité et de perception, nous étudions différentes manières de générer des AE sur le modèle PT (appelés PT-AE) afin de garantir que les PT-AE peuvent être générés avec une transférabilité élevée vers un modèle cible boîte noire avec une bonne qualité de perception humaine. Des expériences réelles montrent que les PT-AE résultants atteignent des taux de réussite d'attaque de 45,8 % à 80,8 % contre les modèles open source dans le scénario de ligne numérique et de 47,9 % à 58,3 % contre les appareils intelligents, y compris Apple HomePod (Siri). , Amazon Echo et Google Home, dans le scénario en direct[1].

INTRODUCTION

Attaques vocales contradictoires contre la reconnaissance vocale [28], [114], [72], [101], [105], [32], [43], [118] et la reconnaissance du locuteur [43], [29], [118 ] sont devenus l'un des domaines de recherche les plus actifs en matière d'apprentissage automatique dans le domaine de la sécurité audio informatique. Ces attaques créent des exemples contradictoires audio (AE) qui peuvent usurper le classificateur de parole dans des paramètres de boîte blanche [28], [114], [72], [52] ou de boîte noire [105], [32], [43]. ], [118], [29], [74], [17]. Comparées aux attaques boîte blanche qui nécessitent la connaissance complète d'un modèle de classification audio cible, les attaques boîte noire ne supposent pas une connaissance complète et ont été étudiées dans la littérature sous différents scénarios d'attaque [29], [118]. Malgré les progrès substantiels réalisés dans la conception des attaques boîte noire, leur lancement peut encore s’avérer difficile dans des scénarios réels dans la mesure où l’attaquant doit toujours obtenir des informations à partir du modèle cible.


Généralement, l'attaquant peut utiliser un processus de requête (ou de sondage) pour connaître progressivement le modèle cible : envoyer de manière répétée un signal vocal au modèle cible, puis mesurer soit le niveau de confiance/le score de prédiction [32], [43], [29] ou les résultats de sortie finaux [118], [113] d'un classificateur. Le processus de sondage nécessite généralement un grand nombre d'interactions (par exemple, plus de 1 000 requêtes [113]), ce qui peut coûter beaucoup de temps et de travail. Cela peut fonctionner dans le domaine numérique, par exemple en interagissant avec des modèles d'apprentissage automatique locaux (par exemple, la boîte à outils Kaldi [93]) ou des plateformes commerciales en ligne (par exemple, Microsoft Azure [12]). Cependant, il peut s'avérer encore plus fastidieux, voire impossible, de sonder des appareils physiques, car les appareils intelligents d'aujourd'hui (par exemple, Amazon Echo [2]) acceptent la parole humaine par voie hertzienne. De plus, certaines connaissances internes du modèle cible doivent encore être supposées connues de l'attaquant (par exemple, l'accès aux scores de similarité du modèle cible [29], [113]). Deux études récentes ont encore limité les connaissances de l'attaquant à (i) [118] ne connaissant que le discours d'une phrase du locuteur cible [118] et nécessitant une enquête pour obtenir les résultats définitifs (accepter ou rejeter) du modèle cible (par exemple, plus de 10 000 fois) et (ii) [30] ne connaissant que le discours d'une phrase pour chaque locuteur inscrit dans le modèle cible.


Dans cet article, nous présentons une nouvelle perspective, encore plus pratique, pour les attaques par boîte noire contre la reconnaissance du locuteur. Notons d’abord que l’hypothèse d’attaque la plus pratique est de ne rien savoir à l’attaquant du modèle cible et de ne jamais sonder le modèle. Cependant, une telle connaissance totalement nulle pour l’attaquant ne conduit probablement pas à des AE audio efficaces. Nous devons assumer certaines connaissances mais les maintenir au niveau minimum pour l'aspect pratique de l'attaque. Notre travail limite les connaissances de l'attaquant à seulement un échantillon de parole d'une phrase (ou quelques secondes) de son locuteur cible sans connaître aucune autre information sur le modèle cible. L’attaquant n’a ni connaissance ni accès aux composants internes du modèle cible. De plus, elle ne sonde pas le classificateur et n'a besoin d'aucune observation des résultats de classification (étiquettes souples ou dures). A notre connaissance, notre hypothèse sur la connaissance de l'attaquant est la plus restreinte par rapport aux travaux antérieurs (notamment avec les deux attaques récentes [118], [30]).


Centré sur cette connaissance d'une phrase du locuteur cible, notre cadre d'attaque de base consiste à (i) proposer une nouvelle procédure d'entraînement, appelée entraînement au perroquet, qui génère un nombre suffisant d'échantillons de parole synthétiques du locuteur cible et les utilise pour construire une modèle formé par perroquet (PT) pour une attaque de transfert supplémentaire, et (ii) évaluer systématiquement la transférabilité et la perception des différents mécanismes de génération d'AE et créer des AE basés sur le modèle PT (PT-AE) vers des taux de réussite d'attaque élevés et une bonne qualité audio.


Notre motivation derrière la formation des perroquets est que les progrès récents dans le domaine de la conversion vocale (VC) ont montré que les méthodes vocales ponctuelles [34], [77], [110], [31] sont capables d'exploiter la parole sémantique humaine. fonctionnalités permettant de générer des échantillons de parole qui ressemblent à la voix d'un locuteur cible dans différents contenus linguistiques. Sur la base de la connaissance d'une phrase de l'attaquant, nous devrions être capables de générer différents échantillons de parole synthétiques de son locuteur cible et de les utiliser pour construire un modèle PT pour la reconnaissance du locuteur. Nos évaluations de faisabilité montrent qu'un modèle PT peut fonctionner de manière similaire à un modèle formé à la vérité terrain (GT) qui utilise les échantillons de parole réels du locuteur cible.


La similitude entre les modèles PT et GT crée une nouvelle question intéressante de transférabilité : si nous créons un PT-AE à partir d'un modèle PT, peut-il fonctionner de la même manière qu'un AE généré à partir du modèle GT (GT-AE) et être transféré vers un modèle noir. -box modèle GT cible ? La transférabilité dans l’apprentissage automatique contradictoire est déjà un concept intrigant. Il a été observé que la transférabilité dépend de nombreux aspects, tels que l'architecture du modèle, les paramètres du modèle, l'ensemble de données d'entraînement et les algorithmes d'attaque [79], [76]. Les évaluations AE existantes se sont principalement concentrées sur les GT-AE sur les modèles GT sans impliquer de données synthétiques. En conséquence, nous menons une étude approfondie sur les PT-AE en termes de génération et de qualité.



• Qualité : Nous devons d'abord définir une métrique de qualité pour quantifier si un PT-AE est bon ou non. Il existe deux facteurs importants pour les PT-AE : (i) la transférabilité des PT-AE vers un modèle cible boîte noire. Nous adoptons le taux de correspondance, qui a été étudié de manière approfondie dans le domaine de l'image [79], pour mesurer la transférabilité. Le taux de correspondance est défini comme le pourcentage de PT-AE qui peuvent encore être mal classés comme la même étiquette cible sur un modèle GT à boîte noire. (ii) La qualité de perception des AE audio. Nous menons une étude humaine pour permettre aux participants humains d'évaluer la qualité de la parole des EI avec différents types de porteurs sur une échelle unifiée de score de perception allant de 1 (le pire) à 7 (le meilleur) couramment utilisée dans les études d'évaluation de la parole [47], [ 108], [23], [19], [91], [36], puis construisons des modèles de régression pour prédire les scores humains de qualité de la parole. Cependant, ces deux facteurs sont généralement contradictoires, car un niveau élevé de transférabilité se traduit probablement par une mauvaise qualité de perception. Nous définissons ensuite une nouvelle métrique appelée taux de transférabilité-perception (TPR) pour les PT-AE générés à l'aide d'un type spécifique de transporteurs. Cette métrique est basée sur leur taux de correspondance et leur score de perception moyen, et quantifie le niveau de transférabilité qu'un type de porteur peut atteindre en dégradant un score unitaire de perception humaine. Un TPR élevé peut être interprété comme une transférabilité élevée obtenue grâce à un coût relativement faible de dégradation de la perception.


(i) Requêtes : indiquant le nombre typique de sondes nécessaires pour interagir avec le modèle cible de la boîte noire. (ii) Niveau soft : le score de confiance [32] ou le score de prédiction [101], [105], [32], [29], [113] du modèle cible. (iii) Étiquette dure : accepter ou rejeter le résultat [118], [74] du modèle cible. (iv) QFA2SR [30] nécessite l'échantillon de parole de chaque locuteur inscrit dans le modèle cible. (v) La perception humaine signifie intégrer le facteur de perception humaine dans la génération AE.


Dans le cadre du TPR, nous formulons une attaque PTAE en deux étapes qui peut être lancée par voie aérienne contre un modèle de cible de type boîte noire. Dans la première étape, nous passons d'un ensemble complet de porteurs à un sous-ensemble de candidats présentant des TPR élevés pour le locuteur cible de l'attaquant. Dans la deuxième étape, nous adoptons une formulation basée sur l'apprentissage d'ensemble [76] qui sélectionne les meilleurs candidats porteurs de la première étape et manipule leurs caractéristiques auditives pour minimiser un objectif de perte conjoint d'efficacité d'attaque et de perception humaine. Des expériences réelles montrent que l'attaque PT-AE proposée atteint des taux de réussite de 45,8 % à 80,8 % contre les modèles open source dans le scénario de ligne numérique et de 47,9 % à 58,3 % contre les appareils intelligents, y compris Apple HomePod (Siri). Amazon Echo et Google Home, dans le scénario en direct. Par rapport à deux stratégies d'attaque récentes Smack [113] et QFA2SR [30], notre stratégie atteint des améliorations de 263,7 % (succès de l'attaque) et 10,7 % (score de perception humaine) par rapport à Smack, et de 95,9 % (succès de l'attaque) et 44,9 % (score de perception humaine). score de perception) par rapport à QFA2SR. Le tableau I fournit une comparaison des connaissances requises entre l'attaque PT-AE proposée et les stratégies existantes.


Notre contribution majeure peut être résumée comme suit. (i) Nous proposons un nouveau concept de modèle PT et étudions les méthodes VC de pointe pour générer des échantillons de parole de perroquet afin de construire un modèle de substitution pour un attaquant connaissant une seule phrase du locuteur cible. (ii) Nous proposons un nouveau cadre TPR pour évaluer conjointement la transférabilité et la qualité de perception pour les générations PT-AE avec différents types de porteurs. (iii) Nous créons une stratégie d'attaque PT-AE en deux étapes qui s'est avérée plus efficace que les stratégies d'attaque existantes, tout en exigeant le niveau minimum de connaissances de l'attaquant.


Cet article est disponible sur arxiv sous licence CC0 1.0 DEED.


[1] Notre démo d'attaque est disponible sur : https://sites.google.com/view/pt-attack-demo