Auteurs:  (1) Université Rui Duan de Floride du Sud, Tampa, États-Unis (e-mail : ruiduan@usf.edu) ;  (2) Université Zhe Qu Central South Changsha, Chine (e-mail : zhe_qu@csu.edu.cn) ;  (3) Université américaine Leah Ding, Washington, DC, États-Unis (e-mail : ding@american.edu) ;  (4) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : yliu@cse.usf.edu) ;  (5) Université Yao Liu de Floride du Sud, Tampa, États-Unis (e-mail : yliu@cse.usf.edu).  Tableau des liens   Résumé et introduction   Contexte et motivation   Formation Parrot : faisabilité et évaluation   Génération PT-AE : une perspective conjointe de transférabilité et de perception   Attaques PT-AE optimisées par boîte noire   Évaluations expérimentales   Travaux connexes   Conclusion et références   annexe  II. CONTEXTE ET MOTIVATION  Dans cette section, nous présentons d’abord le contexte de la reconnaissance du locuteur, puis décrivons les formulations d’attaques contradictoires en boîte noire pour créer des AE audio contre la reconnaissance du locuteur.   A. Reconnaissance du locuteur  La reconnaissance du locuteur devient de plus en plus populaire ces dernières années. Il apporte aux machines la capacité d'identifier un locuteur via ses caractéristiques vocales personnelles, ce qui peut fournir des services personnalisés tels qu'une connexion pratique [4] et une expérience personnalisée [1] pour les appels et la messagerie. Généralement, la tâche de reconnaissance du locuteur comprend trois phases : la formation, l'inscription et la reconnaissance. Il est important de souligner que les tâches de reconnaissance du locuteur [29], [118], [113] peuvent être soit (i) une identification du locuteur (SI) basée sur plusieurs locuteurs, soit (ii) une vérification du locuteur (SV) basée sur un seul locuteur. . Plus précisément, le SI peut être divisé en identification fermée (CSI) et identification ouverte (OSI) [39], [29]. Nous fournissons des informations détaillées à l’annexe A.   B. Attaques contradictoires  Étant donné une fonction de reconnaissance du locuteur f, qui prend une entrée du signal vocal original x et génère une étiquette de locuteur y, un attaquant adverse vise à trouver un petit signal de perturbation δ ∈ Ω pour créer un audio AE x + δ tel que  f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)  où yt ̸= y est l'étiquette cible de l'attaquant ; Ω est l'espace de recherche de δ ; D(x, x + δ) est une fonction de distance qui mesure la différence entre la parole originale x et la parole perturbée x+δ et peut être la distance basée sur la norme Lp [29], [118] ou une mesure de la différence des caractéristiques auditives. (par exemple, qDev [44] et NISQA [113]) ; et ϵ limite le changement de x à x + δ.  Une formulation d’attaque courante en boîte blanche [28], [72] pour résoudre (1) peut s’écrire sous la forme   où J (·, ·) est la perte de prédiction dans le classificateur f lors de l'association de l'entrée x + δ à l'étiquette cible yt, qui est supposée connue de l'attaquant ; et c est un facteur permettant d'équilibrer l'efficacité de l'attaque et le changement du discours original.  Une attaque boîte noire n'a aucune connaissance de J (·, ·) dans (2) et doit donc adopter un type de formulation différent en fonction des autres informations qu'elle peut obtenir du classificateur f. Si l’attaque peut sonder le classificateur qui donne un résultat binaire (accepter ou rejeter), l’attaque [118], [74] peut être formulée comme suit :   Puisque (3) contient f(x + δ), l'attaquant doit créer une stratégie de sondage pour générer en continu une version différente de δ et mesurer le résultat de f(x + δ) jusqu'à ce qu'il réussisse. En conséquence, un grand nombre de sondes (par exemple, plus de 10 000 [118]) sont nécessaires, ce qui rend les attaques réelles moins pratiques contre les modèles commerciaux de reconnaissance du locuteur qui acceptent les signaux vocaux par voie hertzienne.    C. Motivation de conception  Pour surmonter le processus fastidieux de sondage d’une attaque boîte noire, nous visons à trouver un moyen alternatif de créer des attaques pratiques par boîte noire. Étant donné qu’une attaque par boîte noire n’est pas possible sans sonder ou connaître une quelconque connaissance d’un classificateur, nous adoptons l’hypothèse de connaissance préalable utilisée dans [118] selon laquelle l’attaquant possède un très court échantillon audio du locuteur cible (notez que [118] doit sonder le modèle cible en plus de cette connaissance). Cette hypothèse est plus pratique que de laisser l'attaquant connaître les composants internes du classificateur. Compte tenu de ces connaissances limitées, nous visons à supprimer le processus de sondage et à créer des AE efficaces.   Les études existantes se sont concentrées sur un large éventail d’aspects concernant les AE formés à la vérité terrain (GT-AE). Les concepts de discours des perroquets et d'entraînement des perroquets créent un nouveau type d'AE, les AE entraînés par des perroquets (PT-AE), et soulèvent également trois questions majeures sur la faisabilité et l'efficacité des PT-AE dans le cadre d'une attaque pratique par boîte noire : (i ) Un modèle PT peut-il se rapprocher d'un modèle GT ? (ii) Les PT-AE construits sur un modèle PT sont-ils aussi transférables que les GT-AE par rapport à un modèle GT à boîte noire ? (iii) Comment optimiser la génération de PT-AE pour une attaque boîte noire efficace ? La figure 1 montre la procédure globale permettant de répondre à ces questions en vue d'une nouvelle attaque de boîte noire, pratique et sans sonde : (1) nous proposons une méthode de conversion unique en deux étapes pour créer la parole de perroquet pour l'entraînement des perroquets dans la section III ; (2) nous étudions différents types de générations PT-AE à partir d'un modèle PT concernant leur transférabilité et leur qualité de perception dans la section IV ; et (3) nous formulons une attaque boîte noire optimisée basée sur les PT-AE dans la section V. Ensuite, nous effectuons des évaluations complètes pour comprendre l'impact de l'attaque proposée sur les systèmes audio commerciaux dans la section VI.   D. Modèle de menace  Dans cet article, nous considérons un attaquant qui tente de créer un AE audio pour tromper un modèle de reconnaissance du locuteur de telle sorte que le modèle reconnaisse l'AE comme la voix d'un locuteur cible. Nous adoptons une attaque boîte noire en supposant que l'attaquant n'a aucune connaissance de l'architecture, des paramètres et des données de formation utilisés dans le modèle de reconnaissance vocale. Nous supposons que l'attaquant dispose d'un échantillon de parole très court (quelques secondes dans nos évaluations) du locuteur cible, qui peut être collecté dans des lieux publics [118], mais l'échantillon n'est pas nécessairement utilisé pour l'entraînement au modèle cible. Nous nous concentrons sur un scénario plus réaliste dans lequel l’attaquant ne sonde pas le modèle, ce qui est différent de la plupart des études d’attaques par boîte noire [113], [29], [118] qui nécessitent de nombreuses sondes. Nous supposons que l'attaquant doit lancer l'injection sans fil contre le modèle (par exemple, Amazon Echo, Apple HomePod et Google Assistant).  Cet article est   sous licence CC0 1.0 DEED. disponible sur arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Cet audio est produit dans la langue originale de l'histoire !

Comprendre la reconnaissance du locuteur et les attaques vocales contradictoires

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Télégramme : le pont de Crypto Island vers le continent

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

State of the Noonion: A New Era For Brands and Writers

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Télégramme : le pont de Crypto Island vers le continent

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

State of the Noonion: A New Era For Brands and Writers

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps