Autores:  (1) Universidad Rui Duan del Sur de Florida Tampa, EE. UU. (correo electrónico: ruiduan@usf.edu);  (2) Universidad Zhe Qu Central Sur Changsha, China (correo electrónico: zhe_qu@csu.edu.cn);  (3) Universidad Americana Leah Ding Washington, DC, EE. UU. (correo electrónico: ding@american.edu);  (4) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: yliu@cse.usf.edu);  (5) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: yliu@cse.usf.edu).  Tabla de enlaces   Resumen e introducción   Antecedentes y motivación   Entrenamiento de loros: viabilidad y evaluación   Generación PT-AE: una perspectiva conjunta de transferibilidad y percepción   Ataques PT-AE de caja negra optimizados   Evaluaciones experimentales   Trabajo relacionado   Conclusión y referencias   Apéndice  II. ANTECEDENTES Y MOTIVACIÓN  En esta sección, primero presentamos los antecedentes del reconocimiento de locutor y luego describimos formulaciones de ataques adversarios de caja negra para crear EA de audio contra el reconocimiento de locutor.   A. Reconocimiento del orador  El reconocimiento de oradores se está volviendo cada vez más popular en los últimos años. Brinda a las máquinas la capacidad de identificar a un hablante a través de sus características personales del habla, lo que puede proporcionar servicios personalizados como un inicio de sesión conveniente [4] y una experiencia personalizada [1] para llamadas y mensajes. Comúnmente, la tarea de reconocimiento de locutores incluye tres fases: formación, inscripción y reconocimiento. Es importante resaltar que las tareas de reconocimiento de locutor [29], [118], [113] pueden ser (i) identificación de locutor (SI) basada en múltiples locutores o (ii) verificación de locutor (SV) basada en un solo locutor. . Específicamente, SI se puede dividir en identificación de conjunto cerrado (CSI) e identificación de conjunto abierto (OSI) [39], [29]. Proporcionamos información detallada en el Apéndice A.   B. Ataques de discurso adversarios  Dada una función de reconocimiento del hablante f, que toma una entrada de la señal de voz original x y genera una etiqueta del hablante y, un atacante adversario busca encontrar una pequeña señal de perturbación δ ∈ Ω para crear un AE de audio x + δ tal que  f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)  donde yt ̸= y es la etiqueta objetivo del atacante; Ω es el espacio de búsqueda de δ; D(x, x + δ) es una función de distancia que mide la diferencia entre el habla original x y el habla perturbada x+δ y puede ser la distancia basada en la norma Lp [29], [118] o una medida de la diferencia de características auditivas. (por ejemplo, qDev [44] y NISQA [113]); y ϵ limita el cambio de x a x + δ.  Una formulación común de ataque de caja blanca [28], [72] para resolver (1) se puede escribir como   donde J (·, ·) es la pérdida de predicción en el clasificador f al asociar la entrada x + δ a la etiqueta objetivo yt, que se supone conocida por el atacante; y c es un factor para equilibrar la efectividad del ataque y el cambio del discurso original.  Un ataque de caja negra no tiene conocimiento de J (·, ·) en (2) y por lo tanto tiene que adoptar un tipo diferente de formulación dependiendo de qué otra información pueda obtener del clasificador f. Si el ataque puede sondear el clasificador que da un resultado binario (aceptar o rechazar), el ataque [118], [74] puede formularse como   Dado que (3) contiene f(x + δ), el atacante tiene que crear una estrategia de sondeo para generar continuamente una versión diferente de δ y medir el resultado de f(x + δ) hasta que tenga éxito. En consecuencia, se requiere una gran cantidad de sondas (p. ej., más de 10 000 [118]), lo que hace que los ataques del mundo real sean menos prácticos contra modelos comerciales de reconocimiento de hablantes que aceptan señales de voz por aire.    C. Motivación del diseño  Para superar el engorroso proceso de sondeo de un ataque de caja negra, nuestro objetivo es encontrar una forma alternativa de crear ataques de caja negra prácticos. Dado el hecho de que un ataque de caja negra no es posible sin sondear o conocer algún conocimiento de un clasificador, adoptamos una suposición de conocimiento previo utilizada en [118] de que el atacante posee una muestra de audio muy corta del hablante objetivo (tenga en cuenta que [118] tiene que probar el modelo objetivo además de este conocimiento). Esta suposición es más práctica que dejar que el atacante conozca los aspectos internos del clasificador. Dado este conocimiento limitado, nuestro objetivo es eliminar el proceso de sondeo y crear EA efectivos.   Los estudios existentes se han centrado en una amplia gama de aspectos relacionados con los AE entrenados en tierra (GT-AE). Los conceptos de habla de loros y entrenamiento de loros crean un nuevo tipo de EA, los EA entrenados por loros (PT-AE), y también plantean tres cuestiones importantes sobre la viabilidad y eficacia de los PT-AE hacia un ataque práctico de caja negra: (i ) ¿Puede un modelo PT aproximarse a un modelo GT? (ii) ¿Los PT-AE se basan en un modelo PT tan transferibles como los GT-AE frente a un modelo GT de caja negra? (iii) ¿Cómo optimizar la generación de PT-AE hacia un ataque de caja negra eficaz? La Fig. 1 muestra el procedimiento general para que abordemos estas preguntas hacia un ataque de caja negra nuevo, práctico y sin sondeo: (1) proponemos un método de conversión de un solo paso en dos pasos para crear un discurso de loro para el entrenamiento de loros en la Sección III; (2) estudiamos diferentes tipos de generaciones PT-AE a partir de un modelo PT con respecto a su transferibilidad y calidad de percepción en la Sección IV; y (3) formulamos un ataque de caja negra optimizado basado en PT-AE en la Sección V. Luego, realizamos evaluaciones integrales para comprender el impacto del ataque propuesto en los sistemas de audio comerciales en la Sección VI.   D. Modelo de amenaza  En este artículo, consideramos un atacante que intenta crear un AE de audio para engañar a un modelo de reconocimiento de hablante de modo que el modelo reconozca el AE como la voz de un hablante objetivo. Adoptamos el supuesto de ataque de caja negra de que el atacante no tiene conocimiento sobre la arquitectura, los parámetros y los datos de entrenamiento utilizados en el modelo de reconocimiento de voz. Suponemos que el atacante tiene una muestra de discurso muy corta (unos pocos segundos en nuestras evaluaciones) del hablante objetivo, que puede recopilarse en entornos públicos [118], pero la muestra no se utiliza necesariamente para entrenar en el modelo objetivo. Nos centramos en un escenario más realista en el que el atacante no prueba el modelo, lo cual es diferente de la mayoría de los estudios de ataques de caja negra [113], [29], [118] que requieren muchas pruebas. Suponemos que el atacante necesita lanzar la inyección inalámbrica contra el modelo (por ejemplo, Amazon Echo, Apple HomePod y Google Assistant).  Este documento está   bajo licencia CC0 1.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Este audio es producido en el idioma original de la historia!

Comprender el reconocimiento del hablante y los ataques de discurso adversario

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Valhalla de Floki se une como patrocinador asociado de la gira de la India por Sri Lanka

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Valhalla de Floki se une como patrocinador asociado de la gira de la India por Sri Lanka

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps