136 lecturas

Impulsando la practicidad de los ataques de audio de caja negra contra los modelos de reconocimiento de hablantes

por BotBeat.Tech: Trusted Generative AI Research Firm7m2024/06/11

Demasiado Largo; Para Leer

El entrenamiento de Parrot utiliza conocimientos mínimos (una breve muestra de discurso) para generar ejemplos de audio efectivos de confrontación, logrando altas tasas de éxito en ataques de caja negra contra sistemas de reconocimiento de hablantes.

featured image - Impulsando la practicidad de los ataques de audio de caja negra contra los modelos de reconocimiento de hablantes

‘loudspeaker’ Image created by HackerNoon AI Image Generator

Autores:

(1) Universidad Rui Duan del Sur de Florida Tampa, EE. UU. (correo electrónico: [email protected]);

(2) Universidad Zhe Qu Central Sur Changsha, China (correo electrónico: [email protected]);

(3) Universidad Americana Leah Ding Washington, DC, EE. UU. (correo electrónico: [email protected]);

(4) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: [email protected]);

(5) Universidad Yao Liu del Sur de Florida Tampa, EE. UU. (correo electrónico: [email protected]).

Tabla de enlaces

Resumen e introducción

Antecedentes y motivación

Entrenamiento de loros: viabilidad y evaluación

Generación PT-AE: una perspectiva conjunta de transferibilidad y percepción

Ataques PT-AE de caja negra optimizados

Evaluaciones experimentales

Trabajo relacionado

Conclusión y referencias

Apéndice

Resumen —Los ejemplos de audio contradictorio (EA) han planteado importantes desafíos de seguridad para los sistemas de reconocimiento de hablantes del mundo real. La mayoría de los ataques de caja negra todavía requieren cierta información del modelo de reconocimiento del hablante para ser efectivos (por ejemplo, seguir investigando y requerir el conocimiento de puntuaciones de similitud). Este trabajo tiene como objetivo impulsar la practicidad de los ataques de caja negra minimizando el conocimiento del atacante sobre un modelo de reconocimiento de hablante objetivo. Aunque no es factible que un atacante tenga éxito sin ningún conocimiento, suponemos que el atacante solo conoce una muestra de voz corta (o unos pocos segundos) de un hablante objetivo. Sin ningún tipo de investigación para obtener más conocimientos sobre el modelo objetivo, proponemos un nuevo mecanismo, llamado entrenamiento de loros, para generar EA contra el modelo objetivo. Motivados por los avances recientes en la conversión de voz (VC), proponemos utilizar el conocimiento de una oración corta para generar muestras de habla más sintéticas que suenen como el hablante objetivo, lo que se denomina discurso de loro. Luego, utilizamos estas muestras de discurso de loros para entrenar un modelo sustituto entrenado por loros (PT) para el atacante. Bajo un marco conjunto de transferibilidad y percepción, investigamos diferentes formas de generar EA en el modelo PT (llamados PT-AE) para garantizar que los PT-AE se puedan generar con alta transferibilidad a un modelo objetivo de caja negra con buena calidad de percepción humana. Los experimentos del mundo real muestran que los PT-AE resultantes logran tasas de éxito de ataque del 45,8 % al 80,8 % contra los modelos de código abierto en el escenario de línea digital y del 47,9 % al 58,3 % contra dispositivos inteligentes, incluido Apple HomePod (Siri). , Amazon Echo y Google Home, en el escenario inalámbrico[1].

I. INTRODUCCIÓN

Ataques de discurso contradictorio contra el reconocimiento de voz [28], [114], [72], [101], [105], [32], [43], [118] y el reconocimiento del hablante [43], [29], [118 ] se han convertido en una de las áreas de investigación más activas del aprendizaje automático en la seguridad del audio informático. Estos ataques crean ejemplos de audio adversarial (AE) que pueden falsificar el clasificador de voz en configuraciones de caja blanca [28], [114], [72], [52] o de caja negra [105], [32], [43. ], [118], [29], [74], [17]. En comparación con los ataques de caja blanca que requieren el conocimiento completo de un modelo de clasificación de audio objetivo, los ataques de caja negra no asumen el conocimiento completo y han sido investigados en la literatura bajo diferentes escenarios de ataque [29], [118]. A pesar del progreso sustancial en el diseño de ataques de caja negra, todavía puede resultar difícil lanzarlos en escenarios del mundo real, ya que el atacante aún debe obtener información del modelo objetivo.

Generalmente, el atacante puede utilizar un proceso de consulta (o sondeo) para conocer gradualmente el modelo objetivo: enviar repetidamente una señal de voz al modelo objetivo y luego medir el nivel de confianza o la puntuación de predicción [32], [43], [29]. o los resultados de salida finales [118], [113] de un clasificador. El proceso de sondeo generalmente requiere una gran cantidad de interacciones (por ejemplo, más de 1000 consultas [113]), lo que puede costar mucho trabajo y tiempo. Esto puede funcionar en la línea digital, como interactuar con modelos locales de aprendizaje automático (por ejemplo, Kaldi Toolkit [93]) o plataformas comerciales en línea (por ejemplo, Microsoft Azure [12]). Sin embargo, puede ser aún más engorroso, si no posible, sondear dispositivos físicos porque los dispositivos inteligentes actuales (por ejemplo, Amazon Echo [2]) aceptan el habla humana por aire. Además, todavía se debe asumir que el atacante conoce algún conocimiento interno del modelo objetivo (por ejemplo, el acceso a las puntuaciones de similitud del modelo objetivo [29], [113]). Dos estudios recientes limitaron aún más el conocimiento del atacante a (i) [118] conocer únicamente el discurso de una sola frase del hablante objetivo [118] y requerir sondeo para obtener los resultados rígidos (aceptar o rechazar) del modelo objetivo (por ejemplo, más de 10,000 veces) y (ii) [30] solo conoce el discurso de una oración para cada hablante inscrito en el modelo objetivo.

En este artículo, presentamos una perspectiva nueva, aún más práctica, para los ataques de caja negra contra el reconocimiento del hablante. Primero observamos que la suposición de ataque más práctica es dejar que el atacante no sepa nada sobre el modelo objetivo y nunca probar el modelo. Sin embargo, es poco probable que un atacante con ese conocimiento tan nulo conduzca a EA de audio eficaces. Tenemos que asumir algunos conocimientos pero mantenerlos en el nivel mínimo para la practicidad del ataque. Nuestro trabajo limita el conocimiento del atacante a ser solo una muestra de discurso de una frase (o unos pocos segundos) de su hablante objetivo sin conocer ninguna otra información sobre el modelo objetivo. El atacante no tiene conocimiento ni acceso a las partes internas del modelo objetivo. Además, no prueba el clasificador y no necesita observación de los resultados de la clasificación (ya sean etiquetas blandas o duras). Hasta donde sabemos, nuestra suposición del conocimiento del atacante es la más restringida en comparación con trabajos anteriores (en particular con los dos ataques recientes [118], [30]).

Centrado en este conocimiento de una sola frase del hablante objetivo, nuestro marco de ataque básico es (i) proponer un nuevo procedimiento de entrenamiento, llamado entrenamiento de loros, que genera una cantidad suficiente de muestras de habla sintética del hablante objetivo y las utiliza para construir un modelo entrenado por loros (PT) para un ataque de transferencia adicional, y (ii) evaluar sistemáticamente la transferibilidad y percepción de diferentes mecanismos de generación de AE y crear AE basados en modelos PT (PT-AE) para lograr altas tasas de éxito de ataque y buena calidad de audio.

Nuestra motivación detrás del entrenamiento de loros es que los avances recientes en el dominio de conversión de voz (VC) han demostrado que los métodos de habla de una sola vez [34], [77], [110], [31] son capaces de aprovechar la semántica del habla humana. funciones para generar muestras de voz que suenan como la voz de un hablante objetivo en diferentes contenidos lingüísticos. Basándonos en el conocimiento de una sola frase del atacante, deberíamos poder generar diferentes muestras de voz sintéticas de su hablante objetivo y utilizarlas para construir un modelo PT para el reconocimiento del hablante. Nuestras evaluaciones de viabilidad muestran que un modelo PT puede funcionar de manera similar a un modelo entrenado en la verdad sobre el terreno (GT) que utiliza muestras de habla reales del hablante objetivo.

La similitud entre los modelos PT y GT crea una nueva e interesante cuestión de transferibilidad: si creamos un PT-AE a partir de un modelo PT, ¿puede funcionar de manera similar a un AE generado a partir del modelo GT (GT-AE) y transferirlo a un modelo negro? -caja objetivo modelo GT? La transferibilidad en el aprendizaje automático adversario ya es un concepto intrigante. Se ha observado que la transferibilidad depende de muchos aspectos, como la arquitectura del modelo, los parámetros del modelo, el conjunto de datos de entrenamiento y los algoritmos de ataque [79], [76]. Las evaluaciones de AE existentes se han centrado principalmente en GT-AE en modelos GT sin involucrar datos sintéticos. Por ello, realizamos un estudio exhaustivo de los PT-AE en cuanto a su generación y calidad.

• Calidad: Primero necesitamos definir una métrica de calidad para cuantificar si un PT-AE es bueno o no. Hay dos factores importantes de los PT-AE: (i) transferibilidad de los PT-AE a un modelo objetivo de caja negra. Adoptamos la tasa de coincidencia, que se ha estudiado exhaustivamente en el dominio de la imagen [79], para medir la transferibilidad. La tasa de coincidencia se define como el porcentaje de PT-AE que aún pueden clasificarse erróneamente como la misma etiqueta de objetivo en un modelo GT de caja negra. (ii) La calidad de percepción de los AE de audio. Llevamos a cabo un estudio en humanos para permitir que los participantes humanos califiquen la calidad del habla de los EA con diferentes tipos de portadores en una escala unificada de puntuación de percepción de 1 (la peor) a 7 (la mejor) comúnmente utilizada en estudios de evaluación del habla [47], [ 108], [23], [19], [91], [36], y luego construir modelos de regresión para predecir puntuaciones humanas de calidad del habla. Sin embargo, estos dos factores son generalmente contradictorios, ya que un alto nivel de transferibilidad probablemente resulte en una mala calidad de la percepción. Luego definimos una nueva métrica llamada índice de percepción-transferibilidad (TPR) para los PT-AE generados utilizando un tipo específico de transportistas. Esta métrica se basa en su tasa de coincidencia y su puntuación de percepción promedio, y cuantifica el nivel de transferibilidad que un tipo de operador puede lograr al degradar una puntuación unitaria de percepción humana. Una TPR alta puede interpretarse como una alta transferibilidad lograda mediante un costo relativamente pequeño de degradación de la percepción.

En el marco del TPR, formulamos un ataque PTAE de dos etapas que puede lanzarse por aire contra un modelo de objetivo de caja negra. En la primera etapa, reducimos desde un conjunto completo de operadores a un subconjunto de candidatos con TPR altos para el hablante objetivo del atacante. En la segunda etapa, adoptamos una formulación basada en el aprendizaje conjunto [76] que selecciona los mejores candidatos a portadores de la primera etapa y manipula sus características auditivas para minimizar una pérdida conjunta de efectividad del ataque y percepción humana. Experimentos del mundo real muestran que el ataque PT-AE propuesto logra tasas de éxito del 45,8% al 80,8% contra modelos de código abierto en el escenario de línea digital y del 47,9% al 58,3% contra dispositivos inteligentes, incluido Apple HomePod (Siri). Amazon Echo y Google Home, en el escenario inalámbrico. En comparación con dos estrategias de ataque recientes, Smack [113] y QFA2SR [30], nuestra estrategia logra mejoras del 263,7 % (éxito del ataque) y del 10,7 % (puntuación de percepción humana) sobre Smack, y del 95,9 % (éxito del ataque) y 44,9 % (puntuación de percepción humana). puntuación de percepción) sobre QFA2SR. La Tabla I proporciona una comparación del conocimiento requerido entre el ataque PT-AE propuesto y las estrategias existentes.

Nuestra principal contribución se puede resumir de la siguiente manera. (i) Proponemos un nuevo concepto del modelo PT e investigamos métodos VC de última generación para generar muestras de discurso de loro para construir un modelo sustituto para un atacante con conocimiento de una sola oración del discurso del hablante objetivo. (ii) Proponemos un nuevo marco TPR para evaluar conjuntamente la transferibilidad y la calidad perceptiva de generaciones de PT-AE con diferentes tipos de portadores. (iii) Creamos una estrategia de ataque PT-AE de dos etapas que ha demostrado ser más efectiva que las estrategias de ataque existentes, al tiempo que requiere el nivel mínimo de conocimiento del atacante.