Autores:
(1) Seokil Ham, Instituto Tecnológico y de Estudios Avanzados;
(2) Parque Jungwuk, KAIST;
(3) Dong-Jun Han, Universidad de Purdue;
(4) Jaekyun Moon, KAIST.
4. Experimentos y 4.1 Configuración experimental
4.2. Principales resultados experimentales
4.3 Estudios y debates sobre ablación
5. Conclusión, agradecimientos y referencias
B. Precisión de prueba limpia y C. Entrenamiento adversario mediante ataque promedio
E. Discusiones sobre la degradación del rendimiento en las salidas posteriores
F. Comparación con métodos de defensa recientes para redes de salida única
G. Comparación con SKD y ARD y H. Implementaciones de algoritmos de ataque más fuertes
Si bien las redes neuronales de múltiples salidas se consideran una solución prometedora para realizar inferencias eficientes a través de salidas tempranas, combatir los ataques adversarios sigue siendo un problema desafiante. En las redes de múltiples salidas, debido a la alta dependencia entre los diferentes submodelos, un ejemplo adversario que apunta a una salida específica no solo degrada el rendimiento de la salida objetivo, sino que también reduce el rendimiento de todas las demás salidas simultáneamente. Esto hace que las redes de múltiples salidas sean altamente vulnerables a ataques adversarios simples. En este documento, proponemos NEO-KD, una estrategia de entrenamiento adversario basada en la destilación de conocimiento que aborda este desafío fundamental en función de dos contribuciones clave. NEO-KD primero recurre a la destilación de conocimiento vecino para guiar la salida de los ejemplos adversarios para tender a las salidas de conjunto de salidas vecinas de datos limpios. NEO-KD también emplea la destilación de conocimiento ortogonal por salida para reducir la transferibilidad adversaria entre diferentes submodelos. El resultado es una robustez significativamente mejorada contra los ataques adversarios. Los resultados experimentales en varios conjuntos de datos/modelos muestran que nuestro método logra la mejor precisión adversarial con presupuestos computacionales reducidos, en comparación con las líneas de base que se basan en técnicas existentes de entrenamiento adversarial o de destilación de conocimiento para redes de múltiples salidas.
Las redes neuronales de múltiples salidas están recibiendo una atención significativa [9, 13, 26, 27, 28, 32] por su capacidad de hacer predicciones dinámicas en aplicaciones con recursos limitados. En lugar de hacer predicciones en la salida final del modelo completo, se puede hacer una predicción más rápida en una salida anterior dependiendo del presupuesto de tiempo actual o del presupuesto de cómputo. En este sentido, una red de múltiples salidas puede verse como una arquitectura que tiene múltiples submodelos, donde cada submodelo consta de parámetros desde la entrada del modelo hasta la salida de una salida específica. Estos submodelos están altamente correlacionados ya que comparten algunos parámetros del modelo. También es bien sabido que el rendimiento de todos los submodelos se puede mejorar destilando el conocimiento de la última salida a otras salidas, es decir, a través de la autodestilación [15, 20, 24, 27]. También se han realizado esfuerzos para abordar los problemas de ataques adversarios en el contexto de las redes de múltiples salidas [3, 12].
Proporcionar robustez frente a ataques adversarios es especialmente complicado en redes con múltiples salidas: dado que los diferentes submodelos tienen altas correlaciones al compartir parámetros, un ejemplo adversario que apunte a una salida específica puede degradar significativamente el rendimiento de otros submodelos. En otras palabras, un ejemplo adversario puede tener una fuerte transferibilidad adversaria entre diferentes submodelos, lo que hace que el modelo sea muy vulnerable a ataques adversarios simples (por ejemplo, un ataque adversario que apunte a una sola salida).
Motivación . Solo unos pocos trabajos anteriores se han centrado en estrategias de defensa adversarial para redes de múltiples salidas [3, 12]. Los autores de [12] se centraron en generar ejemplos adversariales adaptados a redes de múltiples salidas (por ejemplo, generar muestras mediante un ataque de promedio máximo) y entrenaron el modelo para minimizar la suma de pérdidas limpias y adversariales de todas las salidas. Dado el ejemplo adversarial construido en [12], los autores de [3] propusieron un término de regularización para reducir los pesos del clasificador en cada salida durante el entrenamiento. Sin embargo, las estrategias de defensa adversarial existentes [3, 12] no manejan directamente las altas correlaciones entre diferentes submodelos, lo que resulta en una alta transferibilidad adversarial y una robustez limitada en redes de múltiples salidas. Para abordar esta dificultad, adoptamos un enfoque basado en la destilación de conocimiento de una manera ortogonal a trabajos anteriores [3, 12]. Algunos estudios previos [8, 23, 33, 34] han demostrado que la destilación de conocimiento se puede utilizar para mejorar la robustez del modelo en redes convencionales de salida única. Sin embargo, aunque existen muchos trabajos sobre autodestilación para entrenar redes de múltiples salidas usando datos limpios [15, 20, 24, 27], actualmente se desconoce cómo se deben utilizar las técnicas de destilación para el entrenamiento adversarial de redes de múltiples salidas. Además, cuando los esquemas existentes basados en destilación se aplican a redes de múltiples salidas, las dependencias entre los submodelos se vuelven mayores ya que la misma salida (por ejemplo, el conocimiento de la última salida) se destila a todos los submodelos. Motivados por estas limitaciones, planteamos las siguientes preguntas: ¿Cómo podemos aprovechar la destilación de conocimiento para mejorar la robustez adversarial de las redes de múltiples salidas? Al mismo tiempo, ¿cómo podemos reducir la transferibilidad adversarial entre diferentes submodelos en redes de múltiples salidas?
Principales contribuciones. Para abordar estas cuestiones, proponemos NEO-KD, una estrategia de entrenamiento adversarial basada en la destilación de conocimiento, altamente adaptada a redes neuronales robustas de múltiples salidas. Nuestra solución tiene dos frentes: destilación de conocimiento de vecinos y destilación de conocimiento ortogonal por salida.
• Dada una salida específica, la primera parte de nuestra solución, la destilación de conocimiento de vecinos (NKD), destila la predicción conjunta de salidas vecinas de datos limpios a la predicción del ejemplo adversario en la salida correspondiente, como se muestra en la Figura 1a. Este método guía la salida de los ejemplos adversarios para que sigan las salidas de datos limpios, lo que mejora la solidez contra ataques adversarios. Al agrupar las predicciones de vecinos de datos limpios antes de la destilación, NKD proporciona características de mayor calidad a las salidas correspondientes en comparación con el esquema de destilación con solo una salida en la misma posición.
• El segundo objetivo de nuestra solución, la destilación de conocimiento ortogonal por salida (EOKD), apunta principalmente a reducir la transferibilidad adversarial entre diferentes submodelos. Esta parte es otra contribución única de nuestro trabajo en comparación con los métodos existentes en redes de múltiples salidas robustas [3, 12] (que sufren de una alta transferibilidad adversarial) o redes de múltiples salidas basadas en autodestilación [15, 20, 24, 27] (que aumentan aún más la transferibilidad adversarial). En nuestra EOKD, la salida de datos limpios en la i-ésima salida se destila a la salida de la muestra adversarial en la i-ésima salida, de una manera que afecta a cada salida. Durante este proceso de destilación por salida, alentamos que las predicciones que no son de verdad fundamental de las salidas individuales sean mutuamente ortogonales, al proporcionar etiquetas suaves ortogonales a cada salida como se describe en la Figura 1b. Al debilitar las dependencias entre las diferentes salidas, EOKD reduce la transferibilidad adversarial entre todos los submodelos de la red, lo que conduce a una mayor robustez contra ataques adversariales.
Los componentes NKD y EOKD de nuestra solución arquitectónica trabajan juntos para reducir la transferibilidad adversarial entre diferentes submodelos de la red, al mismo tiempo que guían correctamente las predicciones de los ejemplos adversariales en cada salida. Los resultados experimentales en varios conjuntos de datos muestran que la estrategia propuesta logra la mejor precisión adversarial con presupuestos computacionales reducidos, en comparación con los métodos de entrenamiento adversarial existentes para redes de múltiples salidas. Nuestra solución es un método plug-and-play, que se puede utilizar junto con las estrategias de entrenamiento existentes adaptadas a redes de múltiples salidas.
Este artículo está disponible en arxiv bajo licencia CC 4.0.