Autori:
(1) Prosciutto di Seokil, KAIST;
(2) Parco Jungwuk, KAIST;
(3) Dong-Jun Han, Università di Purdue;
(4) Jaekyun Moon, KAIST.
3.2 Descrizione dell'algoritmo
4. Esperimenti e 4.1 Impostazione sperimentale
4.2. Principali risultati sperimentali
4.3. Studi e discussioni sull'ablazione
5. Conclusione, Riconoscimento e Riferimenti
B. Precisione del test pulito e C. Addestramento avversario tramite attacco medio
D. Ottimizzazione degli iperparametri
E. Discussioni sul degrado delle prestazioni nelle uscite successive
F. Confronto con i recenti metodi di difesa per reti a singola uscita
G. Confronto con SKD e ARD e H. Implementazioni di algoritmi di attacco più potenti
Sebbene le reti neurali multi-uscita siano considerate una soluzione promettente per effettuare inferenze efficienti tramite uscite anticipate, contrastare gli attacchi avversari rimane un problema impegnativo. Nelle reti multi-uscita, a causa dell'elevata dipendenza tra diversi sottomodelli, un esempio avversario che prende di mira un'uscita specifica non solo degrada le prestazioni dell'uscita di destinazione, ma riduce anche le prestazioni di tutte le altre uscite contemporaneamente. Ciò rende le reti multi-uscita altamente vulnerabili ai semplici attacchi avversari. In questo articolo, proponiamo NEO-KD, una strategia di addestramento avversario basata sulla distillazione della conoscenza che affronta questa sfida fondamentale basandosi su due contributi chiave. NEO-KD ricorre innanzitutto alla distillazione della conoscenza dei vicini per guidare l'output degli esempi avversari per tendere agli output di ensemble delle uscite vicine di dati puliti. NEO-KD impiega anche la distillazione della conoscenza ortogonale in base all'uscita per ridurre la trasferibilità avversaria tra diversi sottomodelli. Il risultato è una robustezza notevolmente migliorata contro gli attacchi avversari. I risultati sperimentali su vari set di dati/modelli mostrano che il nostro metodo raggiunge la migliore accuratezza avversaria con budget di calcolo ridotti, rispetto alle linee di base che si basano su tecniche di addestramento avversaria o di distillazione della conoscenza esistenti per reti multi-uscita.
Le reti neurali multi-uscita stanno ricevendo notevole attenzione [9, 13, 26, 27, 28, 32] per la loro capacità di fare previsioni dinamiche in applicazioni con risorse limitate. Invece di fare previsioni all'output finale del modello completo, una previsione più rapida può essere fatta a un'uscita precedente a seconda del budget di tempo o di elaborazione corrente. In questo senso, una rete multi-uscita può essere vista come un'architettura con più sottomodelli, dove ogni sottomodello è costituito da parametri dall'input del modello all'output di un'uscita specifica. Questi sottomodelli sono altamente correlati in quanto condividono alcuni parametri del modello. È anche noto che le prestazioni di tutti i sottomodelli possono essere migliorate distillando la conoscenza dell'ultima uscita ad altre uscite, ovvero tramite autodistillazione [15, 20, 24, 27]. Ci sono stati anche sforzi per affrontare i problemi di attacco avversario nel contesto delle reti multi-uscita [3, 12].
Fornire robustezza contro gli attacchi avversari è particolarmente impegnativo nelle reti multi-uscita: poiché diversi sottomodelli hanno elevate correlazioni condividendo parametri, un esempio avversario che prende di mira un'uscita specifica può degradare significativamente le prestazioni di altri sottomodelli. In altre parole, un esempio avversario può avere una forte trasferibilità avversaria tra diversi sottomodelli, rendendo il modello altamente vulnerabile a semplici attacchi avversari (ad esempio, un attacco avversario che prende di mira una singola uscita).
Motivazione . Solo pochi lavori precedenti si sono concentrati sulle strategie di difesa avversaria per reti multi-uscita [3, 12]. Gli autori di [12] si sono concentrati sulla generazione di esempi avversari su misura per reti multi-uscita (ad esempio, generare campioni tramite attacco max-average) e hanno addestrato il modello per minimizzare la somma di perdite pulite e avversarie di tutte le uscite. Dato l'esempio avversario costruito in [12], gli autori di [3] hanno proposto un termine di regolarizzazione per ridurre i pesi del classificatore a ciascuna uscita durante l'addestramento. Tuttavia, le strategie di difesa avversaria esistenti [3, 12] non gestiscono direttamente le elevate correlazioni tra diversi sottomodelli, con conseguente elevata trasferibilità avversaria e robustezza limitata nelle reti multi-uscita. Per affrontare questa difficoltà, adottiamo un approccio basato sulla distillazione della conoscenza in modo ortogonale ai lavori precedenti [3, 12]. Alcuni studi precedenti [8, 23, 33, 34] hanno dimostrato che la distillazione della conoscenza può essere utilizzata per migliorare la robustezza del modello nelle reti convenzionali a singola uscita. Tuttavia, sebbene esistano ampi lavori esistenti sull'autodistillazione per l'addestramento di reti multi-uscita utilizzando dati puliti [15, 20, 24, 27], al momento non si sa come le tecniche di distillazione debbano essere utilizzate per l'addestramento avversario di reti multi-uscita. Inoltre, quando gli schemi basati sulla distillazione esistenti vengono applicati a reti multi-uscita, le dipendenze tra i sottomodelli diventano più elevate poiché lo stesso output (ad esempio, la conoscenza dell'ultima uscita) viene distillato in tutti i sottomodelli. Motivati da queste limitazioni, poniamo le seguenti domande: come possiamo sfruttare la distillazione della conoscenza per migliorare la robustezza avversaria delle reti multi-uscita? Allo stesso tempo, come possiamo ridurre la trasferibilità avversaria tra diversi sottomodelli nelle reti multi-uscita?
Contributi principali. Per gestire queste domande, proponiamo NEO-KD, una strategia di training avversaria basata sulla distillazione della conoscenza altamente personalizzata per reti neurali multi-uscita robuste. La nostra soluzione è a due punte: distillazione della conoscenza del vicino e distillazione della conoscenza ortogonale in uscita.
• Data un'uscita specifica, la prima parte della nostra soluzione, la distillazione della conoscenza dei vicini (NKD), distilla la previsione ensemble delle uscite vicine dei dati puliti nella previsione dell'esempio avversario all'uscita corrispondente, come mostrato nella Figura 1a. Questo metodo guida l'output degli esempi avversari per seguire gli output dei dati puliti, migliorando la robustezza contro gli attacchi avversari. Unendo le previsioni dei vicini dei dati puliti prima della distillazione, NKD fornisce funzionalità di qualità superiore alle uscite corrispondenti rispetto allo schema di distillazione con una sola uscita nella stessa posizione.
• Il secondo focus della nostra soluzione, la distillazione della conoscenza ortogonale in uscita (EOKD), mira principalmente a ridurre la trasferibilità avversaria tra diversi sottomodelli. Questa parte è un altro contributo unico del nostro lavoro rispetto ai metodi esistenti su reti multi-uscita robuste [3, 12] (che soffrono di elevata trasferibilità avversaria) o reti multi-uscita basate sull'autodistillazione [15, 20, 24, 27] (che aumentano ulteriormente la trasferibilità avversaria). Nel nostro EOKD, l'output di dati puliti all'uscita i-esima viene distillato nell'output del campione avversaria all'uscita i-esima, in modo exit-wise. Durante questo processo di distillazione exit-wise, incoraggiamo le previsioni non ground-truth delle singole uscite a essere reciprocamente ortogonali, fornendo etichette morbide ortogonali a ciascuna uscita come descritto nella Figura 1b. Indebolendo le dipendenze tra i diversi output di uscita, EOKD riduce la trasferibilità avversaria tra tutti i sottomodelli della rete, il che comporta una maggiore robustezza contro gli attacchi avversari.
I componenti NKD ed EOKD della nostra soluzione architettonica lavorano insieme per ridurre la trasferibilità avversaria tra diversi sottomodelli nella rete, guidando correttamente le previsioni degli esempi avversari a ogni uscita. I risultati sperimentali su vari set di dati mostrano che la strategia proposta raggiunge la migliore accuratezza avversaria con budget di calcolo ridotti, rispetto ai metodi di addestramento avversaria esistenti per reti multi-uscita. La nostra soluzione è un metodo plug-and-play, che può essere utilizzato insieme alle strategie di addestramento esistenti su misura per reti multi-uscita.
Questo articolo è disponibile su arxiv con licenza CC 4.0.