Autori:
(1) șuncă de Seokil, KAIST;
(2) Parcul Jungwuk, KAIST;
(3) Dong-Jun Han, Universitatea Purdue;
(4) Jaekyun Moon, KAIST.
4. Experimente și 4.1 Configurare experimentală
4.2. Principalele rezultate experimentale
4.3. Studii și discuții despre ablație
5. Concluzie, recunoaștere și referințe
B. Acuratețea testului curat și C. Antrenamentul adversar prin atac mediu
E. Discuții privind degradarea performanței la ieșirile ulterioare
F. Comparație cu metodele recente de apărare pentru rețelele cu o singură ieșire
G. Comparație cu SKD și ARD și H. Implementări ale algoritmilor mai puternici pentru atacatori
În timp ce rețelele neuronale cu mai multe ieșiri sunt considerate o soluție promițătoare pentru a face inferențe eficiente prin ieșiri timpurii, combaterea atacurilor adverse rămâne o problemă provocatoare. În rețelele cu mai multe ieșiri, din cauza dependenței mari dintre diferitele submodele, un exemplu contradictoriu care vizează o anumită ieșire nu numai că degradează performanța ieșirii țintă, dar reduce și performanța tuturor celorlalte ieșiri concomitent. Acest lucru face rețelele cu mai multe ieșiri extrem de vulnerabile la atacuri adverse simple. În această lucrare, propunem NEO-KD, o strategie de antrenament adversă bazată pe distilare de cunoștințe care abordează această provocare fundamentală pe baza a două contribuții cheie. NEO-KD recurge mai întâi la distilarea cunoștințelor vecine pentru a ghida rezultatul exemplelor adverse pentru a avea tendința de a ține la ieșirile de ansamblu ale ieșirilor vecine de date curate. NEO-KD folosește, de asemenea, distilare ortogonală a cunoștințelor în funcție de ieșire pentru a reduce transferabilitatea adversară între diferite submodele. Rezultatul este o robustețe îmbunătățită semnificativ împotriva atacurilor adverse. Rezultatele experimentale pe diferite seturi de date/modele arată că metoda noastră realizează cea mai bună acuratețe adversară cu bugete de calcul reduse, în comparație cu liniile de bază care se bazează pe tehnicile existente de antrenament adversar sau de distilare a cunoștințelor pentru rețelele cu mai multe ieșiri.
Rețelele neuronale cu ieșiri multiple primesc o atenție semnificativă [9, 13, 26, 27, 28, 32] pentru capacitatea lor de a face predicții dinamice în aplicații cu resurse limitate. În loc să se facă predicții la ieșirea finală a modelului complet, se poate face o predicție mai rapidă la o ieșire mai devreme, în funcție de bugetul de timp curent sau bugetul de calcul. În acest sens, o rețea cu mai multe ieșiri poate fi privită ca o arhitectură având mai multe submodele, în care fiecare submodel constă din parametri de la intrarea modelului până la ieșirea unei anumite ieșiri. Aceste submodele sunt foarte corelate, deoarece împărtășesc unii parametri ai modelului. De asemenea, este bine cunoscut faptul că performanța tuturor submodelelor poate fi îmbunătățită prin distilarea cunoștințelor ultimei ieșiri către alte ieșiri, adică prin auto-distilare [15, 20, 24, 27]. Au existat, de asemenea, eforturi pentru a aborda problemele atacurilor adverse în contextul rețelelor cu mai multe ieșiri [3, 12].
Asigurarea robusteței împotriva atacurilor adverse este o provocare în special în rețelele cu mai multe ieșiri: deoarece diferite submodele au corelații mari prin partajarea parametrilor, un exemplu advers care vizează o anumită ieșire poate degrada semnificativ performanța altor submodele. Cu alte cuvinte, un exemplu adversar poate avea o transferabilitate adversa puternică între diferite submodele, făcând modelul extrem de vulnerabil la atacuri adverse simple (de exemplu, un atac adversar care vizează o singură ieșire).
Motivația . Doar câteva lucrări anterioare s-au concentrat pe strategiile de apărare adversară pentru rețelele cu mai multe ieșiri [3, 12]. Autorii lui [12] s-au concentrat pe generarea de exemple adverse adaptate rețelelor cu mai multe ieșiri (de exemplu, generarea de eșantioane prin atac mediu maxim) și au antrenat modelul pentru a minimiza suma pierderilor curate și adversare ale tuturor ieșirilor. Având în vedere exemplul contradictoriu construit în [12], autorii lui [3] au propus un termen de regularizare pentru a reduce ponderile clasificatorului la fiecare ieșire din timpul antrenamentului. Cu toate acestea, strategiile de apărare în contradicție existente [3, 12] nu tratează în mod direct corelațiile mari dintre diferitele submodele, rezultând o transferabilitate adversa ridicată și robustețe limitată în rețelele cu mai multe ieșiri. Pentru a aborda această dificultate, adoptăm o abordare bazată pe distilare de cunoștințe într-o manieră ortogonală cu lucrările anterioare [3, 12]. Unele studii anterioare [8, 23, 33, 34] au arătat că distilarea cunoștințelor poate fi utilizată pentru îmbunătățirea robusteței modelului în rețelele convenționale cu o singură ieșire. Cu toate acestea, deși există lucrări extinse privind auto-distilarea pentru antrenarea rețelelor cu mai multe ieșiri folosind date curate [15, 20, 24, 27], în prezent nu se știe cum ar trebui utilizate tehnicile de distilare pentru antrenarea adversă a rețelelor cu mai multe ieșiri. Mai mult, atunci când schemele existente bazate pe distilare sunt aplicate rețelelor cu mai multe ieșiri, dependențele dintre submodele devin mai mari, deoarece aceeași ieșire (de exemplu, cunoașterea ultimei ieșiri) este distilată la toate submodelele. Motivați de aceste limitări, ne punem următoarele întrebări: Cum putem profita de distilarea cunoștințelor pentru a îmbunătăți robustețea adversară a rețelelor cu mai multe ieșiri? În același timp, cum putem reduce transferabilitatea adversă între diferite submodele în rețele cu mai multe ieșiri?
Principalele contribuții. Pentru a face față acestor întrebări, propunem NEO-KD, o strategie de antrenament adversar bazată pe distilare de cunoștințe, foarte adaptată rețelelor neuronale robuste cu mai multe ieșiri. Soluția noastră are două direcții: distilarea cunoștințelor vecine și distilarea cunoștințelor ortogonale la ieșire.
• Având în vedere o ieșire specifică, prima parte a soluției noastre, distilare a cunoștințelor vecine (NKD), distilează predicția ansamblu a ieșirilor vecine de date curate la predicția exemplului adversar la ieșirea corespunzătoare, așa cum se arată în Figura 1a. Această metodă ghidează rezultatul exemplelor adverse pentru a urmări rezultatele datelor curate, îmbunătățind robustețea împotriva atacurilor adverse. Prin asamblarea predicțiilor vecine ale datelor curate înainte de distilare, NKD oferă caracteristici de calitate superioară ieșirilor corespunzătoare în comparație cu schema de distilare cu o singură ieșire în aceeași poziție.
• Al doilea obiectiv al soluției noastre, exit-wise orthogonal knowledge distillation (EOKD), vizează în principal reducerea transferabilității adverse între diferite submodele. Această parte este o altă contribuție unică a muncii noastre în comparație cu metodele existente privind rețelele robuste cu mai multe ieșiri [3, 12] (care suferă de transferabilitate adversă ridicată) sau rețelele cu mai multe ieșiri bazate pe auto-distilare [15, 20, 24, 27] ] (care măresc și mai mult transferabilitatea contradictorială). În EOKD-ul nostru, rezultatul datelor curate de la i-a ieșire este distilat la ieșirea eșantionului advers la i-a ieșire, într-o manieră de ieșire. În timpul acestui proces de distilare în funcție de ieșire, încurajăm predicțiile non-adevărate ale ieșirilor individuale să fie reciproc ortogonale, oferind etichete moi ortogonale fiecărei ieșiri, așa cum este descris în Figura 1b. Prin slăbirea dependențelor dintre diferitele ieșiri de ieșire, EOKD reduce transferabilitatea adversarilor în toate submodelele din rețea, ceea ce duce la o robustețe îmbunătățită împotriva atacurilor adverse.
Componentele NKD și EOKD ale soluției noastre arhitecturale lucrează împreună pentru a reduce transferabilitatea adversă între diferite submodele din rețea, ghidând în același timp corect predicțiile exemplelor adverse la fiecare ieșire. Rezultatele experimentale pe diverse seturi de date arată că strategia propusă realizează cea mai bună acuratețe adversară cu bugete de calcul reduse, în comparație cu metodele existente de antrenament adversarial pentru rețelele cu mai multe ieșiri. Soluția noastră este o metodă plug-and-play, care poate fi utilizată împreună cu strategiile de antrenament existente, adaptate rețelelor cu mai multe ieșiri.
Această lucrare este disponibilă pe arxiv sub licență CC 4.0.