autoři:
(1) Seokil Ham, KAIST;
(2) Jungwuk Park, KAIST;
(3) Dong-Jun Han, Purdue University;
(4) Jaekyun Moon, KAIST.
3. Navrhovaný algoritmus NEO-KD a nastavení problému 3.1: Trénink protivníka v sítích s více výstupy
4. Experimenty a 4.1 Experimentální nastavení
4.2. Hlavní experimentální výsledky
B. Čistá přesnost testu a C. Trénink protivníka prostřednictvím průměrného útoku
E. Diskuse o zhoršení výkonu při pozdějších výstupech
F. Srovnání s nejnovějšími obrannými metodami pro sítě s jedním výstupem
G. Srovnání s SKD a ARD a H. Implementace silnějších útočných algoritmů
Zatímco neuronové sítě s více výstupy jsou považovány za slibné řešení pro účinné vyvozování závěrů prostřednictvím časných výstupů, boj proti nepřátelským útokům zůstává náročným problémem. V sítích s více výstupy, kvůli vysoké závislosti mezi různými podmodely, nepříznivý příklad zaměřený na konkrétní výstup nejen snižuje výkon cílového výstupu, ale také snižuje výkon všech ostatních výstupů současně. Díky tomu jsou sítě s více výstupy vysoce zranitelné vůči jednoduchým nepřátelským útokům. V tomto článku navrhujeme NEO-KD, tréninkovou strategii protivníka založenou na destilaci znalostí, která řeší tuto základní výzvu na základě dvou klíčových příspěvků. NEO-KD se nejprve uchýlí k destilaci znalostí sousedů, aby vedl výstup z protichůdných příkladů tak, aby inklinoval k souhrnným výstupům sousedních výstupů čistých dat. NEO-KD také využívá ortogonální destilaci znalostí z hlediska výstupu pro snížení kontradiktorní přenositelnosti napříč různými podmodely. Výsledkem je výrazně zlepšená odolnost proti nepřátelským útokům. Experimentální výsledky na různých souborech dat/modelech ukazují, že naše metoda dosahuje nejlepší přesnosti protivníka se sníženými výpočetními rozpočty ve srovnání se základními liniemi, které spoléhají na stávající trénink protivníka nebo techniky destilace znalostí pro sítě s více výstupy.
Neuronovým sítím s více výstupy je věnována značná pozornost [9, 13, 26, 27, 28, 32] pro jejich schopnost provádět dynamické předpovědi v aplikacích s omezenými zdroji. Místo předpovědí na konečném výstupu úplného modelu lze provést rychlejší předpovědi při dřívějším ukončení v závislosti na aktuálním časovém rozpočtu nebo výpočetním rozpočtu. V tomto smyslu lze na síť s více výstupy nahlížet jako na architekturu s více podmodely, kde každý podmodel sestává z parametrů od vstupu modelu po výstup konkrétního výstupu. Tyto podmodely jsou vysoce korelované, protože sdílejí některé parametry modelu. Je také dobře známo, že výkon všech podmodelů lze zlepšit destilací znalostí o posledním výstupu do jiných východů, tj. pomocí autodestilace [15, 20, 24, 27]. Objevily se také snahy řešit problémy s nepřátelskými útoky v kontextu sítí s více výstupy [3, 12].
Poskytování odolnosti proti nepřátelským útokům je obzvláště náročné v sítích s více výstupy: protože různé podmodely mají vysokou korelaci sdílením parametrů, příklad protivníka zaměřený na konkrétní výstup může výrazně snížit výkon ostatních podmodelů. Jinými slovy, příklad protivníka může mít silnou přenositelnost protivníka napříč různými podmodely, díky čemuž je model vysoce zranitelný vůči jednoduchým nepřátelským útokům (např. nepřátelský útok zaměřený na jediný východ).
Motivace . Pouze několik předchozích prací se zaměřilo na obranné strategie pro multi-exit sítě [3, 12]. Autoři [12] se zaměřili na generování adversariálních příkladů přizpůsobených multiexitovým sítím (např. generování vzorků pomocí max-average útoku) a trénovali model tak, aby minimalizoval součet čistých a nepříznivých ztrát všech východů. Vzhledem k protikladnému příkladu konstruovanému v [12] navrhli autoři [3] regularizační člen ke snížení hmotnosti klasifikátoru při každém výstupu během tréninku. Stávající strategie obrany protivníka [3, 12] však přímo nezvládají vysoké korelace mezi různými podmodely, což má za následek vysokou přenositelnost protivníka a omezenou robustnost v sítích s více výstupy. Abychom tento problém vyřešili, používáme přístup založený na destilaci znalostí způsobem ortogonálním k předchozím pracím [3, 12]. Některé předchozí studie [8, 23, 33, 34] ukázaly, že destilace znalostí může být využita pro zlepšení robustnosti modelu v konvenčních single-exit sítích. Ačkoli existují rozsáhlé existující práce o vlastní destilaci pro trénování sítí s více výstupy pomocí čistých dat [15, 20, 24, 27], v současné době není známo, jak by měly být techniky destilace využity pro trénování nepřátelských sítí s více výstupy. Navíc, když jsou stávající schémata založená na destilaci aplikována na sítě s více výstupy, závislosti mezi podmodely se zvyšují, protože stejný výstup (např. znalost posledního výstupu) je destilován do všech podmodelů. Motivováni těmito omezeními si klademe následující otázky: Jak můžeme využít výhody destilace znalostí ke zlepšení odolnosti protivníků sítí s více výstupy? Jak můžeme zároveň snížit kontradiktorní přenositelnost mezi různými podmodely v sítích s více výstupy?
Hlavní příspěvky. Abychom se s těmito otázkami vypořádali, navrhujeme NEO-KD, strategii tréninku protivníků založenou na destilaci znalostí, která je vysoce přizpůsobena robustním vícevýstupovým neuronovým sítím. Naše řešení je dvousměrné: sousedská znalostní destilace a výstupní ortogonální znalostní destilace.
• Za předpokladu konkrétního výstupu, první část našeho řešení, sousedská znalostní destilace (NKD), destiluje seskupenou predikci sousedních východů čistých dat s predikcí nepřátelského příkladu u odpovídajícího výstupu, jak je znázorněno na obrázku 1a. Tato metoda vede výstup příkladů protivníka tak, aby sledoval výstupy čistých dat, čímž se zlepšuje odolnost proti útokům protivníka. Sestavením sousedních předpovědí čistých dat před destilací poskytuje NKD odpovídajícím výstupům vlastnosti vyšší kvality ve srovnání se schématem destilace pouze s jedním výstupem ve stejné poloze.
• Druhé zaměření našeho řešení, ortogonální destilace znalostí (EOKD), je zaměřeno především na snížení kontradiktorní přenositelnosti napříč různými podmodely. Tato část je dalším unikátním příspěvkem naší práce ve srovnání s existujícími metodami na robustních multi-exitových sítích [3, 12] (které trpí vysokou kontradiktorní přenositelností) nebo multi-exitových sítích založených na samodestilaci [15, 20, 24, 27 ] (které dále zvyšují kontradiktorní převoditelnost). V našem EOKD je výstup čistých dat na i-tém výstupu destilován na výstup kontradiktorního vzorku na i-tém výstupu způsobem na výstupu. Během tohoto výstupního destilačního procesu doporučujeme, aby předpovědi jednotlivých výstupů, které nejsou pravdivé, byly vzájemně ortogonální, a to poskytnutím ortogonálních měkkých štítků pro každý výstup, jak je popsáno na obrázku 1b. Oslabením závislostí mezi různými výstupními výstupy snižuje EOKD nepřátelskou přenositelnost napříč všemi podmodely v síti, což vede ke zlepšené odolnosti proti nepřátelským útokům.
Komponenty NKD a EOKD našeho architektonického řešení spolupracují na snížení protichůdné přenositelnosti napříč různými podmodely v síti a zároveň správně vedou předpovědi protichůdných příkladů na každém výstupu. Experimentální výsledky na různých souborech dat ukazují, že navrhovaná strategie dosahuje nejlepší přesnosti protivníka se sníženými výpočetními rozpočty ve srovnání se stávajícími metodami školení protivníků pro sítě s více výstupy. Naše řešení je metodou plug-and-play, kterou lze použít ve spojení se stávajícími tréninkovými strategiemi přizpůsobenými pro sítě s více výstupy.
Tento dokument je dostupný na arxiv pod licencí CC 4.0.