paint-brush
Möhkəm Çox Çıxışlı Neyron Şəbəkələri üçün Bilik Distilləsinə əsaslanan rəqib təlimitərəfindən@escholar
258 oxunuşlar

Möhkəm Çox Çıxışlı Neyron Şəbəkələri üçün Bilik Distilləsinə əsaslanan rəqib təlimi

Çox uzun; Oxumaq

NEO-KD hücumlara qarşı dayanıqlığı yaxşılaşdırmaq və alt modellər arasında rəqib ötürülməsini azaltmaq üçün qonşu və çıxış baxımından ortoqonal bilik distilləsindən istifadə edərək, çox çıxışlı neyron şəbəkələri üçün yeni rəqib təlim strategiyasıdır.
featured image - Möhkəm Çox Çıxışlı Neyron Şəbəkələri üçün Bilik Distilləsinə əsaslanan rəqib təlimi
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Müəlliflər:

(1) Seokil Ham, KAIST;

(2) Jungwuk Park, KAIST;

(3) Dong-Jun Han, Purdue Universiteti;

(4) Jaekyun Moon, KAIST.

Bağlantılar Cədvəli

Abstrakt və 1. Giriş

2. Əlaqədar əsərlər

3. Təklif olunan NEO-KD alqoritmi və 3.1 Problemin qurulması: Çox Çıxış Şəbəkələrində Müxalif Təlim

3.2 Alqoritmin təsviri

4. Təcrübələr və 4.1 Eksperimental Quraşdırma

4.2. Əsas Eksperimental Nəticələr

4.3. Ablasiya Tədqiqatları və Müzakirələr

5. Nəticə, Təşəkkür və İstinadlar

A. Təcrübə təfərrüatları

B. Təmiz Test Dəqiqliyi və C. Orta Hücum vasitəsilə Rəqib Təlim

D. Hiperparametrlərin tənzimlənməsi

E. Sonrakı Çıxışlarda Performansın Deqradasiyası üzrə Müzakirələr

F. Tək çıxışlı şəbəkələr üçün son müdafiə üsulları ilə müqayisə

G. SKD və ARD ilə müqayisə və H. Daha güclü hücumçu alqoritmlərinin tətbiqi

mücərrəd

Çox çıxışlı neyron şəbəkələri erkən çıxışlar vasitəsilə səmərəli nəticə çıxarmaq üçün perspektivli həll yolu kimi qəbul edilsə də, düşmən hücumları ilə mübarizə çətin problem olaraq qalır. Çox çıxışlı şəbəkələrdə, müxtəlif alt modellər arasında yüksək asılılığa görə, konkret çıxışı hədəfləyən rəqib nümunə yalnız hədəf çıxışın performansını aşağı salmaqla yanaşı, eyni zamanda bütün digər çıxışların performansını da azaldır. Bu, çox çıxışlı şəbəkələri sadə düşmən hücumlarına qarşı çox həssas edir. Bu yazıda biz iki əsas töhfə əsasında bu fundamental problemin öhdəsindən gələn biliyə distillə əsaslı rəqib təlim strategiyası olan NEO-KD təklif edirik. NEO-KD əvvəlcə təmiz məlumatların qonşu çıxışlarının ansambl çıxışlarına meyl etmək üçün rəqib nümunələrin çıxışını istiqamətləndirmək üçün qonşu bilik distilləsinə müraciət edir. NEO-KD, həmçinin müxtəlif alt modellər arasında rəqib ötürülmə qabiliyyətini azaltmaq üçün çıxış yolu ilə ortoqonal bilik distilləsindən istifadə edir. Nəticə düşmən hücumlarına qarşı əhəmiyyətli dərəcədə təkmilləşdirilmiş möhkəmlikdir. Müxtəlif verilənlər bazaları/modelləri üzrə eksperimental nəticələr göstərir ki, bizim metodumuz çox çıxışlı şəbəkələr üçün mövcud rəqib təliminə və ya bilik distilləsi üsullarına əsaslanan əsaslarla müqayisədə, azaldılmış hesablama büdcələri ilə ən yaxşı rəqib dəqiqliyinə nail olur.

1 Giriş

Çox çıxışlı neyron şəbəkələri resurs məhdud tətbiqlərdə dinamik proqnozlar vermək qabiliyyətinə görə əhəmiyyətli diqqət [9, 13, 26, 27, 28, 32] alır. Tam modelin yekun çıxışında proqnozlar vermək əvəzinə, cari vaxt büdcəsindən və ya hesablama büdcəsindən asılı olaraq daha erkən çıxışda daha sürətli proqnoz verilə bilər. Bu mənada çox çıxışlı şəbəkəyə çoxlu alt modellərə malik olan arxitektura kimi baxmaq olar, burada hər bir alt model modelin girişindən müəyyən çıxışın çıxışına qədər parametrlərdən ibarətdir. Bu alt modellər bəzi model parametrlərini paylaşdıqları üçün yüksək korrelyasiyaya malikdir. O da məlumdur ki, bütün submodellərin performansını digər çıxışlara sonuncu çıxışın biliyini distillə etməklə, yəni özünü distillə etməklə yaxşılaşdırmaq olar [15, 20, 24, 27]. Çox çıxışlı şəbəkələr kontekstində rəqib hücum məsələlərini həll etmək üçün də cəhdlər edilmişdir [3, 12].


Düşmən hücumlarına qarşı möhkəmliyin təmin edilməsi çox çıxışlı şəbəkələrdə xüsusilə çətindir: müxtəlif alt modellər parametrləri paylaşmaqla yüksək korrelyasiyaya malik olduğundan, konkret çıxışı hədəfləyən rəqib nümunə digər alt modellərin performansını əhəmiyyətli dərəcədə aşağı sala bilər. Başqa sözlə, rəqib nümunə müxtəlif alt modellər arasında güclü rəqib ötürülməsinə malik ola bilər ki, bu da modeli sadə rəqib hücumlarına (məsələn, tək çıxışı hədəfləyən rəqib hücumu) qarşı çox həssas edir.


Motivasiya . Yalnız bir neçə əvvəlki iş çox çıxışlı şəbəkələr üçün rəqib müdafiə strategiyalarına yönəlmişdir [3, 12]. [12] müəllifləri çox çıxışlı şəbəkələrə uyğunlaşdırılmış rəqib nümunələrin yaradılmasına diqqət yetirmişlər (məsələn, maksimum orta hücum vasitəsilə nümunələr yaratmaq) və bütün çıxışların təmiz və rəqib itkilərinin cəmini minimuma endirmək üçün modeli öyrətmişlər. [12]-də qurulmuş rəqib nümunəni nəzərə alaraq, [3] müəllifləri təlim zamanı hər bir çıxışda təsnifatın çəkilərini azaltmaq üçün tənzimləmə müddətini təklif etdilər. Bununla belə, mövcud rəqib müdafiə strategiyaları [3, 12] müxtəlif alt modellər arasında yüksək korrelyasiyanı birbaşa idarə etmir, bu da çox çıxışlı şəbəkələrdə yüksək rəqib ötürülməsi və məhdud möhkəmliyə səbəb olur. Bu çətinliyi aradan qaldırmaq üçün biz əvvəlki işlərə ortoqonal olaraq biliyə əsaslanan yanaşma tətbiq edirik [3, 12]. Bəzi əvvəlki tədqiqatlar [8, 23, 33, 34] adi tək çıxışlı şəbəkələrdə modelin möhkəmliyini artırmaq üçün bilik distilləsindən istifadə oluna biləcəyini göstərdi. Bununla belə, təmiz verilənlərdən [15, 20, 24, 27] istifadə edərək çox çıxışlı şəbəkələrin öyrədilməsi üçün özünü distillə üzrə geniş işlərin olmasına baxmayaraq, çox çıxışlı şəbəkələrin rəqabətli təlimi üçün distillə üsullarından necə istifadə edilməli olduğu hələ məlum deyil. Bundan əlavə, mövcud distillə əsaslı sxemlər çox çıxışlı şəbəkələrə tətbiq edildikdə, eyni çıxış (məsələn, son çıxış haqqında məlumat) bütün alt modellərə distillə edildiyi üçün alt modellər arasında asılılıqlar daha yüksək olur. Bu məhdudiyyətlərdən irəli gələrək, biz aşağıdakı sualları veririk: Çox çıxışlı şəbəkələrin rəqib möhkəmliyini yaxşılaşdırmaq üçün bilik distilləsindən necə istifadə edə bilərik? Eyni zamanda, çox çıxışlı şəbəkələrdə müxtəlif alt modellər arasında rəqib ötürülmə qabiliyyətini necə azalda bilərik?


Əsas töhfələr. Bu sualları həll etmək üçün biz güclü çox çıxışlı neyron şəbəkələri üçün yüksək səviyyədə hazırlanmış biliyə əsaslanan rəqib təlim strategiyası olan NEO-KD təklif edirik. Bizim həllimiz iki istiqamətlidir: qonşu bilik distilləsi və çıxış-müdrik ortoqonal bilik distilləsi.


• Xüsusi çıxışı nəzərə alaraq, həllimizin birinci hissəsi olan qonşu bilik distilləsi (NKD), Şəkil 1a-da göstərildiyi kimi, müvafiq çıxışda rəqib nümunənin proqnozlaşdırılmasına təmiz məlumatların qonşu çıxışlarının ansambl proqnozunu distillə edir. Bu üsul, rəqib hücumlarına qarşı möhkəmliyi yaxşılaşdıraraq, təmiz məlumatların nəticələrini izləmək üçün rəqib nümunələrin çıxışını istiqamətləndirir. Distillədən əvvəl təmiz məlumatların qonşu proqnozlarını birləşdirərək, NKD eyni mövqedə yalnız bir çıxış ilə distillə sxemi ilə müqayisədə müvafiq çıxışlara daha yüksək keyfiyyətli xüsusiyyətlər təqdim edir.


• Həllimizin ikinci istiqaməti, çıxış-müdrik ortoqonal bilik distilləsi (EOKD), əsasən müxtəlif alt modellər arasında qarşıdurma ötürülməsinin azaldılmasına yönəlib. Bu hissə möhkəm çox çıxışlı şəbəkələrdə [3, 12] (yüksək rəqib ötürülməsindən əziyyət çəkən) və ya özünü distillə edən çox çıxışlı şəbəkələrdə mövcud üsullarla müqayisədə işimizin digər unikal töhfəsidir [15, 20, 24, 27. ] (bu, rəqibin ötürülməsini daha da artırır). Bizim EOKD-də i-ci çıxışda təmiz məlumatın çıxışı, i-ci çıxışda rəqib nümunənin çıxışına, çıxışa uyğun olaraq distillə edilir. Çıxış baxımından bu distillə prosesi zamanı biz Şəkil 1b-də təsvir olunduğu kimi hər bir çıxışa ortoqonal yumşaq etiketlər təqdim etməklə, fərdi çıxışların qeyri-həqiqət proqnozlarını qarşılıqlı ortoqonal olmağa təşviq edirik. Fərqli çıxış çıxışları arasında asılılıqları zəiflətməklə, EOKD şəbəkədəki bütün alt modellər arasında rəqib ötürülmə qabiliyyətini azaldır ki, bu da rəqib hücumlara qarşı möhkəmliyə gətirib çıxarır.


Arxitektura həllimizin NKD və EOKD komponentləri şəbəkədəki müxtəlif alt modellər arasında qarşıdurmanın ötürülməsini azaltmaq üçün birlikdə işləyir, eyni zamanda hər çıxışda rəqib nümunələrin proqnozlarını düzgün istiqamətləndirir. Müxtəlif verilənlər bazaları üzrə eksperimental nəticələr göstərir ki, təklif olunan strategiya çox çıxışlı şəbəkələr üçün mövcud rəqib təlim metodları ilə müqayisədə azaldılmış hesablama büdcələri ilə ən yaxşı rəqib dəqiqliyinə nail olur. Bizim həllimiz çox çıxışlı şəbəkələrə uyğunlaşdırılmış mövcud təlim strategiyaları ilə birlikdə istifadə oluna bilən “plug-and-play” metodudur.