396 lukemat

Tietoon perustuvaa kontradiktorista koulutusta vankille monilähtöisille hermoverkoille

kirjoittaja EScholar: Electronic Academic Papers for Scholars5m2024/09/30

Liian pitkä; Lukea

NEO-KD on uusi vastavuoroinen koulutusstrategia monen ulostulon hermoverkkoille, jossa käytetään naapuri- ja poistumiskohtaista ortogonaalista tiedon tislaamista parantaakseen hyökkäyksiä vastaan ja vähentääkseen kilpailevaa siirrettävyyttä alimallien välillä.

featured image - Tietoon perustuvaa kontradiktorista koulutusta vankille monilähtöisille hermoverkoille

Tekijät:

(1) Seokil Ham, KAIST;

(2) Jungwuk Park, KAIST;

(3) Dong-Jun Han, Purduen yliopisto;

(4) Jaekyun Moon, KAIST.

Linkkitaulukko

Tiivistelmä ja 1. Johdanto

2. Aiheeseen liittyvät teokset

3. Ehdotettu NEO-KD-algoritmi ja 3.1 ongelman määritys: kontradiktorinen koulutus monen poistumisen verkoissa

3.2 Algoritmin kuvaus

4. Kokeet ja 4.1 Kokeellinen asennus

4.2. Tärkeimmät kokeen tulokset

4.3. Ablaatiotutkimukset ja -keskustelut

5. Johtopäätös, tunnustus ja viitteet

A. Kokeilun tiedot

B. Puhdas testin tarkkuus ja C. Vastavuoroinen koulutus keskimääräisen hyökkäyksen kautta

D. Hyperparametrien viritys

E. Keskustelut suorituskyvyn heikkenemisestä myöhemmissä poistumisissa

F. Vertailu yhden poistumisen verkkojen viimeaikaisiin puolustusmenetelmiin

G. Vertailu SKD:hen ja ARD:hen ja H. Vahvempien hyökkääjäalgoritmien toteutukset

Abstrakti

Vaikka usean poistumisen hermoverkkoja pidetään lupaavana ratkaisuna tehokkaiden päätelmien tekemiseen varhaisten poistumisten kautta, vastakkaisten hyökkäysten torjunta on edelleen haastava ongelma. Monen liittymän verkoissa eri alimallien välisestä suuresta riippuvuudesta johtuen tiettyyn uloskäyntiin kohdistettu vastakkainen esimerkki ei ainoastaan heikennä kohdepoistumispisteen suorituskykyä, vaan myös kaikkien muiden samanaikaisten poistumisten suorituskykyä. Tämä tekee usean liittymän verkoista erittäin haavoittuvia yksinkertaisille vastakkaisille hyökkäyksille. Tässä artikkelissa ehdotamme NEO-KD:tä, tietoon perustuvaa kontradiktorista koulutusstrategiaa, joka vastaa tähän perustavanlaatuiseen haasteeseen kahden keskeisen panoksen perusteella. NEO-KD turvautuu ensin naapuritiedon tislaamiseen ohjatakseen kontradiktoristen esimerkkien ulostuloa puhtaan datan naapurilähtöjen ensemble-lähtöihin. NEO-KD käyttää myös poistumiskohtaista ortogonaalista tiedon tislaamista vähentääkseen ristiriitaista siirrettävyyttä eri alimallien välillä. Tuloksena on huomattavasti parempi kestävyys vihollisia hyökkäyksiä vastaan. Kokeelliset tulokset eri tietojoukoista/malleista osoittavat, että menetelmämme saavuttaa parhaan kilpailutarkkuuden pienemmillä laskentabudjeteilla verrattuna lähtötasoihin, jotka perustuvat olemassa olevaan kontradiktoriseen koulutukseen tai tietämyksen tislaustekniikoihin monen liittymän verkoissa.

1 Johdanto

Monilähtöiset neuroverkot saavat merkittävää huomiota [9, 13, 26, 27, 28, 32] kyvystään tehdä dynaamisia ennusteita resurssirajoitteisissa sovelluksissa. Sen sijaan, että tekisit ennusteita koko mallin lopputuloksessa, nopeampi ennuste voidaan tehdä aikaisemmassa poistumisvaiheessa riippuen nykyisestä aikabudjetista tai laskentabudjetista. Tässä mielessä monilähtöverkkoa voidaan pitää arkkitehtuurina, jossa on useita alimalleja, jossa kukin alimalli koostuu parametreista mallin syötöstä tietyn ulostulon lähtöön. Nämä alimallit korreloivat voimakkaasti, koska niillä on yhteisiä malliparametreja. Tiedetään myös, että kaikkien alimallien suorituskykyä voidaan parantaa tislaamalla tietoa viimeisestä uloskäynnistä muihin ulostuloihin eli itsetislauksella [15, 20, 24, 27]. On myös pyritty käsittelemään kontradiktorisiin hyökkäyksiin liittyviä kysymyksiä usean ulostulon verkkojen yhteydessä [3, 12].

Vastustuskyvyn tarjoaminen vastustavia hyökkäyksiä vastaan on erityisen haastavaa monen liittymän verkoissa: koska eri alimalleilla on korkeat korrelaatiot parametrien jakamisen vuoksi, tiettyyn poistumiskohtaan kohdistettu kontradiktorinen esimerkki voi merkittävästi heikentää muiden alimallien suorituskykyä. Toisin sanoen kilpailevalla esimerkillä voi olla vahva kilpailemisen siirrettävyys eri alimallien välillä, mikä tekee mallista erittäin haavoittuvan yksinkertaisille vastakkaisille hyökkäyksille (esim. yhteen uloskäyntiin kohdistuva kilpaileva hyökkäys).

Motivaatio . Vain muutamat aikaisemmat työt ovat keskittyneet kontradiktorisiin puolustusstrategioihin monen ulostulon verkostoissa [3, 12]. [12]:n kirjoittajat keskittyivät monipoistumisverkkoihin räätälöityjen vastakkaisten esimerkkien luomiseen (esim. näytteiden generointi max-average-hyökkäyksen avulla) ja kouluttivat mallin minimoimaan kaikkien poistumisten puhtaiden ja vastakkaisten tappioiden summa. Kun otetaan huomioon julkaisussa [12] muodostettu kontradiktorinen esimerkki, julkaisun [3] kirjoittajat ehdottivat regularisointitermiä luokittelijan painojen vähentämiseksi jokaisessa harjoittelun aikana. Olemassa olevat kilpailevat puolustusstrategiat [3, 12] eivät kuitenkaan suoraan käsittele eri alimallien välisiä korkeita korrelaatioita, mikä johtaa korkeaan kontradiktoriseen siirrettävyyteen ja rajoitettuun kestävyyteen usean ulostulon verkoissa. Tämän ongelman ratkaisemiseksi otamme tietoon perustuvan lähestymistavan tavalla, joka on ortogonaalinen aiempiin töihin nähden [3, 12]. Jotkut aiemmat tutkimukset [8, 23, 33, 34] ovat osoittaneet, että tiedon tislaamista voidaan hyödyntää mallin robustisuuden parantamiseksi perinteisissä yhden ulostulon verkoissa. Vaikka itsetislauksesta on olemassa laajoja töitä puhtaan datan avulla tapahtuvien monilähtöisten verkkojen koulutukseen [15, 20, 24, 27], tällä hetkellä ei tiedetä, kuinka tislaustekniikoita tulisi hyödyntää monilähtöisten verkkojen kontradiktorisessa koulutuksessa. Lisäksi, kun olemassa olevia tislaukseen perustuvia järjestelmiä sovelletaan monilähtöverkkoihin, alimallien väliset riippuvuudet kasvavat, koska sama tulos (esim. viimeisimmän poistumisen tieto) tislataan kaikkiin alimalleihin. Näiden rajoitusten motivoimana esitämme seuraavat kysymykset: Kuinka voimme hyödyntää tiedon tislaamista parantaaksemme monikanavaisten verkkojen vastustavaa kestävyyttä? Samalla, kuinka voimme vähentää kontradiktorista siirrettävyyttä eri alimallien välillä usean ulostulon verkoissa?

Tärkeimmät panokset. Näiden kysymysten ratkaisemiseksi ehdotamme NEO-KD:tä, tietoon perustuvaa kontradiktorista koulutusstrategiaa, joka on erittäin räätälöity vankoihin monilähtöisiin hermoverkkoihin. Ratkaisumme on kaksitahoinen: naapuritiedon tislaus ja lähtökohtaisesti ortogonaalinen tiedon tislaus.

• Tietyllä poistumispisteellä ratkaisumme ensimmäinen osa, naapuritiedon tislaus (NKD), tislaa puhtaan datan naapuripoistumisten kootut ennusteet vastaavan ulostulon vastakkaisen esimerkin ennustukseen, kuten kuvassa 1a esitetään. Tämä menetelmä ohjaa kilpailevien esimerkkien tulosteita puhtaan datan tulosten seuraamiseen, mikä parantaa kestävyyttä kilpailevia hyökkäyksiä vastaan. Kokoamalla puhtaan datan naapuriennusteet ennen tislausta, NKD tarjoaa korkealaatuisempia ominaisuuksia vastaaville ulostuloille verrattuna kaavion tislaamiseen vain yhdellä ulostulolla samassa paikassa.

• Ratkaisumme toinen painopiste, exit-wise ortogonaalinen tietämyksen tislaus (EOKD), tähtää pääasiassa kontradiktorisen siirrettävyyden vähentämiseen eri alimallien välillä. Tämä osa on toinen ainutlaatuinen panos työstämme verrattuna olemassa oleviin menetelmiin vankaissa monipoistumisverkoissa [3, 12] (jotka kärsivät korkeasta kontradiktorisesta siirrettävyydestä) tai itsetislauspohjaisiin monilähtöverkkoihin [15, 20, 24, 27 ] (joka lisää edelleen kontradiktorista siirrettävyyttä). EOKD:ssämme puhtaan datan ulostulo i:nnessä uloskäynnissä tislataan kontradiktorisen näytteen ulostuloksi i:nnessä uloskäynnissä poistumiskohtaisella tavalla. Tämän poistumiskohtaisen tislausprosessin aikana rohkaisemme yksittäisten uloskäyntien ei-maa-totuusennusteita olemaan keskenään ortogonaalisia tarjoamalla kohtisuorat pehmeät etiketit jokaiselle ulostulolle, kuten kuvassa 1b on kuvattu. Heikentää eri poistumislähtöjen välisiä riippuvuuksia, EOKD vähentää kontradiktorista siirrettävyyttä kaikissa verkon alimalleissa, mikä johtaa parempaan kestävyyteen kilpailevia hyökkäyksiä vastaan.

Arkkitehtonisen ratkaisumme NKD- ja EOKD-komponentit toimivat yhdessä vähentääkseen ristiriitaista siirrettävyyttä verkon eri alimallien välillä samalla kun ne ohjaavat oikein vastakkaisten esimerkkien ennusteita kussakin uloskäynnissä. Eri tietojoukkojen kokeelliset tulokset osoittavat, että ehdotettu strategia saavuttaa parhaan kilpailutarkkuuden pienemmillä laskentabudjeteilla verrattuna olemassa oleviin kilpaileviin koulutusmenetelmiin monen liittymän verkoissa. Ratkaisumme on plug-and-play -menetelmä, jota voidaan käyttää yhdessä olemassa olevien koulutusstrategioiden kanssa, jotka on räätälöity monilähtöisiin verkkoihin.