Sadržaj Uvod Mračno znanje Postupak destilacije Eksperimentirajte na MNIST-u Dodatni eksperiment na MNIST-u 1. Uvod U ovom ću članku istražiti proces destilacije znanja u umjetnoj inteligenciji — kako općenito funkcionira, njegov značaj i razloge za njegovu upotrebu. Kako možemo komprimirati i prenijeti znanje iz većeg modela ili skupa modela (koji su obučeni na vrlo velikim skupovima podataka za izdvajanje strukture iz podataka) u jedan mali model bez puno pada u izvedbi? Ali zašto to želimo učiniti? Zašto nam treba manji model kada veći model ili skupni model već daje izvrsne rezultate na testnim podacima? Tijekom obuke obično obučavamo veliki/skupinu modela jer je glavni cilj izdvojiti strukturu iz vrlo velikih skupova podataka. Također bismo mogli primijeniti mnoge stvari kao što je ispadanje, povećanje podataka u vrijeme vlaka kako bismo ovim velikim modelima dostavili sve vrste podataka. Ali u vrijeme predviđanja naš cilj je potpuno drugačiji. Želimo rezultate postići što je brže moguće. Stoga je korištenje većeg/skupine modela vrlo skupo i ometat će implementaciju velikom broju korisnika. Dakle, sada je pitanje kako možemo komprimirati znanje iz ovog većeg modela u manji model koji se može lako implementirati. Geoffrey Hinton, Oriol Vinyals i Jeff Dean iz Googlea kroz svoje osmislili su drugačiju vrstu obuke koja se zove kako bi ovo znanje prenijeli na manji model. Ovo je ista tehnika koju grljenje lica koristi u njihovoj implementaciji . radove destilacija Distill BERT Ako možemo istrenirati ovaj manji model da na isti način kao veliki model, onda će ovaj manji model istreniran na ovaj način biti puno bolji od manjeg modela istreniranog na istim podacima, ali na normalan način. Ovo je jedno od načela destilacije generalizira glavnih 2. Mračno znanje Obično je u strojnom učenju, modelu koji uči razlikovati veliki broj klasa, glavni cilj obuke maksimizirati prosječnu log vjerojatnost točnog odgovora. Na primjer, uzmimo primjer skupa podataka MNIST gdje je cilj klasificirati sliku prema tome je li 1 ili 2 ili ... 9. Dakle, ako je stvarna slika 2, onda je cilj bilo kojeg modela maksimizirati (što se može čitati kao vjerojatnost da je određena slika 2 s obzirom na sliku). Ali model također daje vjerojatnosti za sve netočne odgovore iako su te vjerojatnosti vrlo male, neke od njih su puno veće od drugih. Poanta je da iako su te vjerojatnosti male, relativne vjerojatnosti netočnih odgovora govore nam puno o tome kako se model može generalizirati. Da bismo to razumjeli, pogledajmo primjer u nastavku. P (njegov 2/slika) Na gornjoj slici, ovoj verziji 2 dana je vjerojatnost 10-6 da bude 3 i 10-9 da bude 7, dok za drugu verziju može biti obrnuto. Ovo su vrijedne informacije koje definiraju bogatu strukturu sličnosti nad podacima (tj. govore koje dvojke izgledaju kao trojke, a koje kao sedmice), ali ima vrlo mali utjecaj na funkciju troškova unakrsne entropije tijekom faze prijenosa jer su vjerojatnosti tako blizu nule. Ali prije nego što prijeđemo na postupak destilacije, posvetimo vrijeme tome kako je model zapravo proizveo izlazne vjerojatnosti. Ovdje dolazi softmax aktivacija. Zadnji korak obrade modela je softmax i ova komponenta je ono što daje izlazne vjerojatnosti. Unos u softmax naziva se logits i dizajniramo završni sloj NN na takav način da je broj skrivenih jedinica = broj klasa koje želimo klasificirati. Formula za izračun softmax-a dana je kao Gornja jednadžba daje vjerojatnosti za svaki , a zbroj svih vjerojatnosti ukupnog jednak je 1. Tijekom vremena obuke, gubitak za bilo koji pojedinačni primjer obuke izračunava se usporedbom ovih softmax vjerojatnosti s tvrdim ciljevima (oznakama) i korištenjem koeficijenata povratne propagacije koji se ažuriraju dok gubitak ne bude minimalan. i i Kao što se vidi gore, ovaj softmax daje veliku vjerojatnost za pravu oznaku i malu vjerojatnost za netočne oznake. Također vidimo da vjerojatnosti netočnih odgovora, iako male, u sebi kriju puno informacija koje pomažu modelu generalizirati. To zovemo Mračno znanje 3. Postupak destilacije Prema radu, najbolji način za prijenos sposobnosti generalizacije većeg modela na mali model je korištenje klasnih vjerojatnosti koje proizvodi glomazni model kao za obuku malog modela. meke mete Dakle, postupak je sljedeći: Uzmite originalni set za obuku koji je korišten za obuku većeg modela, a zatim proslijedite te podatke o obuci kroz veći model i dobijete softmax vjerojatnosti za različite klase. Kao što se vidi gore, prava oznaka će imati visoku vjerojatnost, a netočna oznaka će imati malu vjerojatnost. Ali vidjeli smo da se u ovim malim vjerojatnostima skriva mnogo informacija. Kako bi povećali važnost ovih vjerojatnosti, autori radova koristili su varijablu pod nazivom Temperatura(T) za dijeljenje svih logita prije prolaska kroz softmax. To proizvodi mekšu distribuciju vjerojatnosti po klasama. Možemo vidjeti ispod Izlaz primjene softmaxa s temperaturom (T) je ono što nazivamo mekim ciljevima. Ovaj proces autori nazivaju . destilacijom Analogija s uklanjanjem nečistoća u vodi povećanjem temperature Velik dio informacija o naučenoj funkciji iz velikog modela nalazi se u omjerima vrlo malih vjerojatnosti u mekim metama. Neka terminologija: - izlaz iz velikog modela nakon primjene temperature T tijekom softmax-a Meke mete - izlaz iz manjeg modela nakon primjene temperature T tijekom softmax-a Meka predviđanja - izlaz iz manjeg modela kada je temperatura T = 1 (regularni softmax) Čvrsta predviđanja - stvarni ciljevi iz skupa za trening Pravi ciljevi Ispod je dijagram toka cijelog procesa obuke Dakle, proces obuke za mali model ima 2 funkcije gubitka. Prva funkcija gubitka uzima i meka predviđanja i meke ciljeve te je funkcija gubitka entropije. Ovo je način na koji se sposobnost generalizacije prenosi s velikog modela na mali model pokušavajući spojiti meke mete. Za ovu funkciju gubitka, oba softmaxa koriste temperaturu 'T'. Autori su također otkrili da korištenje malog modela za usklađivanje pravih ciljeva pomaže. To je uključeno u drugu funkciju troška. Konačni trošak je ponderirani prosjek ove dvije funkcije troška s hiperparametrima alfa i beta. 4. Eksperiment na MNIST-u Autori su koristili skup podataka MNIST-a za testiranje ovog pristupa. Za to su koristili dvije arhitekture koje se razlikuju samo u broju skrivenih jedinica u srednjim slojevima. Autori su u oba slučaja koristili dvoslojnu neuronsku mrežu skrivenog sloja Manji model koji se može vidjeti kao 784 -> 800 -> 800 -> 10 (gdje je 784 razmotana dimenzija slike, 800 je broj skrivenih jedinica s RELU aktivacijom, a 10 je broj klasa koje predviđamo). Ovaj model je dao 146 grešaka u testiranju bez regularizacije. Veći model koji se može vidjeti kao 784 -> 1200 -> 1200 -> 10 (gdje je 784 razmotana dimenzija slike, 1200 je broj skrivenih jedinica s RELU aktivacijom, a 10 je broj klasa koje predviđamo). Ovaj je model uvježban na MNIST-u korištenjem ispadanja, ograničenja težine i podrhtavanja ulaznih slika i ova je mreža postigla 67 pogrešaka pri testiranju. Možemo li ovo poboljšanje u većem modelu prenijeti na mali model? Autori su sada koristili i meke mete dobivene iz velike mreže i prave mete bez ispadanja i bez podrhtavanja slika, tj. manja mreža je regulirana isključivo dodavanjem dodatnog zadatka usklađivanja mekih meta koje je proizvela velika mreža na temperaturi od 20 i rezultat je. koristeći 784 -> 800 -> 800 -> 10 74 testne pogreške Ovo pokazuje da meke mete mogu prenijeti velik dio znanja na mali model, uključujući znanje o tome kako generalizirati koje se uči iz prevedenih podataka o obuci. Drugim riječima, korist koju smo dobili transformacijom inputa prenosi se na malu mrežu iako ne transformiramo inpute za malu mrežu. Dobro je poznata činjenica da transformacija inputa različitim transformacijama čini model generalizacijom mnogo boljom, au našem slučaju informacije o tome kako se pojavljuju u Dark knowledge i to se skriva u mekim ciljevima. Nijedna od ovih informacija nije u Pravim ciljevima. Dakle, korištenjem informacija iz mekih meta naša mala mreža radi mnogo bolje. generalizirati Velika mreža koja koristi meke mete naučila je metriku sličnosti koja je naučila 'što je slično' i ovim prijenosom znanja maloj mreži govorimo 'što je slično' Svi gore navedeni eksperimenti na MNIST-u sažeti su u nastavku 5. Dodatni eksperiment na MNIST-u Osim toga, autori su također pokušali izostaviti primjere znamenke 3 kada su trenirali manji model koristeći destilaciju. Dakle, iz perspektive malog modela, 3 je mitska znamenka koju nikada nije vidio. Budući da manji model nikada nije vidio 3 tijekom treninga, očekujemo da će napraviti mnogo pogrešaka kada naiđe na 3 u testnom setu. Unatoč tome, destilirani model napravio je samo 206 pogrešaka u testu od kojih su 133 na 1010 trica u testnom setu. Ovo jasno pokazuje da su mogućnosti generalizacije velikog modela prenesene na mali model tijekom destilacije i to uzrokuje da mali model točno predvidi 3 u većini slučajeva Moral priče je takav. Transformacija ulaznih slika uvelike poboljšava generalizaciju. Transformacija meta također ima sličan veliki učinak i ako možemo nabaviti meke mete odnekud, to je mnogo jeftinije jer možemo dobiti istu izvedbu s manjim modelom Reference: Hinton, Geoffrey, Oriol Vinyals i Jeff Dean. “Destilacija znanja u neuronskoj mreži.” Destilacija znanja od strane intellabsa.