Aurkibidea Sarrera Ezagutza Iluna Destilazio-prozedura Probatu MNIST-en MNIST-en esperimentu gehigarria 1. Sarrera Artikulu honetan, ezagutzaren destilazio-prozesua AI-n aztertuko dut: nola funtzionatzen duen, oro har, bere garrantzia eta erabiltzeko arrazoiak. Nola konprimitu eta transferi dezakegu ezagutza eredu edo multzo handiago batetik (datu-multzo oso handietan trebatu ziren datuetatik egitura ateratzeko) eredu txiki bakar batera, errendimenduan asko jaitsi gabe? Baina zergatik egin nahi dugu hau? Zergatik behar dugu eredu txikiago bat eredu edo multzo-eredu handiagoak proba-datuetan emaitza bikainak ematen ari direnean? Prestakuntza garaian normalean eredu handiak/multzoak entrenatzen ditugu, helburu nagusia datu multzo oso handietatik egitura ateratzea baita. Gauza asko ere aplika genitzake uztea, datuen gehikuntza tren-orduetan eredu handi hauek mota guztietako datuak elikatzeko. Baina iragarpen garaian gure helburua guztiz ezberdina da. Emaitzak ahalik eta azkarren lortu nahi ditugu. Beraz, eredu/multzo handiago bat erabiltzea oso garestia da eta erabiltzaile kopuru handientzako hedapena oztopatuko du. Beraz, orain galdera da nola konprimitu dezakegun eredu handiago honetatik ezagutza erraz zabaldu daitekeen eredu txikiago batean. Geoffrey Hinton-ek, Oriol Vinyals-ek eta Jeff Dean-ek beren bidez google-ko izeneko beste prestakuntza mota bat sortu zuten ezagutza hori eredu txikiagora transferitzeko. inplementazioan besarkada aurpegiak erabilitako teknika bera da. paperaren destilazioa Distill BERT Eredu txikiago hau eredu handi baten moduan entrenatzen badugu, horrela trebatutako modelo txiki honek datu berdinetan baina modu normalean trebatutako modelo txikiak baino askoz hobeto egingo du. Hau da Distilazioa atzean dagoen printzipio bat orokortzeko nagusietako 2. Ezagutza Iluna Normalean, ikaskuntza automatikoan, klase ugari bereizten ikasten duen ereduan, prestakuntzaren helburu nagusia erantzun zuzenaren batez besteko log probabilitatea maximizatzea da. Adibidez, har itzazu MNIST datu-multzoaren adibidea, non helburua irudi bat 1 edo 2 den edo ... 9 den sailkatzea den. Beraz, benetako irudia 2 bada, edozein ereduren helburua maximizatzea da (irudi jakin bat 2 izateko probabilitate gisa irakur daiteke). Baina ereduak erantzun oker guztiei probabilitateak ematen dizkie, nahiz eta probabilitate horiek oso txikiak izan, batzuk beste batzuk baino askoz handiagoak diren. Kontua da probabilitate horiek txikiak izan arren, erantzun okerren probabilitate erlatiboek eredua orokortzeko moduari buruz asko esaten digutela. Ulertzeko, ikus diezaiogun beheko adibideari. P (bere 2/irudia) Goiko irudian, 2-ren bertsio honi 10-6ko probabilitatea eman zitzaion 3 bat izateko eta 10-9koa 7 izateko, baina beste bertsio baterako alderantziz izan daiteke. Datuen gainean antzekotasun-egitura aberatsa definitzen duen informazio baliotsua da (hau da, zein 2-k 3-ren itxura duten eta zein 7-ren itxura duten esaten du), baina transferentzia-etapan zehar-entropia-kostu-funtzioan oso eragin txikia du probabilitateak zerotik gertu daudelako. Baina destilazio-prozedurara pasatu baino lehen, denbora eman dezagun ereduak benetan irteera-probabilitateak nola sortzen dituen aztertzen. Hemen sartzen da softmax aktibazioa. Ereduaren prozesamenduaren azken urratsa softmax da eta osagai honek irteerako probabilitateak ematen ditu. Softmax-en sarrera logits deitzen da eta NNren azken geruza diseinatzen dugu ezkutuko unitate kopurua = sailkatu nahi ditugun klase kopurua. Softmax kalkulatzeko formula honela ematen da Goiko ekuazioak bakoitzerako probabilitateak ematen ditu eta probabilitate guztien batura berdina da. Entrenamendu-denboran zehar, edozein prestakuntza-adibide bakar baten galera kalkulatzen da softmax probabilitate horiek helburu gogorrekin (etiketekin) alderatuz eta atzera-propagazio-koefizienteak erabiliz eguneratzen dira galera minimoa izan arte. i i Goian ikusi den bezala, softmax honek probabilitate handia ematen dio benetako etiketa bati eta probabilitate baxuak etiketa okerretan. Erantzun okerrak izateko probabilitateak txikiak izan arren informazio asko ezkutatuta daudela ikusten dugu, eta horrek eredua orokortzen laguntzen du. Horri deitzen diogu Ezagutza Iluna 3. Destilazio-prozedura Artikuluaren arabera, eredu handiagoaren orokortze gaitasunak eredu txiki batera transferitzeko modurik onena eredu astunak sortutako klase probabilitateak eredu txikia entrenatzeko gisa erabiltzea da. helburu bigun Beraz, prozesua honako hau da: Hartu eredu handiagoa entrenatzeko erabili zen jatorrizko entrenamendu-multzoa, ondoren entrenamendu-datu horiek eredu handiagotik pasa eta lortu softmax probabilitateak klase desberdinetan. Goian ikusi bezala, benetako etiketak probabilitate handia izango du eta etiketa okerrek probabilitate baxuak izango dituzte. Baina probabilitate baxu hauek informazio asko ezkutatzen dutela ikusi genuen. Beraz, probabilitate hauen garrantzia handitzeko, artikuluen egileek Tenperatura(T) izeneko aldagaia erabili zuten logit guztiak zatitzeko softmax-etik pasatu aurretik. Horrek probabilitate banaketa leunagoa sortzen du klaseetan. Jarraian ikus dezakegu Softmax tenperaturarekin (T) aplikatzearen emaitza Soft targets deitzen dioguna da. Prozesu horri egileek deitu ziotena da. destilazioa Tenperatura handituz uretan ezpurutasunak kentzearen analogia Eredu handitik ikasitako funtzioari buruzko informazio asko helburu bigunetako probabilitate oso txikien ratioetan dago. Terminologia batzuk: - modelo handiaren irteera softmax-ean T tenperatura aplikatu ondoren Helburu bigunak - eredu txikiagotik ateratakoa T tenperatura softmax-ean aplikatu ondoren Iragarpen bigunak - eredu txikiagoaren irteera tenperatura T = 1 denean (softmax arrunta) Iragarpen gogorrak - prestakuntza multzoko benetako helburuak Benetako helburuak Jarraian, prestakuntza-prozesu osoaren fluxu-diagrama dago Beraz, eredu txiki baten prestakuntza-prozesuak 2 galera-funtzio ditu. Lehen galera-funtzioak iragarpen bigunak eta helburu bigunak hartzen ditu eta entropia gurutzatuaren galera-funtzioa da. Hau da orokortze-gaitasuna eredu handitik eredu txikira transferitzeko, helburu bigunak lotzen saiatuz. Galera-funtzio honetarako, softmax-ek 'T'-ren tenperatura erabiltzen du. Egileek ere aurkitu dute eredu txikia benetako helburuak parekatzeko erabiltzeak laguntzen duela. Hau bigarren kostu-funtzioan sartzen da. Azken kostua bi kostu-funtzio hauen batez besteko haztatua da, alfa eta beta hiperparametroekin. 4. MNIST-en esperimentua Egileek MNIST datu multzoa erabili zuten ikuspegi hau probatzeko. Bi arkitektura erabili zituzten horretarako, erdiko geruzetan ezkutuko unitateen kopuruan bakarrik desberdintzen direnak. Egileek bi geruza ezkutuko sare neuronal erabili zituzten bi kasuetan 784 -> 800 -> 800 -> 10 gisa ikus daitekeen eredu txikiagoa (non 784 irudi baten dimentsio irekiak diren, 800 RELU aktibazioa duten ezkutuko unitateen kopurua eta 10 iragartzen ari garen klase kopurua). Eredu honek 146 proba-error eman zituen erregularizaziorik gabe. 784 -> 1200 -> 1200 -> 10 gisa ikus daitekeen eredu handiagoa (non 784 irudi baten dimentsio irekiak diren, 1200 RELU aktibazioa duten ezkutuko unitateen kopurua eta 10 iragartzen ari garen klase kopurua). Eredu hau MNIST-en trebatzen da abandonua, pisu-murrizketak eta sarrerako irudiak erabiliz eta sare honek 67 proba-errore lortu zituen. Eredu handiagoko hobekuntza hori eredu txiki batera transferitu al dezakegu? Egileek gaur egun sare handitik lortutako helburu bigunak eta benetako helburuak erabili zituzten irudiak utzi gabe, hau da, sare txikia erregularizatu zen sare handiak 20 tenperaturan sortutako helburu bigunak parekatzeko zeregin gehigarria gehituz eta emaitza da. 784 -> 800 -> 800 -> 10 erabiliz 74 proba akats Honek erakusten du helburu bigunek ezagutza handia transferi dezaketela eredu txikira, itzulitako prestakuntza-datuetatik ikasitakoa orokortzeari buruzko ezagutza barne. Beste era batera esanda, sarrerak eraldatzeaz lortu dugun onura sare txikira transferitzen da, nahiz eta sare txikirako sarrerak eraldatzen ez ari garen. Gauza jakina da eraldaketa desberdinen bidezko sarrerak eraldatzea eredua askoz hobeto orokortzen dela eta gure kasuan buruzko informazioa Dark ezagutzan agertzen dela eta hau helburu bigunetan ezkutatzen dela. Informazio hori ez dago True helburuetan. Beraz, helburu bigunetako informazioa erabiliz, gure sare txikiak askoz hobeto funtzionatzen du. orokortzeari Sare handiak helburu bigunak erabiliz "zer den zer den" ikasi zuen antzekotasun metrika ikasi zuen eta ezagutza transferentzia honekin, sare txikiari "zer den zer" esaten ari gara. MNIST-en gaineko esperimentu guztia behean laburbiltzen da 5. MNIST-en esperimentu gehigarria Horrez gain, egileek 3. zifrako adibideak baztertzen ere saiatu ziren destilazioa erabiliz eredu txikiagoa entrenatzerakoan. Beraz, eredu txikiaren ikuspegitik, 3 inoiz ikusi ez duen zifra mitikoa da. Eredu txikiagoak entrenamendu garaian inoiz 3 ikusi ez duenez, proba multzoan 3 topatzean errore asko egitea espero dugu. Hala eta guztiz ere, eredu destilatuak 206 proba-errore baino ez zituen egin, horietatik 133 1010 hirukoetan proba multzoan. Honek argi erakusten du eredu handiaren orokortze-gaitasunak eredu txikira transferitu zirela destilazioan zehar eta honek eredu txikiak 3 behar bezala aurreikustea eragiten du kasu gehienetan. Beraz, istorioaren morala da. Sarrerako irudiak eraldatzea asko hobetzen da orokortzea. Helburuak eraldatzea ere antzeko efektu handia du eta nonbait helburu bigunak lor ditzakegu askoz merkeagoa da, modelo txikiagoarekin errendimendu bera lor dezakegulako Erreferentziak: Hinton, Geoffrey, Oriol Vinyals eta Jeff Dean. "Ezagutza destilatu sare neuronal batean". Intellabs-ek ezagutzaren destilazioa.