paint-brush
Stoxastiki ortaça gradiýente düşünmektarapyndan@kustarev
31,735 oka
31,735 oka

Stoxastiki ortaça gradiýente düşünmek

tarapyndan Andrey Kustarev4m2024/06/06
Read on Terminal Reader
Read this story w/o Javascript

Örän uzyn; Okamak

Gradient desant, berlen obýektiw funksiýalaryň global minimasyny tapmak üçin ulanylýan meşhur optimizasiýa. Algoritm obýektiw funksiýanyň gradiýentini iň pes nokada ýetýänçä funksiýanyň eňňidinden geçmek üçin ulanýar. Doly gradient düşüşi (FG) we stohastik gradient desgasy (SGD) algoritmiň iki meşhur görnüşi. FG her gaýtalama wagtynda ähli maglumat toplumyny ulanýar we ýokary hasaplama bahasy bilen ýokary konwergensiýa derejesini üpjün edýär. Her gezek gaýtalanylanda, SGD algoritmi işletmek üçin maglumatlaryň bir bölegini ulanýar. Has täsirli, ýöne näbellilik ýakynlygy bilen. Stochastic Average Gradient (SAG), öňki algoritmleriň artykmaçlyklaryny üpjün edýän başga bir üýtgeşiklikdir. Pes hasaplama bilen ýokary konwergensiýa derejesini üpjün etmek üçin geçen gradiýentleriň ortaça mukdaryny we maglumatlar bazasynyň bir bölegini ulanýar. Algoritm wektorizasiýa we kiçi partiýalar arkaly netijeliligini ýokarlandyrmak üçin hasam üýtgedilip bilner.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Stoxastiki ortaça gradiýente düşünmek
Andrey Kustarev HackerNoon profile picture
0-item


Gradient descent, maşyn öwrenmek (ML) modellemekde iň meşhur optimizasiýa usulydyr. Algoritm çak edilýän bahalar bilen ýer hakykatynyň arasyndaky ýalňyşlygy azaldýar. Tehnika, ýalňyşlyga düşünmek we azaltmak üçin her bir maglumat nokadyny göz öňünde tutýandygy sebäpli, onuň öndürijiligi okuw maglumatlarynyň ululygyna baglydyr. Stochastic Gradient Descent (SGD) ýaly usullar, hasaplamanyň işleýşini gowulandyrmak üçin, ýöne konwergensiýanyň takyklygy bahasy bilen döredildi.


Stochastic Average Gradient, Full Gradient Descent we SGD diýlip atlandyrylýan klassiki çemeleşmäni deňleşdirýär we iki peýdasyny hem hödürleýär. Emma algoritmi ulanmazdan ozal, onuň model optimizasiýasy üçin ähmiýetine düşünmelidiris.

Gradient aşaklygy bilen maşyn öwrenmegiň maksatlaryny optimizirlemek

Her ML algoritminde modeliň işleýşini azaltmagy ýa-da gowulandyrmagy maksat edinýän ýitgi funksiýasy bar. Matematiki taýdan ýitgini aşakdaky ýaly kesgitläp bolar:


Diňe hakyky we çak edilýän netijäniň arasyndaky tapawut, bu tapawudy azaltmak modelimiziň ýer hakykat gymmatlyklaryna has ýakynlaşýandygyny aňladýar.


Minimallaşdyrma algoritmi ýitginiň funksiýasyny kesmek we global minimal tapmak üçin gradient desgany ulanýar. Her bir ädim ädimi optimizirlemek üçin algoritmiň agramlaryny täzelemegi öz içine alýar.


Düz Gradient aşaklygy

Adaty gradient desganyň algoritmi, ähli maglumatlar bazasynda hasaplanan ähli gradiýentleriň ortaça mukdaryny ulanýar. Trainingekeje okuw mysalynyň ömri aşakdaky ýaly görünýär:



Agramy täzeleme deňlemesi aşakdakylara meňzeýär:

W modeliň agramlaryny görkezýär we dJ/dW modeliň agramyna görä ýitgi funksiýasynyň emele gelýär. Adaty usul ýokary konwergensiýa derejesine eýe, ýöne millionlarça maglumat nokatlaryndan ybarat uly maglumatlar bazalary bilen iş salyşanda hasaplaýyş taýdan gymmat bolýar.

Stoxastik gradient aşaklygy (SGD)

SGD usulyýeti ýönekeý GD bilen üýtgewsiz galýar, ýöne gradiýentleri hasaplamak üçin tutuş maglumat bazasyny ulanmagyň ýerine girişlerden kiçijik partiýa ulanýar. Bu usul has täsirli, ýöne global minimanyň töwereginde gaty köp umyt edip biler, sebäbi her gezek gaýtalamak öwrenmek üçin maglumatlaryň diňe bir bölegini ulanýar.

Stoxastiki ortaça gradient

Stochastic Average Gradient (SAG) çemeleşmesi GD we SGD arasynda orta ýer hökmünde girizildi. Tötänleýin maglumat nokadyny saýlaýar we şol wagt gradiýentine we şol belli bir nokat üçin saklanylýan öňki gradiýentleriň ortaça bahasyna görä bahasyny täzeleýär.


SGD-e meňzeş, SAG her meseläni gutarnykly jemleýji, tapawutly funksiýalar hökmünde modellendirýär. Islendik gezek gaýtalanylanda, häzirki gradiýentleri we agramy ýokarlandyrmak üçin öňki gradiýentleriň ortaça mukdaryny ulanýar. Deňlik aşakdaky görnüşi alýar:



Konwergensiýa derejesi

Iki meşhur algoritm, doly gradient (FG) we stohastik gradient desgasy (SGD) arasynda, FG algoritmi has gowy konwergensiýa derejesine eýe, sebäbi hasaplamak üçin her gezek gaýtalanylanda ähli maglumatlary ulanýar.

SAG-nyň SGD-e meňzeş gurluşy bar bolsa-da, onuň konwergensiýa tizligi doly gradient çemeleşmesi bilen deňeşdirilýär we käwagt has gowy. Aşakdaky 1-nji tablisada geçirilen synaglaryň netijeleri jemlenendir Şmidt we başgalar. al .

Çeşme: https://arxiv.org/pdf/1309.2388

Goşmaça üýtgetmeler

Ajaýyp öndürijiligine garamazdan, öndürijiligi gowulaşdyrmak üçin asyl SGD algoritmine birnäçe üýtgetmeler teklip edildi.


  • Irki Iterasiýalarda täzeden agram salmak: Algoritm n (maglumat nokatlarynyň umumy sany) bilen ugry kadalaşdyrýanlygy sebäpli ilkinji birnäçe gaýtalanma wagtynda SAG konwergensiýasy haýal bolup galýar. Bu nädogry baha berýär, sebäbi algoritm entek köp maglumat nokadyny görmedi. Üýtgetme, n däl-de, m bilen kadalaşmagy teklip edýär, bu ýerde m şol takyklama çenli iň bolmanda bir gezek görlen maglumat nokatlarynyň sanydyr.
  • Mini-partiýalar: Stochastic Gradient çemeleşmesi, bir wagtyň özünde birnäçe maglumat nokatlaryny gaýtadan işlemek üçin kiçi partiýalary ulanýar. Şol bir çemeleşme SAG-da ulanylyp bilner. Bu, kompýuteriň netijeliligini ýokarlandyrmak üçin wektorizasiýa we parallelizasiýa mümkinçilik berýär. Şeýle hem, SAG algoritmi üçin esasy kynçylyk bolan ýadyň ýüküni azaldýar.
  • Stepdim ölçegli synag: Öň agzalan ädim ululygy (116L) ajaýyp netijeleri berýär, ýöne awtorlar 1L ädim ululygyny ulanyp hasam synag etdiler. Soňkusy has gowy ýakynlygy üpjün etdi. Şeýle-de bolsa, awtorlar gowulaşan netijeleriň resmi derňewini hödürläp bilmediler. Basgançagyň ululygy belli bir mesele üçin iň amatly birini tapmak üçin synag edilmeli diýen netijä gelýärler.


Jemleýji pikirler

Gradient desant, berlen obýektiw funksiýalaryň global minimasyny tapmak üçin ulanylýan meşhur optimizasiýa. Algoritm obýektiw funksiýanyň gradiýentini iň pes nokada ýetýänçä funksiýanyň eňňidinden geçmek üçin ulanýar.

Doly gradient düşüşi (FG) we stohastik gradient desgasy (SGD) algoritmiň iki meşhur görnüşi. FG her gaýtalama wagtynda ähli maglumat toplumyny ulanýar we ýokary hasaplama bahasy bilen ýokary konwergensiýa derejesini üpjün edýär. Her gezek gaýtalanylanda, SGD algoritmi işletmek üçin maglumatlaryň bir bölegini ulanýar. Has täsirli, ýöne näbellilik ýakynlygy bilen.


Stochastic Average Gradient (SAG), öňki algoritmleriň ikisiniň hem peýdasyny üpjün edýän başga bir üýtgeşiklikdir. Pes hasaplama bilen ýokary konwergensiýa tizligini üpjün etmek üçin ortaça gradiýentleriň we maglumatlar bazasynyň bir bölegini ulanýar. Algoritm wektorizasiýa we kiçi partiýalar arkaly netijeliligini ýokarlandyrmak üçin hasam üýtgedilip bilner.