31,906 lekti

Konprann stochastic mwayèn gradyan

pa Andrey Kustarev4m2024/06/06

IDMore

Twò lontan; Pou li

Desandan gradyan se yon optimize popilè yo itilize pou lokalize minimòm mondyal fonksyon objektif yo bay yo. Algorithm la sèvi ak gradyan fonksyon objektif la pou travèse pant fonksyon an jiskaske li rive nan pwen ki pi ba a. Full Gradient Descent (FG) ak Stochastic Gradient Descent (SGD) se de varyasyon popilè nan algorithm la. FG itilize tout seri done a pandan chak iterasyon epi li bay yon pousantaj dirèksyon segondè a yon pri kalkil segondè. Nan chak iterasyon, SGD itilize yon sous-ensemble done pou kouri algorithm la. Li se byen lwen pi efikas men ak yon dirèksyon ensèten. Stochastic Average Gradient (SAG) se yon lòt varyasyon ki bay benefis tou de algorithm anvan yo. Li itilize mwayèn gradyan sot pase yo ak yon sou-ansanm done yo pou bay yon pousantaj dirèksyon wo ak kalkil ki ba. Algorithm la ka plis modifye pou amelyore efikasite li yo lè l sèvi avèk vektorizasyon ak mini-lo.

People Mentioned

Companies Mentioned

featured image - Konprann stochastic mwayèn gradyan

Desandan gradyan se teknik optimize ki pi popilè nan modèl aprantisaj machin (ML). Algorithm la minimize erè ki genyen ant valè yo prevwa ak verite tè a. Depi teknik la konsidere chak pwen done pou konprann epi minimize erè a, pèfòmans li depann de gwosè done fòmasyon an. Teknik tankou Stochastic Gradient Descent (SGD) yo fèt pou amelyore pèfòmans nan kalkil men nan pri a nan presizyon dirèksyon.

Stochastic Average Gradient balanse apwòch klasik la, ke yo rele Full Gradient Descent ak SGD, epi li ofri tou de benefis yo. Men, anvan nou ka itilize algorithm la, nou dwe premye konprann siyifikasyon li pou optimize modèl.

Optimize objektif aprantisaj machin ak desandan gradyan

Chak algorithm ML gen yon fonksyon pèt ki asosye ki vize pou minimize oswa amelyore pèfòmans modèl la. Matematikman, pèt la ka defini kòm:

Li se tou senpleman diferans ki genyen ant pwodiksyon aktyèl la ak pwodiksyon prevwa a, epi minimize diferans sa a vle di ke modèl nou an vin pi pre valè verite tè a.

Algorithm minimize a sèvi ak desandan gradyan pou travèse fonksyon pèt la epi jwenn yon minimòm mondyal. Chak etap traversal enplike mete ajou pwa algorithm la pou optimize pwodiksyon an.

Desandan Gradyan Plain

Algorithm desandan gradyan konvansyonèl la itilize mwayèn tout gradyan yo kalkile sou tout seri done a. Sik lavi yon egzanp fòmasyon sèl sanble sa ki annapre yo:

Ekwasyon aktyalizasyon pwa a sanble ak sa ki annapre yo:

Ki kote W reprezante pwa modèl yo ak dJ/dW se derive fonksyon pèt la ki gen rapò ak pwa modèl la. Metòd konvansyonèl la gen yon to dirèksyon segondè, men li vin chè nan domèn enfòmatik lè w ap fè fas ak gwo seri done ki gen plizyè milyon pwen done.

Desandan gradyan stochastik (SGD)

Metodoloji SGD rete menm jan ak GD plenn, men olye pou yo sèvi ak tout seri done a pou kalkile gradyan yo, li itilize yon ti pakèt soti nan antre yo. Metòd la pi efikas men li ka sote twòp nan minimòm mondyal yo paske chak iterasyon itilize sèlman yon pati nan done yo pou aprann.

Stochastic mwayèn gradyan

Apwòch stochastic mwayèn gradyan (SAG) te prezante kòm yon tè presegondè ant GD ak SGD. Li chwazi yon pwen done o aza epi mete ajou valè li yo ki baze sou gradyan an nan pwen sa a ak yon mwayèn filaplon nan gradyan ki sot pase yo ki estoke pou pwen done patikilye sa a.

Menm jan ak SGD, SAG modèl chak pwoblèm kòm yon sòm fini nan fonksyon konvèks, diferansyab. Nan nenpòt iterasyon, li sèvi ak gradyan prezan yo ak mwayèn gradyan anvan yo pou aktyalizasyon pwa. Ekwasyon an pran fòm sa a:

Pousantaj dirèksyon

Ant de algorithm popilè yo, plen gradyan (FG) ak desandan gradyan stochastic (SGD), algorithm FG la gen yon pi bon pousantaj dirèksyon paske li itilize tout seri done pandan chak iterasyon pou kalkil.

Malgre ke SAG gen yon estrikti ki sanble ak SGD, to dirèksyon li yo konparab ak pafwa pi bon pase apwòch la plen gradyan. Tablo 1 anba a rezime rezilta yo nan eksperyans yo nan Schmidt et. al .

Plis Modifikasyon

Malgre pèfòmans etonan li yo, yo te pwopoze plizyè modifikasyon nan algorithm SGD orijinal la pou ede amelyore pèfòmans.

Re-pondération nan iterasyon bonè: dirèksyon SAG rete dousman pandan premye iterasyon yo depi algorithm la nòmalize direksyon an ak n (kantite total pwen done). Sa a bay yon estimasyon kòrèk kòm algorithm la poko wè anpil pwen done. Modifikasyon an sijere nòmalize pa m olye de n, kote m se kantite pwen done yo wè omwen yon fwa jiskaske iterasyon an patikilye.
Mini-lo: Apwòch Gradient Stochastic la itilize mini-lo pou trete plizyè pwen done ansanm. Menm apwòch la ka aplike nan SAG. Sa a pèmèt pou vektorizasyon ak paralelizasyon pou amelyore efikasite òdinatè. Li tou redwi chaj memwa, yon defi enpòtan pou algorithm SAG la.
Eksperyans Etap-Gwosè: Gwosè etap mansyone pi bonè (116L) bay rezilta etonan, men otè yo te fè eksperyans plis lè yo itilize gwosè etap 1L. Lèt la bay menm pi bon dirèksyon. Sepandan, otè yo pa t 'kapab prezante yon analiz fòmèl nan rezilta yo amelyore. Yo konkli ke gwosè etap la ta dwe fè eksperyans ak jwenn youn nan pi bon pou pwoblèm nan espesifik.

Panse final yo

Full Gradient Descent (FG) ak Stochastic Gradient Descent (SGD) se de varyasyon popilè nan algorithm la. FG itilize tout seri done a pandan chak iterasyon epi li bay yon pousantaj dirèksyon segondè a yon pri kalkil segondè. Nan chak iterasyon, SGD itilize yon sous-ensemble done pou kouri algorithm la. Li se byen lwen pi efikas men ak yon dirèksyon ensèten.

Stochastic Average Gradient (SAG) se yon lòt varyasyon ki bay benefis tou de algorithm anvan yo. Li itilize mwayèn gradyan sot pase yo ak yon sou-ansanm done yo pou bay yon pousantaj dirèksyon wo ak kalkil ki ba. Algorithm la ka plis modifye pou amelyore efikasite li yo lè l sèvi avèk vektorizasyon ak mini-lo.