Desandan gradyan se teknik optimize ki pi popilè nan modèl aprantisaj machin (ML). Algorithm la minimize erè ki genyen ant valè yo prevwa ak verite tè a. Depi teknik la konsidere chak pwen done pou konprann epi minimize erè a, pèfòmans li depann de gwosè done fòmasyon an. Teknik tankou Stochastic Gradient Descent (SGD) yo fèt pou amelyore pèfòmans nan kalkil men nan pri a nan presizyon dirèksyon.
Stochastic Average Gradient balanse apwòch klasik la, ke yo rele Full Gradient Descent ak SGD, epi li ofri tou de benefis yo. Men, anvan nou ka itilize algorithm la, nou dwe premye konprann siyifikasyon li pou optimize modèl.
Chak algorithm ML gen yon fonksyon pèt ki asosye ki vize pou minimize oswa amelyore pèfòmans modèl la. Matematikman, pèt la ka defini kòm:
Li se tou senpleman diferans ki genyen ant pwodiksyon aktyèl la ak pwodiksyon prevwa a, epi minimize diferans sa a vle di ke modèl nou an vin pi pre valè verite tè a.
Algorithm minimize a sèvi ak desandan gradyan pou travèse fonksyon pèt la epi jwenn yon minimòm mondyal. Chak etap traversal enplike mete ajou pwa algorithm la pou optimize pwodiksyon an.
Algorithm desandan gradyan konvansyonèl la itilize mwayèn tout gradyan yo kalkile sou tout seri done a. Sik lavi yon egzanp fòmasyon sèl sanble sa ki annapre yo:
Ekwasyon aktyalizasyon pwa a sanble ak sa ki annapre yo:
Ki kote W
reprezante pwa modèl yo ak dJ/dW
se derive fonksyon pèt la ki gen rapò ak pwa modèl la. Metòd konvansyonèl la gen yon to dirèksyon segondè, men li vin chè nan domèn enfòmatik lè w ap fè fas ak gwo seri done ki gen plizyè milyon pwen done.
Metodoloji SGD rete menm jan ak GD plenn, men olye pou yo sèvi ak tout seri done a pou kalkile gradyan yo, li itilize yon ti pakèt soti nan antre yo. Metòd la pi efikas men li ka sote twòp nan minimòm mondyal yo paske chak iterasyon itilize sèlman yon pati nan done yo pou aprann.
Apwòch stochastic mwayèn gradyan (SAG) te prezante kòm yon tè presegondè ant GD ak SGD. Li chwazi yon pwen done o aza epi mete ajou valè li yo ki baze sou gradyan an nan pwen sa a ak yon mwayèn filaplon nan gradyan ki sot pase yo ki estoke pou pwen done patikilye sa a.
Menm jan ak SGD, SAG modèl chak pwoblèm kòm yon sòm fini nan fonksyon konvèks, diferansyab. Nan nenpòt iterasyon, li sèvi ak gradyan prezan yo ak mwayèn gradyan anvan yo pou aktyalizasyon pwa. Ekwasyon an pran fòm sa a:
Ant de algorithm popilè yo, plen gradyan (FG) ak desandan gradyan stochastic (SGD), algorithm FG la gen yon pi bon pousantaj dirèksyon paske li itilize tout seri done pandan chak iterasyon pou kalkil.
Malgre ke SAG gen yon estrikti ki sanble ak SGD, to dirèksyon li yo konparab ak pafwa pi bon pase apwòch la plen gradyan. Tablo 1 anba a rezime rezilta yo nan eksperyans yo nan
Malgre pèfòmans etonan li yo, yo te pwopoze plizyè modifikasyon nan algorithm SGD orijinal la pou ede amelyore pèfòmans.
Desandan gradyan se yon optimize popilè yo itilize pou lokalize minimòm mondyal fonksyon objektif yo bay yo. Algorithm la sèvi ak gradyan fonksyon objektif la pou travèse pant fonksyon an jiskaske li rive nan pwen ki pi ba a.
Full Gradient Descent (FG) ak Stochastic Gradient Descent (SGD) se de varyasyon popilè nan algorithm la. FG itilize tout seri done a pandan chak iterasyon epi li bay yon pousantaj dirèksyon segondè a yon pri kalkil segondè. Nan chak iterasyon, SGD itilize yon sous-ensemble done pou kouri algorithm la. Li se byen lwen pi efikas men ak yon dirèksyon ensèten.
Stochastic Average Gradient (SAG) se yon lòt varyasyon ki bay benefis tou de algorithm anvan yo. Li itilize mwayèn gradyan sot pase yo ak yon sou-ansanm done yo pou bay yon pousantaj dirèksyon wo ak kalkil ki ba. Algorithm la ka plis modifye pou amelyore efikasite li yo lè l sèvi avèk vektorizasyon ak mini-lo.