Գրադիենտ անկումը մեքենայական ուսուցման (ML) մոդելավորման ամենահայտնի օպտիմալացման տեխնիկան է: Ալգորիթմը նվազագույնի է հասցնում կանխատեսված արժեքների և հիմնական ճշմարտության միջև եղած սխալը: Քանի որ տեխնիկան յուրաքանչյուր տվյալների կետ է համարում սխալը հասկանալու և նվազագույնի հասցնելու համար, դրա կատարումը կախված է ուսուցման տվյալների չափից: Տեխնիկաները, ինչպիսիք են Ստոխաստիկ գրադիենտ ծագումը (SGD), նախագծված են բարելավելու հաշվարկների կատարումը, բայց հաշվի առնելով կոնվերգենցիայի ճշգրտությունը:
Stochastic Average Gradient-ը հավասարակշռում է դասական մոտեցումը, որը հայտնի է որպես Full Gradient Descent և SGD, և առաջարկում է երկու առավելություններ: Բայց մինչ մենք կարող ենք օգտագործել ալգորիթմը, մենք նախ պետք է հասկանանք դրա նշանակությունը մոդելի օպտիմալացման համար:
Յուրաքանչյուր ML ալգորիթմ ունի կապված կորստի ֆունկցիա, որի նպատակն է նվազագույնի հասցնել կամ բարելավել մոդելի կատարումը: Մաթեմատիկորեն կորուստը կարող է սահմանվել հետևյալ կերպ.
Դա պարզապես իրական և կանխատեսված արդյունքի միջև եղած տարբերությունն է, և այս տարբերությունը նվազագույնի հասցնելը նշանակում է, որ մեր մոդելն ավելի մոտ է իրական ճշմարտության արժեքներին:
Նվազագույնացման ալգորիթմը օգտագործում է գրադիենտ իջնելը՝ կորստի ֆունկցիան անցնելու և գլոբալ նվազագույնը գտնելու համար: Անցման յուրաքանչյուր քայլ ներառում է ալգորիթմի կշիռների թարմացում՝ արդյունքը օպտիմալացնելու համար:
Պայմանական գրադիենտ ծագման ալգորիթմը օգտագործում է բոլոր գրադիենտների միջինը, որոնք հաշվարկված են ամբողջ տվյալների վրա: Մեկ ուսումնական օրինակի կյանքի ցիկլը հետևյալն է.
Քաշի թարմացման հավասարումը հետևյալն է.
Որտեղ W
ներկայացնում է մոդելի կշիռները, իսկ dJ/dW
կորստի ֆունկցիայի ածանցյալն է մոդելի քաշի նկատմամբ: Պայմանական մեթոդն ունի բարձր կոնվերգենցիայի արագություն, բայց դառնում է հաշվողականորեն թանկ, երբ գործ ունենք տվյալների միլիոնավոր կետեր պարունակող մեծ տվյալների հետ:
SGD մեթոդոլոգիան մնում է նույնը, ինչ պարզ GD-ն, բայց գրադիենտները հաշվարկելու համար ամբողջ տվյալների բազան օգտագործելու փոխարեն, այն օգտագործում է մուտքային տվյալների մի փոքր փաթեթ: Մեթոդը շատ ավելի արդյունավետ է, բայց կարող է չափազանց շատ շրջել գլոբալ նվազագույնի շուրջ, քանի որ յուրաքանչյուր կրկնություն սովորելու համար օգտագործում է տվյալների միայն մի մասը:
Ստոխաստիկ միջին գրադիենտ (SAG) մոտեցումը ներկայացվել է որպես միջին հիմք GD-ի և SGD-ի միջև: Այն ընտրում է պատահական տվյալների կետ և թարմացնում է դրա արժեքը՝ հիմնվելով տվյալ կետի գրադիենտի և տվյալ տվյալ կետի համար պահվող անցյալի գրադիենտների միջին կշռվածի վրա:
SGD-ի նման, SAG-ը յուրաքանչյուր խնդիր մոդելավորում է որպես ուռուցիկ, դիֆերենցիալ ֆունկցիաների վերջավոր գումար: Ցանկացած կրկնության դեպքում այն օգտագործում է ներկա գրադիենտները և նախորդ գրադիենտների միջինը քաշի թարմացման համար: Հավասարումը ստանում է հետևյալ ձևը.
Երկու հանրաճանաչ ալգորիթմների՝ լրիվ գրադիենտ (FG) և ստոխաստիկ գրադիենտ ծագում (SGD) միջև, FG ալգորիթմն ունի ավելի լավ կոնվերգենցիայի արագություն, քանի որ այն օգտագործում է տվյալների ամբողջ հավաքածուն յուրաքանչյուր կրկնության ընթացքում հաշվարկի համար:
Չնայած SAG-ն ունի SGD-ի նման կառուցվածք, դրա կոնվերգենցիայի մակարդակը համեմատելի է և երբեմն ավելի լավ է, քան ամբողջական գրադիենտ մոտեցումը: Ստորև բերված աղյուսակ 1-ն ամփոփում է փորձերի արդյունքները
Չնայած իր զարմանալի կատարողականությանը, մի քանի փոփոխություններ են առաջարկվել բնօրինակ SGD ալգորիթմին, որոնք կօգնեն բարելավել կատարողականը:
Գրադիենտ ծագումը հանրաճանաչ օպտիմիզացում է, որն օգտագործվում է տրամադրված օբյեկտիվ ֆունկցիաների գլոբալ մինիմումները գտնելու համար: Ալգորիթմը օգտագործում է օբյեկտիվ ֆունկցիայի գրադիենտը, որպեսզի անցնի ֆունկցիայի թեքությունը մինչև այն հասնի ամենացածր կետին:
Full Gradient Descent (FG) և Stochastic Gradient Descent (SGD) ալգորիթմի երկու հայտնի տատանումներ են: FG-ն օգտագործում է ամբողջ տվյալների բազան յուրաքանչյուր կրկնության ընթացքում և ապահովում է բարձր կոնվերգենցիայի արագություն՝ բարձր հաշվարկային արժեքով: Յուրաքանչյուր կրկնության ժամանակ SGD-ն օգտագործում է տվյալների ենթաբազմություն՝ ալգորիթմը գործարկելու համար: Այն շատ ավելի արդյունավետ է, բայց անորոշ կոնվերգենցիայով:
Ստոխաստիկ միջին գրադիենտը (SAG) ևս մեկ տարբերակ է, որն ապահովում է երկու նախորդ ալգորիթմների առավելությունները: Այն օգտագործում է անցյալ գրադիենտների միջինը և տվյալների բազայի ենթաբազմությունը՝ ցածր հաշվարկով բարձր կոնվերգենցիայի արագություն ապահովելու համար: Ալգորիթմը կարող է հետագայում փոփոխվել՝ դրա արդյունավետությունը բարելավելու համար՝ օգտագործելով վեկտորացում և մինի-խմբաքանակ: