31,916 ընթերցումներ

Հասկանալով ստոխաստիկ միջին գրադիենտը

կողմից Andrey Kustarev4m2024/06/06

IDMore

Չափազանց երկար; Կարդալ

Գրադիենտ ծագումը հանրաճանաչ օպտիմիզացում է, որն օգտագործվում է տրամադրված օբյեկտիվ ֆունկցիաների գլոբալ մինիմումները գտնելու համար: Ալգորիթմը օգտագործում է օբյեկտիվ ֆունկցիայի գրադիենտը, որպեսզի անցնի ֆունկցիայի թեքությունը մինչև այն հասնի ամենացածր կետին: Full Gradient Descent (FG) և Stochastic Gradient Descent (SGD) ալգորիթմի երկու հայտնի տատանումներ են: FG-ն օգտագործում է ամբողջ տվյալների բազան յուրաքանչյուր կրկնության ընթացքում և ապահովում է բարձր կոնվերգենցիայի արագություն՝ բարձր հաշվարկային արժեքով: Յուրաքանչյուր կրկնության ժամանակ SGD-ն օգտագործում է տվյալների ենթաբազմություն՝ ալգորիթմը գործարկելու համար: Այն շատ ավելի արդյունավետ է, բայց անորոշ կոնվերգենցիայով: Ստոխաստիկ միջին գրադիենտը (SAG) ևս մեկ տարբերակ է, որն ապահովում է երկու նախորդ ալգորիթմների առավելությունները: Այն օգտագործում է անցյալ գրադիենտների միջինը և տվյալների բազայի ենթաբազմությունը՝ ցածր հաշվարկով բարձր կոնվերգենցիայի արագություն ապահովելու համար: Ալգորիթմը կարող է հետագայում փոփոխվել՝ դրա արդյունավետությունը բարելավելու համար՝ օգտագործելով վեկտորացում և մինի-խմբաքանակ:

People Mentioned

Companies Mentioned

featured image - Հասկանալով ստոխաստիկ միջին գրադիենտը

Գրադիենտ անկումը մեքենայական ուսուցման (ML) մոդելավորման ամենահայտնի օպտիմալացման տեխնիկան է: Ալգորիթմը նվազագույնի է հասցնում կանխատեսված արժեքների և հիմնական ճշմարտության միջև եղած սխալը: Քանի որ տեխնիկան յուրաքանչյուր տվյալների կետ է համարում սխալը հասկանալու և նվազագույնի հասցնելու համար, դրա կատարումը կախված է ուսուցման տվյալների չափից: Տեխնիկաները, ինչպիսիք են Ստոխաստիկ գրադիենտ ծագումը (SGD), նախագծված են բարելավելու հաշվարկների կատարումը, բայց հաշվի առնելով կոնվերգենցիայի ճշգրտությունը:

Stochastic Average Gradient-ը հավասարակշռում է դասական մոտեցումը, որը հայտնի է որպես Full Gradient Descent և SGD, և առաջարկում է երկու առավելություններ: Բայց մինչ մենք կարող ենք օգտագործել ալգորիթմը, մենք նախ պետք է հասկանանք դրա նշանակությունը մոդելի օպտիմալացման համար:

Մեքենայի ուսուցման նպատակների օպտիմիզացում՝ գրադիենտ ծագմամբ

Յուրաքանչյուր ML ալգորիթմ ունի կապված կորստի ֆունկցիա, որի նպատակն է նվազագույնի հասցնել կամ բարելավել մոդելի կատարումը: Մաթեմատիկորեն կորուստը կարող է սահմանվել հետևյալ կերպ.

Դա պարզապես իրական և կանխատեսված արդյունքի միջև եղած տարբերությունն է, և այս տարբերությունը նվազագույնի հասցնելը նշանակում է, որ մեր մոդելն ավելի մոտ է իրական ճշմարտության արժեքներին:

Նվազագույնացման ալգորիթմը օգտագործում է գրադիենտ իջնելը՝ կորստի ֆունկցիան անցնելու և գլոբալ նվազագույնը գտնելու համար: Անցման յուրաքանչյուր քայլ ներառում է ալգորիթմի կշիռների թարմացում՝ արդյունքը օպտիմալացնելու համար:

Պարզ գրադիենտ ծագում

Պայմանական գրադիենտ ծագման ալգորիթմը օգտագործում է բոլոր գրադիենտների միջինը, որոնք հաշվարկված են ամբողջ տվյալների վրա: Մեկ ուսումնական օրինակի կյանքի ցիկլը հետևյալն է.

Քաշի թարմացման հավասարումը հետևյալն է.

Որտեղ W ներկայացնում է մոդելի կշիռները, իսկ dJ/dW կորստի ֆունկցիայի ածանցյալն է մոդելի քաշի նկատմամբ: Պայմանական մեթոդն ունի բարձր կոնվերգենցիայի արագություն, բայց դառնում է հաշվողականորեն թանկ, երբ գործ ունենք տվյալների միլիոնավոր կետեր պարունակող մեծ տվյալների հետ:

Ստոխաստիկ գրադիենտ ծագում (SGD)

SGD մեթոդոլոգիան մնում է նույնը, ինչ պարզ GD-ն, բայց գրադիենտները հաշվարկելու համար ամբողջ տվյալների բազան օգտագործելու փոխարեն, այն օգտագործում է մուտքային տվյալների մի փոքր փաթեթ: Մեթոդը շատ ավելի արդյունավետ է, բայց կարող է չափազանց շատ շրջել գլոբալ նվազագույնի շուրջ, քանի որ յուրաքանչյուր կրկնություն սովորելու համար օգտագործում է տվյալների միայն մի մասը:

Ստոխաստիկ միջին գրադիենտ

Ստոխաստիկ միջին գրադիենտ (SAG) մոտեցումը ներկայացվել է որպես միջին հիմք GD-ի և SGD-ի միջև: Այն ընտրում է պատահական տվյալների կետ և թարմացնում է դրա արժեքը՝ հիմնվելով տվյալ կետի գրադիենտի և տվյալ տվյալ կետի համար պահվող անցյալի գրադիենտների միջին կշռվածի վրա:

SGD-ի նման, SAG-ը յուրաքանչյուր խնդիր մոդելավորում է որպես ուռուցիկ, դիֆերենցիալ ֆունկցիաների վերջավոր գումար: Ցանկացած կրկնության դեպքում այն օգտագործում է ներկա գրադիենտները և նախորդ գրադիենտների միջինը քաշի թարմացման համար: Հավասարումը ստանում է հետևյալ ձևը.

Կոնվերգենցիայի դրույքաչափը

Երկու հանրաճանաչ ալգորիթմների՝ լրիվ գրադիենտ (FG) և ստոխաստիկ գրադիենտ ծագում (SGD) միջև, FG ալգորիթմն ունի ավելի լավ կոնվերգենցիայի արագություն, քանի որ այն օգտագործում է տվյալների ամբողջ հավաքածուն յուրաքանչյուր կրկնության ընթացքում հաշվարկի համար:

Չնայած SAG-ն ունի SGD-ի նման կառուցվածք, դրա կոնվերգենցիայի մակարդակը համեմատելի է և երբեմն ավելի լավ է, քան ամբողջական գրադիենտ մոտեցումը: Ստորև բերված աղյուսակ 1-ն ամփոփում է փորձերի արդյունքները Շմիդտը և. ալ .

Հետագա փոփոխություններ

Չնայած իր զարմանալի կատարողականությանը, մի քանի փոփոխություններ են առաջարկվել բնօրինակ SGD ալգորիթմին, որոնք կօգնեն բարելավել կատարողականը:

Վաղ կրկնություններում վերակշռում. SAG-ի կոնվերգենցիան մնում է դանդաղ առաջին մի քանի կրկնությունների ընթացքում, քանի որ ալգորիթմը նորմալացնում է ուղղությունը n-ով (տվյալների միավորների ընդհանուր թիվը): Սա ապահովում է ոչ ճշգրիտ գնահատական, քանի որ ալգորիթմը դեռ պետք է տեսնի բազմաթիվ տվյալների կետեր: Փոփոխությունն առաջարկում է նորմալացնել m-ով n-ի փոխարեն, որտեղ m-ը տվյալների կետերի քանակն է, որոնք դիտվել են առնվազն մեկ անգամ մինչև այդ կոնկրետ կրկնությունը:
Մինի խմբաքանակներ. Stochastic Gradient մոտեցումը օգտագործում է մինի խմբաքանակներ՝ միաժամանակ մի քանի տվյալների կետեր մշակելու համար: Նույն մոտեցումը կարող է կիրառվել SAG-ի նկատմամբ: Սա թույլ է տալիս վեկտորացում և զուգահեռացում կատարել համակարգչային արդյունավետության բարելավման համար: Այն նաև նվազեցնում է հիշողության ծանրաբեռնվածությունը, որը կարևոր մարտահրավեր է SAG ալգորիթմի համար:
Քայլ-չափի փորձեր. Նախկինում նշված քայլի չափը (116լ) տալիս է զարմանալի արդյունքներ, բայց հեղինակները հետագայում փորձարկեցին՝ օգտագործելով 1լ քայլի չափը: Վերջինս էլ ավելի լավ սերտաճեց։ Այնուամենայնիվ, հեղինակները չկարողացան ներկայացնել բարելավված արդյունքների պաշտոնական վերլուծություն: Նրանք եզրակացնում են, որ քայլի չափը պետք է փորձարկել՝ կոնկրետ խնդրի համար օպտիմալը գտնելու համար:

Վերջնական մտքեր

Full Gradient Descent (FG) և Stochastic Gradient Descent (SGD) ալգորիթմի երկու հայտնի տատանումներ են: FG-ն օգտագործում է ամբողջ տվյալների բազան յուրաքանչյուր կրկնության ընթացքում և ապահովում է բարձր կոնվերգենցիայի արագություն՝ բարձր հաշվարկային արժեքով: Յուրաքանչյուր կրկնության ժամանակ SGD-ն օգտագործում է տվյալների ենթաբազմություն՝ ալգորիթմը գործարկելու համար: Այն շատ ավելի արդյունավետ է, բայց անորոշ կոնվերգենցիայով:

Ստոխաստիկ միջին գրադիենտը (SAG) ևս մեկ տարբերակ է, որն ապահովում է երկու նախորդ ալգորիթմների առավելությունները: Այն օգտագործում է անցյալ գրադիենտների միջինը և տվյալների բազայի ենթաբազմությունը՝ ցածր հաշվարկով բարձր կոնվերգենցիայի արագություն ապահովելու համար: Ալգորիթմը կարող է հետագայում փոփոխվել՝ դրա արդյունավետությունը բարելավելու համար՝ օգտագործելով վեկտորացում և մինի-խմբաքանակ: