31,916 لوستل

د Stochastic اوسط تدریجي پوهیدل

لخوا Andrey Kustarev4m2024/06/06

IDMore

ډېر اوږد؛ لوستل

تدریجي نزول یو مشهور اصلاح دی چې د چمتو شوي هدفي دندو نړیوال مینیما موندلو لپاره کارول کیږي. الګوریتم د هدف فنکشن تدریجي کاروي ترڅو د فنکشن سلیپ تیر کړي تر هغه چې ټیټې نقطې ته ورسیږي. Full Gradient Descent (FG) او Stochastic Gradient Descent (SGD) د الګوریتم دوه مشهور تغیرات دي. FG د هر تکرار په جریان کې ټول ډیټاسیټ کاروي او د لوړ محاسبې لګښت کې د لوړ متقابل نرخ چمتو کوي. په هر تکرار کې، SGD د الګوریتم چلولو لپاره د معلوماتو فرعي سیټ کاروي. دا خورا ډیر اغیزمن دی مګر د ناڅرګند کنورژن سره. Stochastic Average Gradient (SAG) یو بل توپیر دی چې د دواړو پخوانیو الګوریتمونو ګټې وړاندې کوي. دا د تیرو تدریجي اوسط او د ډیټاسیټ فرعي سیټ کاروي ترڅو د ټیټ محاسبې سره د لوړ همغږي نرخ چمتو کړي. الګوریتم نور هم تعدیل کیدی شي ترڅو د ویکتور کولو او مینی بیچونو په کارولو سره د دې موثریت ښه کړي.

People Mentioned

Companies Mentioned

featured image - د Stochastic اوسط تدریجي پوهیدل

تدریجي نزول د ماشین زده کړې (ML) ماډلینګ کې ترټولو مشهور اصلاح کولو تخنیک دی. الګوریتم د وړاندوینې شوي ارزښتونو او ځمکني حقیقت ترمینځ خطا کموي. څرنګه چې تخنیک د هرې ډاټا نقطې په پام کې نیولو سره د غلطۍ پوهیدلو او کمولو لپاره، د هغې فعالیت د روزنې ډاټا اندازې پورې اړه لري. تخنیکونه لکه Stochastic Gradient Descent (SGD) د محاسبې فعالیت ته وده ورکولو لپاره ډیزاین شوي مګر د متقابل دقت په قیمت.

Stochastic Average Gradient د کلاسیک چلند سره توازن کوي، چې د بشپړ ګریډینټ نزول او SGD په نوم پیژندل کیږي، او دواړه ګټې وړاندې کوي. مګر مخکې لدې چې موږ وکولی شو الګوریتم وکاروو ، موږ باید لومړی د ماډل اصلاح کولو لپاره د دې اهمیت پوه شو.

د تدریجي نزول سره د ماشین زده کړې اهدافو اصلاح کول

هر ML الګوریتم د زیان سره تړلی فعالیت لري چې هدف یې د ماډل فعالیت کمول یا ښه کول دي. په ریاضي کې، زیان په لاندې ډول تعریف کیدی شي:

دا په ساده ډول د حقیقي او اټکل شوي محصول تر مینځ توپیر دی، او د دې توپیر کمول پدې معنی دي چې زموږ ماډل د ځمکني حقایقو ارزښتونو ته نږدې کیږي.

د کمولو الګوریتم د ضایع کولو فعالیت څخه تیریدو او نړیوال لږترلږه موندلو لپاره تدریجي نزول کاروي. په هر ټراورسل ګام کې د الګوریتم وزن تازه کول شامل دي ترڅو محصول غوره کړي.

ساده تدریجي نزول

دودیز تدریجي نزول الګوریتم د ټول ډیټاسیټ په اوږدو کې محاسبه شوي ټول تدریجي اوسط کاروي. د یو واحد روزنې مثال ژوند د لاندې په څیر ښکاري:

د وزن تازه کولو مساوات د لاندې په څیر ښکاري:

چیرته چې W د موډل وزن استازیتوب کوي او dJ/dW د موډل وزن په اړه د ضایع فعالیت مشتق دی. دودیز میتود د لوړ متقابل نرخ لري مګر په کمپیوټري توګه ګران کیږي کله چې د لوی ډیټاسیټونو سره معامله وکړي چې ملیونونه ډیټا پوائنټونه پکې شامل دي.

Stochastic Gradient Descent (SGD)

د SGD میتودولوژي د ساده GD په څیر پاتې کیږي، مګر د دې پرځای چې د ټول ډیټاسیټ څخه د ګریډینټ محاسبه کولو لپاره کار واخلي، دا د معلوماتو څخه یو کوچنی بسته کاروي. دا طریقه خورا اغیزمنه ده مګر کیدای شي د نړیوال مینیما په شاوخوا کې ډیره برخه واخلي ځکه چې هر تکرار د زده کړې لپاره یوازې د معلوماتو یوه برخه کاروي.

Stochastic اوسط تدریجي

د Stochastic Average Gradient (SAG) کړنلاره د GD او SGD ترمنځ د منځنۍ ځمکې په توګه معرفي شوه. دا د تصادفي ډیټا نقطه غوره کوي او خپل ارزښت په هغه ځای کې د تدریجي پراساس تازه کوي او د دې ځانګړي ډیټا نقطې لپاره زیرمه شوي د تیرو تدریجي وزن اوسط.

د SGD په څیر، SAG هره ستونزه د محدب، توپیر وړ دندو د یوې محدودې مجموعې په توګه ماډل کوي. په هر ډول تکرار کې، دا د وزن تازه کولو لپاره اوسني تدریجي او د پخوانیو تدریجي اوسط څخه کار اخلي. معادله په لاندې شکل اخلي:

د انسجام کچه

د دوو مشهور الګوریتمونو تر منځ، د بشپړ تدریجي (FG) او سټوچیسټیک ګریډینټ نزول (SGD)، د FG الګوریتم یو ښه کنورژن شرح لري ځکه چې دا د هر تکرار په جریان کې د محاسبې لپاره ټول ډاټا کاروي.

که څه هم SAG د SGD سره ورته جوړښت لري، د هغې د همغږۍ کچه د پرتلې وړ ده او ځینې وختونه د بشپړ تدریجي طریقې څخه غوره دي. لاندې جدول 1 د تجربو پایلې لنډیز کوي Schmidt et. al .

نور تعدیلات

د دې حیرانتیا فعالیت سره سره، د فعالیت ښه کولو کې د مرستې لپاره اصلي SGD الګوریتم ته ډیری بدلونونه وړاندیز شوي.

په لومړیو تکرارونو کې بیا وزن کول: د SAG کنورژن په لومړیو څو تکرارونو کې ورو پاتې کیږي ځکه چې الګوریتم د n (د ډیټا پوائنټونو ټول شمیر) سره سمت نورمال کوي. دا یو ناسم اټکل وړاندې کوي ځکه چې الګوریتم لا تر اوسه د ډیرو معلوماتو ټکي لیدلي. تعدیل وړاندیز کوي چې د n پر ځای د m لخوا نورمال شي، چیرې چې m د ډیټا نقطو شمیر دی چې لږترلږه یو ځل د دې ځانګړي تکرار پورې لیدل کیږي.
مینی بیچونه: د سټوچیسټیک ګریډینټ طریقه په یو وخت کې د ډیری ډیټا پوائنټونو پروسس کولو لپاره مینی بیچونه کاروي. ورته چلند په SAG کې پلي کیدی شي. دا د کمپیوټر موثریت د ښه کولو لپاره د ویکتور کولو او موازي کولو ته اجازه ورکوي. دا د حافظې بار هم کموي، د SAG الګوریتم لپاره یوه لویه ننګونه.
د مرحلې اندازه تجربه: د ګام اندازه چې مخکې یادونه وشوه (116L) حیرانونکې پایلې وړاندې کوي، مګر لیکوالانو د 1L د ګام اندازې په کارولو سره نور تجربه کړې. وروستی حتی ښه همغږي چمتو کړه. په هرصورت، لیکوالان ونه توانیدل چې د ښه پایلو رسمي تحلیل وړاندې کړي. دوی دې نتیجې ته ورسیدل چې د ګام اندازه باید تجربه شي ترڅو د ځانګړي ستونزې لپاره مطلوب یو ومومي.

وروستي فکرونه

تدریجي نزول یو مشهور اصلاح دی چې د چمتو شوي هدفي دندو نړیوال مینیما موندلو لپاره کارول کیږي. الګوریتم د هدف فنکشن تدریجي کاروي ترڅو د فنکشن سلیپ تیر کړي تر هغه چې ټیټې نقطې ته ورسیږي.

Full Gradient Descent (FG) او Stochastic Gradient Descent (SGD) د الګوریتم دوه مشهور تغیرات دي. FG د هر تکرار په جریان کې ټول ډیټاسیټ کاروي او د لوړ محاسبې لګښت کې د لوړ متقابل نرخ چمتو کوي. په هر تکرار کې، SGD د الګوریتم چلولو لپاره د معلوماتو فرعي سیټ کاروي. دا خورا ډیر اغیزمن دی مګر د ناڅرګند کنورژن سره.

Stochastic Average Gradient (SAG) یو بل توپیر دی چې د دواړو پخوانیو الګوریتمونو ګټې وړاندې کوي. دا د تیرو تدریجي اوسط او د ډیټاسیټ فرعي سیټ کاروي ترڅو د ټیټ محاسبې سره د لوړ همغږي نرخ چمتو کړي. الګوریتم نور هم تعدیل کیدی شي ترڅو د ویکتور کولو او مینی بیچونو په کارولو سره د دې موثریت ښه کړي.