paint-brush
የስቶካስቲክ አማካኝ ቀስ በቀስ መረዳት@kustarev
31,853 ንባቦች
31,853 ንባቦች

የስቶካስቲክ አማካኝ ቀስ በቀስ መረዳት

Andrey Kustarev4m2024/06/06
Read on Terminal Reader
Read this story w/o Javascript

በጣም ረጅም፤ ማንበብ

የግራዲየንት መውረድ የቀረቡትን የዓላማ ተግባራት ዓለም አቀፍ አነስተኛ ቦታ ለማግኘት የሚያገለግል ታዋቂ ማመቻቸት ነው። ስልተ ቀመር ዝቅተኛው ነጥብ ላይ እስኪደርስ ድረስ የተግባር ቁልቁል ለመሻገር የዓላማ ተግባር ቅልመትን ይጠቀማል። ሙሉ የግራዲየንት መውረድ (ኤፍጂ) እና ስቶካስቲክ የግራዲየንት መውረድ (SGD) ሁለት ታዋቂ የአልጎሪዝም ልዩነቶች ናቸው። FG በእያንዳንዱ ድግግሞሽ ወቅት ሙሉውን የውሂብ ስብስብ ይጠቀማል እና ከፍተኛ የመገጣጠም ፍጥነት በከፍተኛ ስሌት ዋጋ ያቀርባል። በእያንዳንዱ ድግግሞሽ፣ SGD ስልተ-ቀመርን ለማስኬድ የውሂብ ንዑስ ስብስብ ይጠቀማል። እሱ የበለጠ ቀልጣፋ ነው ነገር ግን እርግጠኛ ባልሆነ ውህደት። Stochastic Average Gradient (SAG) የሁለቱም የቀደመ ስልተ ቀመሮች ጥቅሞችን የሚሰጥ ሌላ ልዩነት ነው። ከፍተኛ የመሰብሰቢያ ፍጥነትን ከዝቅተኛ ስሌት ጋር ለማቅረብ ያለፉት ቅልመት አማካኝ እና የውሂብ ስብስብ ንዑስ ስብስብ ይጠቀማል። ስልተ ቀመር ቬክተር እና ሚኒ-ባች በመጠቀም ውጤታማነቱን ለማሻሻል የበለጠ ሊሻሻል ይችላል።

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - የስቶካስቲክ አማካኝ ቀስ በቀስ መረዳት
Andrey Kustarev HackerNoon profile picture
0-item


የግራዲየንት መውረድ በማሽን መማሪያ (ኤምኤል) ሞዴሊንግ ውስጥ በጣም ታዋቂው የማመቻቸት ቴክኒክ ነው። ስልተ ቀመር በተተነበዩት እሴቶች እና በመሠረታዊ እውነት መካከል ያለውን ስህተት ይቀንሳል። ቴክኒኩ ስህተቱን ለመረዳት እና ለመቀነስ እያንዳንዱን የመረጃ ነጥብ ግምት ውስጥ ስለሚያስገባ አፈፃፀሙ በስልጠና መረጃ መጠን ላይ የተመሰረተ ነው. እንደ Stochastic Gradient Descent (SGD) ያሉ ቴክኒኮች የስሌቱን አፈጻጸም ለማሻሻል የተነደፉ ናቸው ነገር ግን በመገጣጠሚያ ትክክለኛነት ዋጋ።


ስቶካስቲክ አማካኝ ግሬዲየንት ሙሉ የግራዲየንት መውረድ እና ኤስጂዲ በመባል የሚታወቀውን የጥንታዊ አቀራረብ ሚዛኑን የጠበቀ ሲሆን ሁለቱንም ጥቅሞችን ይሰጣል። ግን አልጎሪዝምን ከመጠቀምዎ በፊት በመጀመሪያ ለሞዴል ማመቻቸት ያለውን ጠቀሜታ መረዳት አለብን።

የማሽን የመማሪያ አላማዎችን ከግራዲየንት መውረጃ ጋር ማሻሻል

እያንዳንዱ የኤምኤል አልጎሪዝም የአምሳያው አፈጻጸምን ለመቀነስ ወይም ለማሻሻል ያለመ ተያያዥ የኪሳራ ተግባር አለው። በሂሳብ ፣ ኪሳራው እንደሚከተለው ሊገለፅ ይችላል-


በቀላሉ በተጨባጭ እና በተገመተው ውፅዓት መካከል ያለው ልዩነት ነው፣ እና ይህን ልዩነት መቀነስ ማለት የእኛ ሞዴል ወደ መሬት የእውነት እሴቶች መቅረብ ማለት ነው።


የማሳነስ ስልተ ቀመር የኪሳራ ተግባሩን ለመሻገር እና ዝቅተኛውን አለምአቀፍ ለማግኘት ቀስ በቀስ ቁልቁል ይጠቀማል። እያንዳንዱ የማቋረጫ እርምጃ ውጤቱን ለማመቻቸት የአልጎሪዝምን ክብደት ማዘመንን ያካትታል።


የግራዲየንት ቁልቁለት

የተለመደው የግራዲየንት ቁልቁል አልጎሪዝም በጠቅላላው የውሂብ ስብስብ ላይ የተሰሉትን ሁሉንም ቅልመት አማካኝ ይጠቀማል። የአንድ ነጠላ የሥልጠና ምሳሌ የሕይወት ዑደት የሚከተለውን ይመስላል።



የክብደት ማዘመኛ እኩልታ የሚከተለውን ይመስላል።

W የሞዴሉን ክብደቶች የሚወክልበት እና dJ/dW የአምሳያው ክብደትን በተመለከተ የመጥፋት ተግባር መነሻ ነው። ተለምዷዊው ዘዴ ከፍተኛ የመሰብሰቢያ ፍጥነት አለው ነገር ግን በሚሊዮኖች የሚቆጠሩ የመረጃ ነጥቦችን ካካተቱ ትላልቅ የውሂብ ስብስቦች ጋር ሲገናኝ በስሌት ውድ ይሆናል.

ስቶካስቲክ ግራዲየንት ቁልቁል (ኤስጂዲ)

የSGD ዘዴው ከጂዲ ጋር አንድ አይነት ሆኖ ይቆያል፣ ነገር ግን አጠቃላይ ዳታውን ቅልመትን ለማስላት ከመጠቀም ይልቅ ከግብዓቶቹ ትንሽ ባች ይጠቀማል። ዘዴው የበለጠ ቀልጣፋ ነው ነገር ግን እያንዳንዱ ድግግሞሹ ለመማር የመረጃውን የተወሰነ ክፍል ብቻ ስለሚጠቀም በአለምአቀፍ ሚኒማ ዙሪያ በጣም መዝለል ይችላል።

ስቶካስቲክ አማካኝ ቅልመት

የስቶካስቲክ አማካኝ ግሬዲየንት (SAG) አካሄድ በጂዲ እና በኤስጂዲ መካከል መካከለኛ ቦታ ሆኖ አስተዋወቀ። የዘፈቀደ የውሂብ ነጥብ ይመርጣል እና እሴቱን ያዘምናል በዚያ ነጥብ ላይ ባለው ቅልመት እና ለዚያ የተለየ የውሂብ ነጥብ የተከማቸ ያለፉት ቅልመት አማካኞች።


ከSGD ጋር በሚመሳሰል መልኩ፣ SAG እያንዳንዱን ችግር እንደ ውሱን የኮንቬክስ ድምር፣ ሊለዩ የሚችሉ ተግባራትን ይቀርፃል። በማንኛውም ጊዜ፣ ለክብደት ማሻሻያ አሁን ያለውን ቅልመት እና አማካይ የቀደምት ድግግሞሾችን ይጠቀማል። ቀመር የሚከተለውን ቅጽ ይወስዳል።



የመደመር መጠን

በሁለቱ ታዋቂ ስልተ ቀመሮች፣ ሙሉ ቅልመት (ኤፍጂ) እና ስቶካስቲክ ቅልመት ቁልቁል (ኤስጂዲ) መካከል፣ የኤፍጂጂ ስልተ ቀመር በእያንዳንዱ ድግግሞሽ ጊዜ አጠቃላይ የውሂብ ስብስብን ለማስላት ስለሚጠቀም የተሻለ የመገጣጠም መጠን አለው።

ምንም እንኳን SAG ከ SGD ጋር ተመሳሳይነት ያለው መዋቅር ቢኖረውም፣ የመገጣጠም ፍጥነቱ ከሙሉ ቀስ በቀስ አቀራረብ ጋር ሊወዳደር እና አንዳንዴም የተሻለ ነው። ከዚህ በታች ያለው ሠንጠረዥ 1 በሙከራዎች የተገኘውን ውጤት ያጠቃልላል ሽሚት እና. አል .

ምንጭ፡ https://arxiv.org/pdf/1309.2388

ተጨማሪ ማሻሻያዎች

አስደናቂ አፈጻጸም ቢኖረውም አፈጻጸምን ለማሻሻል ለማገዝ ለዋናው SGD ስልተ ቀመር በርካታ ማሻሻያዎች ቀርበዋል።


  • በቅድመ ድግግሞሾች ውስጥ እንደገና ክብደት ማድረግ፡- ስልተ ቀመር በ n (ጠቅላላ የውሂብ ነጥቦች ብዛት) አቅጣጫውን ስለሚያስተካክለው በመጀመሪያዎቹ ጥቂት ድግግሞሾች የ SAG ውህደት ቀርፋፋ ነው። አልጎሪዝም ገና ብዙ የውሂብ ነጥቦችን ስላላየ ይህ ትክክለኛ ያልሆነ ግምት ይሰጣል። ማሻሻያው በ n ምትክ በ m መደበኛ ማድረግን ይጠቁማል፣ m ቢያንስ አንድ ጊዜ የታዩት የውሂብ ነጥቦች ብዛት እስከዚያ ልዩ ድግግሞሽ ድረስ ነው።
  • ሚኒ-ባች ፡ የስቶካስቲክ ግሬዲየንት አካሄድ ብዙ የውሂብ ነጥቦችን በአንድ ጊዜ ለማስኬድ ሚኒ-ባችዎችን ይጠቀማል። ተመሳሳይ አቀራረብ በ SAG ላይ ሊተገበር ይችላል. ይህ ለተሻሻለ የኮምፒዩተር ቅልጥፍና ቬክተሬሽን እና ትይዩ ማድረግ ያስችላል። እንዲሁም የማህደረ ትውስታ ጭነትን ይቀንሳል, ለ SAG ስልተ-ቀመር ትልቅ ፈተና.
  • ደረጃ-መጠን ሙከራ ፡ ቀደም ሲል የተጠቀሰው የእርምጃ መጠን (116 ሊት) አስደናቂ ውጤቶችን ይሰጣል፣ ነገር ግን ደራሲዎቹ የ1L ደረጃን በመጠቀም የበለጠ ሞክረዋል። የኋለኛው ደግሞ የተሻለ ውህደትን ሰጥቷል። ይሁን እንጂ ደራሲዎቹ የተሻሻሉ ውጤቶችን በተመለከተ መደበኛ ትንታኔ ማቅረብ አልቻሉም. ለተለየ ችግር የተሻለውን ለማግኘት የእርምጃው መጠን መሞከር አለበት ብለው ይደመድማሉ።


የመጨረሻ ሀሳቦች

የግራዲየንት መውረድ የቀረቡትን የዓላማ ተግባራት ዓለም አቀፍ አነስተኛ ቦታ ለማግኘት የሚያገለግል ታዋቂ ማመቻቸት ነው። ስልተ ቀመር ዝቅተኛው ነጥብ ላይ እስኪደርስ ድረስ የተግባር ቁልቁል ለመሻገር የዓላማ ተግባር ቅልመትን ይጠቀማል።

ሙሉ የግራዲየንት መውረድ (ኤፍጂ) እና ስቶካስቲክ የግራዲየንት መውረድ (SGD) ሁለት ታዋቂ የአልጎሪዝም ልዩነቶች ናቸው። FG በእያንዳንዱ ድግግሞሽ ወቅት ሙሉውን የውሂብ ስብስብ ይጠቀማል እና ከፍተኛ የመገጣጠም ፍጥነት በከፍተኛ ስሌት ዋጋ ያቀርባል። በእያንዳንዱ ድግግሞሽ፣ SGD ስልተ-ቀመርን ለማስኬድ ንዑስ የውሂብ ስብስብ ይጠቀማል። እሱ የበለጠ ቀልጣፋ ነው ነገር ግን እርግጠኛ ባልሆነ ውህደት።


Stochastic Average Gradient (SAG) የሁለቱም የቀደመ ስልተ ቀመሮች ጥቅሞችን የሚሰጥ ሌላ ልዩነት ነው። ከፍተኛ የመሰብሰቢያ ፍጥነትን ከዝቅተኛ ስሌት ጋር ለማቅረብ ያለፉት ቅልመት አማካኝ እና የውሂብ ስብስብ ንዑስ ስብስብ ይጠቀማል። ስልተ ቀመር ቬክተር እና ሚኒ-ባች በመጠቀም ውጤታማነቱን ለማሻሻል የበለጠ ሊሻሻል ይችላል።