ደራሲዎች፡-
(1) አልበርት ጉ፣ የማሽን መማሪያ ክፍል፣ ካርኔጊ ሜሎን ዩኒቨርሲቲ በእኩል አስተዋፅዖ (agu@cs.cmu.edu);
(2) ትሪ ዳኦ፣ የኮምፒውተር ሳይንስ ክፍል፣ ፕሪንስተን ዩኒቨርሲቲ በእኩል አስተዋፅዖ (tri@tridao.me)።
3 የተመረጠ የግዛት ቦታ ሞዴሎች እና 3.1 ተነሳሽነት፡ እንደ መጭመቂያ መንገድ መምረጥ
3.3 የተመረጡ ኤስ.ኤም.ኤስ.ዎችን በብቃት መተግበር
4 ተጨባጭ ግምገማ እና 4.1 ሰው ሠራሽ ተግባራት
4.5 የፍጥነት እና የማህደረ ትውስታ መለኪያዎች
B ተዛማጅ ሥራ እና B.1 S4 ተለዋጮች እና ተዋጽኦዎች
B.4 መስመራዊ ትኩረት እና B.5 ረጅም አውድ ሞዴሎች
D ሃርድዌር የሚያውቅ አልጎሪዝም ለተመረጡ ኤስ.ኤም.ኤስ
E የሙከራ ዝርዝሮች እና ተጨማሪ ውጤቶች እና E.1 ሰው ሠራሽ ተግባራት
የመሠረት ሞዴሎች፣ አሁን በጥልቅ ትምህርት ውስጥ አብዛኛዎቹን አጓጊ አፕሊኬሽኖች ኃይል የሚሰጡ፣ በአጠቃላይ በትራንስፎርመር አርክቴክቸር እና በዋና ትኩረት ሞጁሉ ላይ የተመሰረቱ ናቸው። ብዙ የንዑስኳድራቲክ-ጊዜ አርክቴክቸር እንደ መስመራዊ ትኩረት፣ የታሸገ ኮንቮሉሽን እና ተደጋጋሚ ሞዴሎች፣ እና የተዋቀሩ የስቴት ስፔስ ሞዴሎች (ኤስኤስኤምኤስ) የትራንስፎርመሮችን ማስላት በረዥም ቅደም ተከተሎች ላይ ለመፍታት ተዘጋጅተዋል፣ነገር ግን እንደ ቋንቋ ባሉ አስፈላጊ ዘዴዎች ላይ ትኩረት አላደረጉም። የእንደዚህ አይነት ሞዴሎች ቁልፍ ድክመት በይዘት ላይ የተመሰረተ አስተሳሰብን ማከናወን አለመቻላቸው እንደሆነ እና በርካታ ማሻሻያዎችን ማድረጋችን ለይተናል። በመጀመሪያ፣ በቀላሉ የኤስ.ኤም.ኤም መለኪያዎች የግቤት ተግባራት እንዲሆኑ መፍቀድ ድክመታቸውን በተለዩ ስልቶች ያስተካክላል። ሁለተኛ፣ ምንም እንኳን ይህ ለውጥ ቀልጣፋ ውዝግቦችን መጠቀምን የሚከለክል ቢሆንም፣ እኛ ሃርድዌር የሚያውቅ ትይዩ ስልተ-ቀመር በተደጋጋሚ ሁነታ እንቀርጻለን። እነዚህን የተመረጡ ኤስ.ኤስ.ኤም.ዎች ትኩረት ሳናገኝ ወይም ኤምኤልፒ ብሎኮች (ማምባ) ሳይቀሩ ቀለል ባለ ከጫፍ እስከ ጫፍ የነርቭ ኔትወርክ አርክቴክቸር ውስጥ እናዋህዳለን። Mamba ፈጣን ግንዛቤን (ከTransformers 5× ከፍ ያለ ልኬት) እና በቅደም ተከተል ርዝመቱ መስመራዊ ልኬት ይደሰታል፣ እና አፈፃፀሙ በእውነተኛ ውሂብ እስከ ሚሊዮን-ርዝመት ቅደም ተከተሎችን ያሻሽላል። እንደ አጠቃላይ ተከታታይ ሞዴል የጀርባ አጥንት፣ Mamba እንደ ቋንቋ፣ ኦዲዮ እና ጂኖሚክስ ባሉ በርካታ ዘዴዎች ዘመናዊ አፈጻጸምን አግኝቷል። በቋንቋ ሞዴሊንግ ላይ የእኛ Mamba-3B ሞዴላችን ተመሳሳይ መጠን ያላቸውን ትራንስፎርመሮች ይበልጣል እና ትራንስፎርመርን በእጥፍ መጠን ያዛምዳል፣ በቅድመ-ስልጠና እና በታችኛው ተፋሰስ ግምገማ።
የፋውንዴሽን ሞዴሎች (ኤፍኤም)፣ ወይም በትልቅ መረጃ ላይ ቀድሞ የሰለጠኑ ትልልቅ ሞዴሎች፣ ከዚያም ለታችኛው ተፋሰስ ተግባራት የተስተካከሉ፣ በዘመናዊ የማሽን መማሪያ ውስጥ ውጤታማ ምሳሌ ሆነው ወጥተዋል። የእነዚህ ኤፍ ኤም ዎች የጀርባ አጥንት እንደ ቋንቋ፣ ምስሎች፣ ንግግር፣ ኦዲዮ፣ የሰዓት ተከታታይ እና ጂኖሚክስ (Brown et al. 2020፣ Dosovitskiy et al. 2020፣ Ismail Fawaz et al. 2019; Ord et al.2; Sutskever፣ Vinyals እና Quoc V Le 2014)። ይህ ጽንሰ-ሐሳብ ለአንድ የሞዴል አርክቴክቸር ምርጫ አግኖስቲክ ቢሆንም፣ የዘመናዊ ኤፍ ኤም ዎች በዋናነት በአንድ ነጠላ ተከታታይ ሞዴል ላይ የተመሰረቱ ናቸው፡ ትራንስፎርመር (Vaswani et al. 2017) እና የዋናው ትኩረት ንብርብር (Bahdanau, Cho, and Bengio 2015) ራስን ትኩረትን የማሳየት ውጤታማነት በመስኮት ውስጥ መረጃን ለመምሰል በመቻሉ ነው. ነገር ግን፣ ይህ ንብረት መሰረታዊ ድክመቶችን ያመጣል፡ ከመጨረሻው መስኮት ውጪ የሆነን ነገር ለመቅረጽ አለመቻል እና ከመስኮቱ ርዝመት አንጻር ባለ አራት ማዕዘን ቅርፆች። እጅግ በጣም ብዙ የምርምር አካል እነዚህን ድክመቶች ለማሸነፍ ይበልጥ ቀልጣፋ በሆኑ የትኩረት ዓይነቶች ላይ ታይቷል (ታይ ፣ ዴህጋኒ ፣ ባህሪ ፣ እና ሌሎች 2022) ፣ ግን ብዙውን ጊዜ ውጤታማ በሚያደርጉት ንብረቶች ወጪ። እስካሁን ድረስ፣ ከእነዚህ ልዩነቶች ውስጥ አንዳቸውም ቢሆኑ በሁሉም ጎራዎች በሚመዘኑበት ደረጃ ውጤታማ ሆነው አልታዩም። በቅርብ ጊዜ የተዋቀሩ የግዛት ቦታ ቅደም ተከተል ሞዴሎች (ኤስኤስኤምኤስ) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) ለቅደም ተከተል ሞዴሊንግ እንደ ተስፋ ሰጭ የስነ-ህንፃ ክፍል ብቅ አሉ። እነዚህ ሞዴሎች እንደ ክላሲካል ስቴት የጠፈር ሞዴሎች (ካልማን 1960) አነሳሽነት እንደ ተደጋጋሚ የነርቭ ኔትወርኮች (RNNs) እና convolutional neural networks (CNNs) ጥምረት ሊተረጎሙ ይችላሉ። ይህ የሞዴሎች ክፍል እንደ ድግግሞሽ ወይም ኮንቮሉሽን፣ በመስመራዊ ወይም በቅርበት-መስመራዊ ልኬት በቅደም ተከተል በጣም በብቃት ሊሰላ ይችላል። በተጨማሪም፣ የረዥም ርቀት ጥገኞችን (Gu, Dao, et al. 2020)ን በተወሰኑ የመረጃ ዘዴዎች ለመቅረጽ በመርህ ላይ የተመሰረተ ስልቶች አሏቸው፣ እና እንደ የረጅም ክልል አሬና (ታይ፣ ዴህጋኒ፣ አብናር እና ሌሎች 2021) ባሉ መመዘኛዎች ተቆጣጥረውታል። ብዙ የኤስኤስኤምኤስ ጣዕሞች (Gu፣ Goel እና Ré 2022፣ Gu፣ Gupta እና ሌሎች 2022፣ Gupta፣ Gu፣ እና Berant 2022፣ Y. Li et al. 2023፣ Ma et al. 2023፣ Ma et al. 2023፣ Orvieto et al. 2023፣ Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; እና ራዕይ (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023)። ሆኖም፣ እንደ ጽሑፍ ያሉ ልዩ እና መረጃ-ጥቅጥቅ ያሉ መረጃዎችን በመቅረጽ ረገድ ብዙም ውጤታማ አይደሉም።
በቅደም ተከተል ርዝመት ውስጥ በመስመራዊ ሚዛን ላይ የትራንስፎርመሮችን ሞዴሊንግ ኃይልን ለማሳካት በበርካታ ዘንጎች ላይ ቀደም ሲል በተሰራው ሥራ ላይ የሚያሻሽል አዲስ የተመረጠ የግዛት ቦታ ሞዴሎችን እናቀርባለን።
ምርጫ ሜካኒዝም. በመጀመሪያ፣ የቀደምት ሞዴሎች ቁልፍ ውሱንነት ለይተናል፡ በግብአት-ጥገኛ መንገድ መረጃን በብቃት የመምረጥ መቻል (ማለትም በተወሰኑ ግብአቶች ላይ ማተኮር ወይም ችላ ማለት)። እንደ መራጭ ኮፒ እና ኢንዳክሽን ራሶች ባሉ ጠቃሚ ሰራሽ ስራዎች ላይ ተመስርተን በውስጣችን መገንባት፣ በመግቢያው ላይ በመመስረት የኤስ.ኤም.ኤም መለኪያዎችን በመለካት ቀላል የመምረጫ ዘዴን እንቀርጻለን። ይህ ሞዴሉ አስፈላጊ ያልሆኑ መረጃዎችን ለማጣራት እና አስፈላጊ መረጃዎችን ላልተወሰነ ጊዜ እንዲያስታውስ ያስችለዋል.
ሃርድዌርን የሚያውቅ አልጎሪዝም . ይህ ቀላል ለውጥ ለአምሳያው ስሌት ቴክኒካዊ ፈተናን ይፈጥራል; በእርግጥ ሁሉም የኤስ.ኤስ.ኤም.ኤስ ሞዴሎች በስሌት ቀልጣፋ እንዲሆኑ ጊዜ እና ግብአት የማይለዋወጥ መሆን አለባቸው። ይህንን በሃርድዌር የሚያውቅ አልጎሪዝም እናሸንፋለን ሞዴሉን ከኮንቮሉሽን ይልቅ በፍተሻ በተደጋጋሚ ያሰላል፣ ነገር ግን በተለያዩ የጂፒዩ የማህደረ ትውስታ ተዋረድ መካከል የአይኦ መዳረሻን ለማስቀረት የተዘረጋውን ሁኔታ እውን አያደርግም። የተገኘው አተገባበር ከቀደምት ዘዴዎች ፈጣን ነው በንድፈ ሀሳብ (በቅደም ተከተል ርዝመቱ በመስመራዊ ልኬቱ፣ ከሁሉም convolution-based SSMs ጋር ሲነጻጸር) እና በዘመናዊ ሃርድዌር (እስከ 3× በኤ100 ጂፒዩዎች ፈጣን)።
አርክቴክቸር። የቀደምት የኤስኤስኤም አርኪቴክቸር ዲዛይን (ዳኦ፣ ፉ፣ ሳአብ፣ እና ሌሎች 2023) ከMLP ኦፍ ትራንስፎርመሮች ጋር ወደ አንድ ብሎክ በማጣመር፣ ወደ ቀላል እና ተመሳሳይነት ያለው የሕንፃ ንድፍ (Mamba) የሚመረጡ የግዛት ቦታዎችን በማካተት የቀደምት ጥልቅ ቅደም ተከተል ሞዴል አርክቴክቸርን እናቀላልለን። የተመረጡ ኤስ.ኤስ.ኤም.ኤስ እና የMamba አርክቴክቸር በተዘዋዋሪ ቅደም ተከተሎች ላይ የሚሰሩ የአጠቃላይ ፋውንዴሽን ሞዴሎች የጀርባ አጥንት ሆነው የሚያገለግሉ ቁልፍ ባህሪያት ያላቸው ሙሉ ለሙሉ ተደጋጋሚ ሞዴሎች ናቸው። (i) ከፍተኛ ጥራት፡- መራጭነት እንደ ቋንቋ እና ጂኖሚክስ ባሉ ጥቅጥቅ ያሉ ዘዴዎች ላይ ጠንካራ አፈጻጸምን ያመጣል። (ii) ፈጣን ስልጠና እና ግምት፡- ስሌት እና የማስታወስ ችሎታ በስልጠና ወቅት በቅደም ተከተል በመስመር ላይ ይለካሉ እና ሞዴሉን በራስ-ሰር በማጣቀሻ ጊዜ መፍታት የቀደሙት ንጥረ ነገሮች መሸጎጫ ስለማያስፈልገው በእያንዳንዱ ደረጃ የማያቋርጥ ጊዜ ብቻ ይፈልጋል። (iii) ረጅም አውድ፡ ጥራቱ እና ቅልጥፍናው በአንድ ላይ የአፈጻጸም ማሻሻያዎችን በእውነተኛ ውሂብ ላይ እስከ ተከታታይ ርዝመት 1M ይሰጣሉ።
የMambaን አቅም እንደ አጠቃላይ ተከታታይ የኤፍ ኤም የጀርባ አጥንት፣ በሁለቱም የቅድመ ስልጠና ጥራት እና በጎራ-ተኮር የተግባር አፈጻጸም፣ በተለያዩ የአሰራር ዘዴዎች እና መቼቶች ላይ እናረጋግጣለን።
• ሰው ሠራሽ. ለትልቅ የቋንቋ ሞዴሎች ቁልፍ ተብለው በቀረቡት እንደ ኮፒ እና ኢንዳክሽን ራሶች ባሉ አስፈላጊ ሰራሽ ስራዎች ላይ Mamba በቀላሉ መፍታት ብቻ ሳይሆን መፍትሄዎችን ላልተወሰነ ጊዜ ረዣዥም (> 1M tokens) ማውጣት ይችላል።
• ኦዲዮ እና ጂኖሚክስ። Mamba እንደ ሳሺሚ፣ ጅብ እና ትራንስፎርመር ያሉ ቀደምት ዘመናዊ ሞዴሎችን በድምጽ ሞገዶች እና የዲኤንኤ ቅደም ተከተሎችን በመቅረጽ ጥራትን በማሰልጠን እና በታችኛው ተፋሰስ ሜትሪክስ (ለምሳሌ FID ፈታኝ በሆነ የንግግር ማመንጨት መረጃ ከግማሽ በላይ በመቀነስ) ይሰራል። በሁለቱም ቅንጅቶች አፈፃፀሙ በረዥም አውድ እስከ ሚሊዮን-ርዝመት ቅደም ተከተሎች ይሻሻላል።
• የቋንቋ ሞዴሊንግ። Mamba ግራ መጋባትን በቅድመ ማሰልጠኛ እና በታችኛው ተፋሰስ ግምገማ ውስጥ የTransformer-ጥራት አፈጻጸምን በእውነት የሚያስገኝ የመጀመሪያው የመስመር ጊዜ ተከታታይ ሞዴል ነው። እስከ 1B መለኪያዎች በሚደርሱ የልኬት ህጎች፣ Mamba በLLaMa (Touvron et al. 2023) ላይ የተመሰረቱ በጣም ጠንካራ ዘመናዊ የትራንስፎርመር ስልጠና የምግብ አዘገጃጀት መመሪያዎችን ጨምሮ ከብዙ የመነሻ መስመሮች አፈጻጸም እንደሚበልጥ እናሳያለን። የእኛ የMamba ቋንቋ ሞዴል ተመሳሳይ መጠን ካላቸው ትራንስፎርመሮች ጋር ሲወዳደር 5× የትውልድ ልቀት ያለው ሲሆን የMamba-3B ጥራት ከትራንስፎርመሮች መጠኑ ጋር በእጥፍ ይዛመዳል (ለምሳሌ 4 ነጥብ ከፍ ያለ አማካይ የአእምሮ ግንዛቤ ከፒቲያ-3ቢ እና እንዲያውም ከፒቲያ-7ቢ ይበልጣል)።
የሞዴል ኮድ እና አስቀድሞ የሰለጠኑ የፍተሻ ኬላዎች በ https://github.com/state-spaces/mamba ላይ ክፍት ናቸው።
አጠቃላይ የግዛት ክፍተት ሞዴሎች. የግዛት ቦታ ሞዴል የሚለው ቃል በጣም ሰፊ ትርጉም እንዳለው እናስተውላለን ይህም በቀላሉ ማንኛውንም ተደጋጋሚ ሂደት ከድብቅ ሁኔታ ጋር ይወክላል። የማርኮቭ ውሳኔ ሂደቶችን (MDP) (የማጠናከሪያ ትምህርት (ሃፍነር እና ሌሎች 2020) ፣ ተለዋዋጭ መንስኤ ሞዴሊንግ (ዲሲኤም) (የስሌት ነርቭ ሳይንስ (Friston, Harrison, and Penny 2003))፣ ካልማን ማጣሪያዎች (መቆጣጠሪያዎች (Kalman) ኤምኤምዲሚክ ሲስተምስ)፣Kalman 19) ጨምሮ በተለያዩ ዘርፎች ውስጥ ብዙ የተለያዩ ጽንሰ-ሀሳቦችን ለማመልከት ጥቅም ላይ ውሏል። (ኤል.ዲ.ኤስ.) (የማሽን መማር)፣ እና ተደጋጋሚ (እና አንዳንዴም ተለዋዋጭ) ሞዴሎች በትልቅ (ጥልቅ ትምህርት)።
በዚህ ሙሉ ወረቀት ውስጥ የተዋቀሩ SSMs ወይም S4 ሞዴሎችን ክፍል (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022፤ Gupta, Gu, and Berant 2022፤ Hasani et al. 2023፤ Ma et al. 2023, ዋርማንንግተን, ስሚዝ 2 እነዚህን ውሎች) ለማመልከት "SSM" የሚለውን ቃል እንጠቀማለን። በተለዋዋጭ. ለመመቻቸት እንደ መስመራዊ-ተደጋጋሚነት ወይም አለምአቀፍ-convolution አመለካከቶች (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023) ላይ የሚያተኩሩትን የመሳሰሉ የእንደዚህ አይነት ሞዴሎች ተዋጽኦዎችን ልናካትት እንችላለን እና አስፈላጊ ሆኖ ሲገኝ ልዩነታቸውን ግልጽ እናደርጋለን።
SSM አርክቴክቸር. ኤስ.ኤም.ኤስ ከጫፍ እስከ ጫፍ የነርቭ አውታረመረብ አርክቴክቸር ውስጥ ሊካተቱ የሚችሉ የተከታታይ ለውጦች ናቸው። (እኛ ደግሞ አንዳንድ ጊዜ የኤስኤስኤም አርኪቴክቸር SSNNs ብለን እንጠራዋለን፣ እነሱም ወደ ኤስኤስኤም ንብርብሮች ሲኤንኤን ወደ መስመራዊ ኮንቮሉሽን ንብርብሮች ነው።) አንዳንድ በጣም የታወቁትን የኤስ.ኤስ.ኤም. አርክቴክቸር እንወያያለን፣ ከእነዚህም ውስጥ አብዛኛዎቹ እንደ ዋና መነሻችን ሆነው ያገለግላሉ።
• የመስመራዊ ትኩረት (Katharopoulos et al. 2020) ራስን የማሰብ ግምታዊ ድግግሞሽን የሚያካትት እንደ የተበላሸ የመስመር ኤስ.ኤም.ኤም.
• H3 (Dao, Fu, Saab, et al. 2023) ይህንን ተደጋጋሚነት S4 ለመጠቀም ጠቅለል አድርጎታል; በሁለት የተከለሉ ግንኙነቶች ከኤስኤስኤምኤስ ጋር እንደ አርክቴክቸር ሊታይ ይችላል (ምስል 3)። H3 ከዋናው የኤስ.ኤስ.ኤም. ንብርብር በፊት እንደ ፈረቃ-ኤስ.ኤም.ኤም የሚቀረጹትን መደበኛ የአካባቢያዊ ኮንቮሉሽን ያስገባል።
• ጅብ (Poli et al. 2023) እንደ H3 ተመሳሳይ አርክቴክቸር ይጠቀማል ነገር ግን S4 ንብርብርን በMLP-parameterized global convolution (Romero et al. 2021) ይተካዋል።
• ሬትኔት (Y. Sun et al. 2023) ተጨማሪ በርን ወደ አርክቴክቸር አክሎ እና ቀለል ያለ ኤስ.ኤም.ኤምን ይጠቀማል፣ ይህም አማራጭ ትይዩ የሆነ የስሌት መንገድ በመፍቀድ፣ ባለብዙ ጭንቅላት ትኩረትን (MHA) በተለዋዋጭ ሁኔታዎችን በመጠቀም።
• RWKV (B. Peng et al. 2023) በሌላ መስመራዊ ትኩረት ግምታዊ ግምት (ከትኩረት-ነጻ ትራንስፎርመር (ኤስ. Zhai et al. 2021)) ላይ ተመስርቶ ለቋንቋ ሞዴልነት የተነደፈ የቅርብ ጊዜ አርኤንኤን ነው። ዋናው የ"WKV" ዘዴ የኤልቲአይ ድግግሞሾችን ያካትታል እና እንደ ሁለት SSMs ጥምርታ ሊታይ ይችላል።
ሌሎች ተዛማጅነት ያላቸው ኤስ.ኤስ.ኤም.ኤስ እና አርክቴክቸር በተራዘመ ተዛማጅ ስራ (አባሪ ለ) ላይ የበለጠ ተብራርቷል። እኛ በተለይ S5 (Smith, Warrington, and Linderman 2023)፣ QRNN (Bradbury et al. 2016) እና SRU (Lei et al. 2017)፣ ከዋና መራጭ ኤስ.ኤም.ኤም ጋር በጣም የተቆራኙ ዘዴዎች አድርገን የምንመለከታቸው ናቸው።
ይህ ወረቀት በ CC BY 4.0 DEED ፍቃድ በarxiv ላይ ይገኛል ።