لیکوالان:
(۱) البرټ ګو، د ماشین زده کړې څانګه، د کارنیګي میلون پوهنتون د مساوي ونډې سره (agu@cs.cmu.edu)؛
(۲) ټری داو، د کمپیوټر ساینس څانګه، پرنسټن پوهنتون د مساوي ونډې سره (tri@tridao.me).
۳ انتخابي حالت فضايي ماډلونه او ۳.۱ هڅونه: د فشار د یوې وسیلې په توګه انتخاب
۳.۲ د انتخاب سره د SSMs ښه کول
۳.۳ د انتخابي SSMs اغیزمن تطبیق
۳.۵ د انتخاب میکانیزمونو ځانګړتیاوې
۴ تجربوي ارزونه او ۴.۱ مصنوعي دندې
د B اړوند کار او د B.1 S4 ډولونه او مشتقات
B.4 خطي پاملرنه او B.5 اوږد متن ماډلونه
د انتخابي SSMs لپاره د هارډویر څخه خبر الګوریتم
E تجربوي توضیحات او اضافي پایلې او E.1 مصنوعي دندې
بنسټیز ماډلونه، چې اوس په ژوره زده کړه کې ډیری په زړه پورې غوښتنلیکونه ځواکمن کوي، تقریبا په نړیواله کچه د ټرانسفارمر معمارۍ او د هغې د اصلي پاملرنې ماډل پر بنسټ والړ دي. ډیری فرعي کواډریټیک وخت معمارۍ لکه خطي پاملرنه، ګیټ شوي کنولوشن او تکراري ماډلونه، او جوړښت شوي حالت فضا ماډلونه (SSMs) د اوږدې ترتیبونو په اړه د ټرانسفارمرونو د کمپیوټري بې کفایتۍ د حل کولو لپاره رامینځته شوي، مګر دوی د ژبې په څیر مهم ماډلونو کې د پاملرنې په څیر ښه فعالیت نه دی کړی. موږ پوهیږو چې د داسې ماډلونو یوه مهمه کمزوري د دوی د مینځپانګې پر بنسټ استدلال ترسره کولو کې د دوی ناتواني ده، او ډیری پرمختګونه کوي. لومړی، په ساده ډول د SSM پیرامیټرو ته اجازه ورکول د ان پټ دندې دي د دوی کمزوري د جلا ماډلونو سره حل کوي، ماډل ته اجازه ورکوي چې د اوسني نښه پورې اړوند د ترتیب اوږدوالي ابعاد سره په انتخابي ډول تبلیغ وکړي یا هیر کړي. دوهم، که څه هم دا بدلون د اغیزمن کنولوشنونو کارولو مخه نیسي، موږ په تکراري حالت کې د هارډویر څخه خبر موازي الګوریتم ډیزاین کوو. موږ دا انتخابي SSMs د پاملرنې یا حتی MLP بلاکونو (Mamba) پرته د ساده پای څخه تر پایه عصبي شبکې جوړښت کې مدغم کوو. مامبا د ګړندي استنباط (د ټرانسفارمرونو په پرتله 5 × لوړ تروپټ) او د ترتیب اوږدوالي کې خطي پیمانه کولو څخه خوند اخلي، او د هغې فعالیت په ریښتیني معلوماتو کې تر ملیون اوږدوالي ترتیبونو پورې ښه کیږي. د عمومي ترتیب ماډل بیک بون په توګه، مامبا د ژبې، آډیو، او جینومیک په څیر په ډیری ماډلونو کې د عصري فعالیت لاسته راوړي. د ژبې ماډلینګ کې، زموږ مامبا-3B ماډل د ورته اندازې ټرانسفارمرونو څخه غوره فعالیت کوي او د ټرانسفارمرونو سره د هغې د اندازې دوه چنده پرتله کوي، دواړه په پری ټریننګ او ډرایم ارزونې کې.
بنسټیز ماډلونه (FMs)، یا لوی ماډلونه چې په پراخه ډیټا باندې مخکې له مخکې روزل شوي او بیا د ښکته دندو لپاره تطبیق شوي، د عصري ماشین زده کړې کې د یوې اغیزمنې نمونې په توګه راڅرګند شوي دي. د دې FMs ملا اکثرا د ترتیب ماډلونه دي، چې د ژبې، انځورونو، وینا، آډیو، وخت لړۍ، او جینومیکونو په څیر د مختلفو ډومینونو څخه د ان پټونو په خپل سر ترتیبونو کار کوي (براون او نور 2020؛ دوسوویتسکي او نور 2020؛ اسماعیل فواز او نور 2019؛ اورډ او نور 2016؛ پولی او نور 2023؛ سوټسکیور، وینالز، او کووک وی لی 2014). که څه هم دا مفهوم د ماډل معمارۍ د یوې ځانګړې انتخاب لپاره اجنوسټیک دی، عصري FMs په عمده توګه د یو ډول ترتیب ماډل پر بنسټ والړ دي: ټرانسفارمر (واسواني او نور 2017) او د هغې د پاملرنې اصلي طبقه (بهداناو، چو، او بینجیو 2015). د ځان پاملرنې اغیزمنتوب د دې وړتیا ته منسوب دی چې معلومات په یوه شرایطو کړکۍ کې په کثافت سره لیږدوي، چې دا اجازه ورکوي چې پیچلي معلومات ماډل کړي. په هرصورت، دا ملکیت بنسټیز نیمګړتیاوې راوړي: د یوې محدودې کړکۍ څخه بهر د هرڅه ماډل کولو نشتوالی، او د کړکۍ اوږدوالي په اړه څلور اړخیزه پیمانه کول. د دې نیمګړتیاوو د لرې کولو لپاره د پاملرنې په ډیرو اغیزمنو ډولونو باندې د څیړنې یوه لویه ډله راڅرګنده شوې ده (تای، دهغاني، بهري، او نور 2022)، مګر ډیری وختونه د هغو ځانګړتیاو په لګښت چې دا اغیزمن کوي. تر اوسه پورې، د دې ډولونو څخه هیڅ یو په تجربوي ډول په ټولو ډومینونو کې په پیمانه اغیزمن نه دی ښودل شوی. په دې وروستیو کې، د جوړښت شوي حالت فضا ترتیب ماډلونه (SSMs) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) د ترتیب ماډلینګ لپاره د معمارۍ د یوې ژمنې طبقې په توګه راڅرګند شوي دي. دا ماډلونه د تکراري عصبي شبکو (RNNs) او کنولوشنل عصبي شبکو (CNNs) ترکیب په توګه تشریح کیدی شي، د کلاسیک حالت فضا ماډلونو (Kalman 1960) څخه الهام اخیستل شوی. د ماډلونو دا ټولګی په ډیر اغیزمن ډول د تکرار یا کنولوشن په توګه محاسبه کیدی شي، د ترتیب اوږدوالي کې خطي یا نږدې خطي پیمانه کولو سره. سربیره پردې، دوی د اوږد واټن انحصارونو ماډل کولو لپاره اصولي میکانیزمونه لري (Gu, Dao, et al. 2020) په ځینو معلوماتو طریقو کې، او د اوږد واټن ارینا (Tay, Dehghani, Abnar, et al. 2021) په څیر معیارونه لري. د SSM ډیری خوندونه (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) په هغو ساحو کې بریالي شوي دي چې دوامداره سیګنال ډیټا لکه آډیو او لید پکې شامل دي (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023). په هرصورت، دوی د متن په څیر د جلا او معلوماتو ډک ډیټا ماډل کولو کې لږ اغیزمن دي.
موږ د انتخابي حالت فضا ماډلونو یوه نوې ټولګه وړاندیز کوو، چې د څو محورونو په پخوانیو کارونو کې ښه والی راولي ترڅو د ټرانسفارمرونو ماډلینګ ځواک ترلاسه کړي پداسې حال کې چې د ترتیب اوږدوالي کې په خطي ډول اندازه کوي.
د انتخاب میکانیزم. لومړی، موږ د پخوانیو ماډلونو یو مهم محدودیت په ګوته کوو: د معلوماتو په اغیزمنه توګه د ان پټ پورې تړلي ډول غوره کولو وړتیا (د بیلګې په توګه په ځانګړو ان پټونو تمرکز کول یا له پامه غورځول). د مهمو مصنوعي دندو لکه انتخابي کاپي او انډکشن سرونو پر بنسټ د وجدان پر بنسټ جوړول، موږ د ان پټ پر بنسټ د SSM پیرامیټرونو پیرامیټریز کولو سره د انتخاب یو ساده میکانیزم ډیزاین کوو. دا ماډل ته اجازه ورکوي چې غیر اړونده معلومات فلټر کړي او اړونده معلومات په نامعلوم وخت کې یاد وساتي.
د هارډویر څخه خبر الګوریتم . دا ساده بدلون د ماډل د محاسبې لپاره تخنیکي ننګونه رامینځته کوي؛ په حقیقت کې، د SSMs ټول پخواني ماډلونه باید د وخت او ان پټ انوییرینټ وي ترڅو په محاسبه کې اغیزمن وي. موږ دا د هارډویر څخه خبر الګوریتم سره بریالي کوو چې ماډل په مکرر ډول د کنولوشن پرځای د سکین سره محاسبه کوي، مګر د GPU حافظې د درجې د مختلفو کچو ترمنځ د IO لاسرسي څخه مخنیوي لپاره پراخ شوی حالت نه عملي کوي. پایله یې پلي کول د تیرو میتودونو په پرتله ګړندي دي دواړه په تیوري کې (د ترتیب اوږدوالي کې خطي اندازه کول، د ټولو کنولوشن پر بنسټ SSMs لپاره د سیډو-لینیر په پرتله) او په عصري هارډویر کې (په A100 GPUs کې تر 3× پورې ګړندی).
معمارۍ. موږ د پخوانیو ژورو ترتیب ماډل معمارۍ ساده کوو د پخوانیو SSM معمارۍ ډیزاین (داو، فو، ساب، او نور. 2023) د ټرانسفارمرونو د MLP بلاک سره په یوه واحد بلاک کې یوځای کولو سره، د ساده او همجنسي معمارۍ ډیزاین (مامبا) ته لاره هواروي چې د انتخابي حالت ځایونه پکې شامل دي. انتخابي SSMs، او د توسیع له لارې د مامبا معمارۍ، په بشپړ ډول تکراري ماډلونه دي چې کلیدي ملکیتونه لري چې دوی د عمومي بنسټ ماډلونو د ملا تیر په توګه مناسب کوي چې په ترتیبونو کې کار کوي. (i) لوړ کیفیت: انتخاب د ژبې او جینومیک په څیر د ګڼو موډلونو کې قوي فعالیت راوړي. (ii) ګړندی روزنه او استنباط: د روزنې په جریان کې د ترتیب اوږدوالی کې په خطي ډول محاسبه او حافظه پیمانه کوي، او د استنباط په جریان کې د ماډل اتوماتیک ډول خلاصول په هر ګام کې یوازې ثابت وخت ته اړتیا لري ځکه چې دا د پخوانیو عناصرو کیش ته اړتیا نلري. (iii) اوږد شرایط: کیفیت او موثریت په ګډه د ترتیب اوږدوالی 1M پورې په ریښتیني معلوماتو کې د فعالیت ښه والی راوړي.
موږ په تجربوي ډول د مامبا وړتیا د عمومي ترتیب FM بیک بون په توګه تاییدوو، د روزنې دمخه کیفیت او د ډومین ځانګړي دندې فعالیت کې، په څو ډوله طریقو او ترتیباتو کې:
• ترکیبونه. په مهمو مصنوعي دندو لکه د کاپي کولو او انډکشن سرونو کې چې د لویو ژبو ماډلونو لپاره د کلیدي په توګه وړاندیز شوي، مامبا نه یوازې دا په اسانۍ سره حل کوي بلکه کولی شي د نامعلوم وخت لپاره حلونه (> 1M ټوکنونه) پراخه کړي.
• آډیو او جینومکس. مامبا د آډیو ویوفارمونو او DNA ترتیبونو په ماډل کولو کې د پخوانیو عصري ماډلونو لکه SaShiMi، Hyena، او ټرانسفارمرونو څخه غوره فعالیت کوي، دواړه د روزنې دمخه کیفیت او د ښکته جریان میټریکونو کې (د مثال په توګه د ننګونکي وینا تولید ډیټاسیټ کې د نیمایي څخه ډیر FID کمول). په دواړو ترتیباتو کې، د دې فعالیت د اوږدې مودې شرایطو سره تر ملیون اوږدوالي ترتیبونو پورې ښه کیږي.
• د ژبې ماډلینګ. مامبا لومړنی خطي وخت ترتیب ماډل دی چې په ریښتیا سره د ټرانسفارمر کیفیت فعالیت ترلاسه کوي، دواړه د روزنې دمخه پیچلتیا او د ښکته جریان ارزونو کې. د 1B پیرامیټرو پورې د سکیلینګ قوانینو سره، موږ ښیې چې مامبا د LLaMa (Touvron et al. 2023) پر بنسټ د خورا قوي عصري ټرانسفارمر روزنې ترکیبونو په ګډون د اساساتو لوی لړۍ فعالیت څخه تیریږي. زموږ د مامبا ژبې ماډل د ورته اندازې ټرانسفارمرونو په پرتله 5× نسل تروپټ لري، او د مامبا-3B کیفیت د ټرانسفارمرونو سره د هغې د اندازې دوه چنده سره سمون لري (د مثال په توګه د پیتیا-3B په پرتله د عام احساس استدلال کې 4 پوائنټونه لوړ اوسط او حتی د پیتیا-7B څخه ډیر).
د ماډل کوډ او مخکې له مخکې روزل شوي پوستې په https://github.com/state-spaces/mamba کې خلاصې سرچینې دي.
د عمومي دولتي فضا ماډلونه. موږ یادونه کوو چې د دولتي فضا ماډل اصطلاح خورا پراخه معنی لري چې په ساده ډول د پټ حالت سره د هر تکراري پروسې مفهوم استازیتوب کوي. دا په مختلفو څانګو کې ډیری متفاوت مفکورو ته د راجع کولو لپاره کارول شوی، پشمول د مارکوف پریکړې پروسې (MDP) (د تقویې زده کړه (هافنر او نور 2020))، متحرک علت ماډلینګ (DCM) (کمپیوټیشنل نیورو ساینس (فریسټون، هریسن، او پیني 2003))، کالمن فلټرونه (کنټرولونه (کالمن 1960))، پټ مارکوف ماډلونه (HMM) او خطي متحرک سیسټمونه (LDS) (ماشین زده کړه)، او په لویه کچه تکراري (او ځینې وختونه کنولوشنل) ماډلونه (ژوره زده کړه).
په دې ټوله مقاله کې موږ د "SSM" اصطلاح کاروو ترڅو په ځانګړي ډول د جوړښت شوي SSMs یا S4 ماډلونو ټولګي ته اشاره وکړو (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Hasani et al. 2023; Ma et al. 2023; Smith, Warrington, and Linderman 2023) او دا اصطلاحات په یو بل سره وکاروو. د اسانتیا لپاره موږ ممکن د داسې ماډلونو مشتقات هم شامل کړو، لکه هغه چې په خطي تکرار یا نړیوال کنولوشن لیدونو تمرکز کوي (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023)، او کله چې اړتیا وي نو باریکۍ روښانه کړو.
د SSM معمارۍ. SSMs د ترتیب بدلونونه دي چې د پای څخه تر پای پورې د عصبي شبکې معمارۍ کې شامل کیدی شي. (موږ ځینې وختونه د SSM معمارۍ SSNNs هم وایو، کوم چې د SSM طبقو ته دي لکه څنګه چې CNNs د خطي کنولوشن طبقو ته دي.) موږ د SSM ځینې خورا مشهور معمارۍ په اړه بحث کوو، چې ډیری یې به زموږ د لومړني اساساتو په توګه هم کار وکړي.
• خطي پاملرنه (کاتاروپولوس او نور ۲۰۲۰) د ځان پاملرنې یوه نږدې والی دی چې پکې تکرار شامل دی کوم چې د تخریب شوي خطي SSM په توګه لیدل کیدی شي.
• H3 (Dao, Fu, Saab, et al. 2023) د S4 کارولو لپاره دا تکرار عمومي کړ؛ دا د دوه ګیټ شوي اتصالونو لخوا سینڈوچ شوي SSM سره د معمارۍ په توګه لیدل کیدی شي (شکل 3). H3 یو معیاري محلي کنولوشن هم داخلوي، کوم چې دوی د اصلي SSM طبقې څخه مخکې د شفټ-SSM په توګه چوکاټ کوي.
• هایینا (پولي او نور ۲۰۲۳) د H3 په څیر ورته جوړښت کاروي مګر د S4 طبقه د MLP-پیرامیټرائز شوي نړیوال کنولوشن سره بدلوي (رومیرو او نور ۲۰۲۱).
• RetNet (Y. Sun et al. 2023) معمارۍ ته یو اضافي دروازه اضافه کوي او یو ساده SSM کاروي، د بدیل موازي محاسبې لارې ته اجازه ورکوي، د کنولوشنونو پرځای د څو سر پاملرنې (MHA) ډول کاروي.
• RWKV (B. Peng et al. 2023) یو وروستی RNN دی چې د ژبې ماډلینګ لپاره ډیزاین شوی چې د بل خطي پاملرنې نږدېوالي پراساس دی (د پاملرنې څخه پاک ټرانسفارمر (S. Zhai et al. 2021)). د دې اصلي "WKV" میکانیزم د LTI تکرارونه لري او د دوه SSMs تناسب په توګه لیدل کیدی شي.
نور نږدې اړوند SSMs او معمارۍ په یوه پراخه اړونده کار کې نور بحث شوي دي (ضمیمه ب). موږ په ځانګړي ډول S5 (سمیت، وارینګټن، او لینډرمین 2023)، QRNN (برادبري او نور 2016)، او SRU (لی او نور 2017) روښانه کوو، کوم چې موږ زموږ د اصلي انتخابي SSM سره ترټولو نږدې اړونده میتودونو په توګه ګورو.
دا مقاله د CC BY 4.0 DEED جواز لاندې په arxiv کې شتون لري .