කතුවරුන්:
(1) ඇල්බට් ගු, යන්ත්ර ඉගෙනුම් දෙපාර්තමේන්තුව, කානගී මෙලන් විශ්ව විද්යාලය සමාන දායකත්වයක් සහිතව (agu@cs.cmu.edu);
(2) ට්රයි ඩාඕ, පරිගණක විද්යා දෙපාර්තමේන්තුව, ප්රින්ස්ටන් විශ්ව විද්යාලය සමාන දායකත්වයක් සහිතව (tri@tridao.me).
3 වරණීය තත්ව අවකාශ ආකෘති සහ 3.1 අභිප්රේරණය: සම්පීඩන මාධ්යයක් ලෙස තෝරා ගැනීම
3.2 තේරීම සමඟ SSM වැඩිදියුණු කිරීම
3.3 තෝරාගත් SSM කාර්යක්ෂමව ක්රියාත්මක කිරීම
3.4 සරල කළ SSM ගෘහ නිර්මාණ ශිල්පයක්
3.5 තෝරා ගැනීමේ යාන්ත්රණවල ගුණාංග
4 ආනුභවික ඇගයීම සහ 4.1 කෘතිම කාර්යයන්
4.4 ශ්රව්ය ආකෘති නිර්මාණය සහ උත්පාදනය
6 නිගමනය, පිළිගැනීම් සහ යොමු කිරීම්
සාකච්ඡාවක්: තෝරා ගැනීමේ යාන්ත්රණය
B ආශ්රිත කාර්යය සහ B.1 S4 ප්රභේද සහ ව්යුත්පන්න
B.4 රේඛීය අවධානය සහ B.5 දිගු සන්දර්භ ආකෘති
C වරණීය SSM වල යාන්ත්ර විද්යාව
D වරණීය SSM සඳහා දෘඪාංග-දැනුවත් ඇල්ගොරිතමය
E පර්යේෂණාත්මක විස්තර සහ අතිරේක ප්රතිඵල සහ E.1 කෘතිම කාර්යයන්
ගැඹුරු ඉගෙනීමේ බොහෝ ආකර්ෂණීය යෙදුම් සඳහා දැන් බලය සපයන පදනම් ආකෘති, ට්රාන්ස්ෆෝමර් ගෘහ නිර්මාණ ශිල්පය සහ එහි මූලික අවධානය මොඩියුලය මත විශ්වීය වශයෙන් පදනම් වී ඇත. රේඛීය අවධානය, ගේටඩ් කොන්වුලයුෂන් සහ පුනරාවර්තන ආකෘති සහ ව්යුහගත රාජ්ය අවකාශ ආකෘති (SSM) වැනි බොහෝ උපචක්ර-කාල ගෘහ නිර්මාණ ශිල්පය දිගු අනුපිළිවෙලවල් මත ට්රාන්ස්ෆෝමර්වල පරිගණකමය අකාර්යක්ෂමතාව ආමන්ත්රණය කිරීම සඳහා සංවර්ධනය කර ඇත, නමුත් ඒවා භාෂාව වැනි වැදගත් ක්රම කෙරෙහි අවධානය යොමු කර නැත. එවැනි ආකෘතිවල ප්රධාන දුර්වලතාවයක් වන්නේ අන්තර්ගතය මත පදනම් වූ තර්කනය සිදු කිරීමට ඇති නොහැකියාව බව අපි හඳුනාගෙන වැඩිදියුණු කිරීම් කිහිපයක් සිදු කරමු. පළමුව, SSM පරාමිතීන් ආදානයේ කාර්යයන් වීමට ඉඩ දීමෙන්, ආකෘතියට වත්මන් ටෝකනය අනුව අනුක්රමික දිග මානය ඔස්සේ තොරතුරු තෝරා බේරා ප්රචාරය කිරීමට හෝ අමතක කිරීමට ඉඩ සලසමින්, විවික්ත ක්රම සමඟ ඔවුන්ගේ දුර්වලතාවය ආමන්ත්රණය කරමු. දෙවනුව, මෙම වෙනස කාර්යක්ෂම කොන්වුලයුෂන් භාවිතය වළක්වන නමුත්, අපි පුනරාවර්තන මාදිලියේ දෘඩාංග-දැනුවත් සමාන්තර ඇල්ගොරිතමයක් නිර්මාණය කරමු. අපි මෙම තෝරාගත් SSM අවධානය හෝ MLP බ්ලොක් (Mamba) නොමැතිව සරල කළ අන්තයේ සිට අවසානය දක්වා ස්නායු ජාල ගෘහ නිර්මාණ ශිල්පයකට ඒකාබද්ධ කරමු. Mamba වේගවත් අනුමානය (ට්රාන්ස්ෆෝමර් වලට වඩා 5× ඉහළ ප්රතිදානයක්) සහ අනුක්රමික දිගෙහි රේඛීය පරිමාණය භුක්ති විඳින අතර, මිලියන-දිග අනුපිළිවෙලවල් දක්වා සැබෑ දත්ත මත එහි ක්රියාකාරිත්වය වැඩි දියුණු වේ. සාමාන්ය අනුක්රමික ආකෘති කොඳු නාරටියක් ලෙස, Mamba භාෂාව, ශ්රව්ය සහ ජාන විද්යාව වැනි ක්රම කිහිපයක් හරහා අති නවීන කාර්ය සාධනයක් අත්කර ගනී. භාෂා ආකෘති නිර්මාණයේදී, අපගේ Mamba-3B ආකෘතිය එකම ප්රමාණයේ ට්රාන්ස්ෆෝමර් අභිබවා යන අතර පූර්ව පුහුණුවීම් සහ පහළට ඇගයුම් යන දෙකෙහිම ට්රාන්ස්ෆෝමර් එහි ප්රමාණය මෙන් දෙගුණයක් ගැලපේ.
පදනම් ආකෘති (FM), හෝ දැවැන්ත දත්ත මත පූර්ව පුහුණුව ලබා පසුව පහළට යන කාර්යයන් සඳහා අනුවර්තනය කරන ලද විශාල ආකෘති, නවීන යන්ත්ර ඉගෙනීමේ ඵලදායී ආදර්ශයක් ලෙස මතු වී ඇත. මෙම FM වල කොඳු නාරටිය බොහෝ විට අනුක්රමික ආකෘති වන අතර, භාෂාව, රූප, කථනය, ශ්රව්ය, කාල ශ්රේණි සහ ජාන විද්යාව වැනි පුළුල් පරාසයක වසම් වලින් ලැබෙන ආදානවල අත්තනෝමතික අනුපිළිවෙල මත ක්රියාත්මක වේ (Brown et al. 2020; Dosovitskiy et al. 2020; Ismail Fawaz et al. 2019; Oord et al. 2016; Poli et al. 2023; Sutskever, Vinyals, and Quoc V Le 2014). මෙම සංකල්පය විශේෂිත ආකෘති ගෘහ නිර්මාණ ශිල්පයක් සඳහා අඥෙයවාදී වුවද, නවීන FM ප්රධාන වශයෙන් තනි අනුක්රමික ආකෘතියක් මත පදනම් වේ: ට්රාන්ස්ෆෝමර් (Vaswani et al. 2017) සහ එහි මූලික අවධානය ස්ථරය (Bahdanau, Cho, and Bengio 2015). ස්වයං-අවධානයේ කාර්යක්ෂමතාවය සන්දර්භ කවුළුවක් තුළ තොරතුරු ඝන ලෙස යොමු කිරීමේ හැකියාවට ආරෝපණය කර ඇති අතර එමඟින් සංකීර්ණ දත්ත ආකෘති කිරීමට ඉඩ සලසයි. කෙසේ වෙතත්, මෙම ගුණාංගය මූලික අඩුපාඩු ගෙන එයි: සීමිත කවුළුවකින් පිටත කිසිවක් ආකෘති කිරීමට නොහැකි වීම සහ කවුළු දිගට සාපේක්ෂව චතුරස්ර පරිමාණය. මෙම අඩුපාඩු මඟහරවා ගැනීම සඳහා වඩාත් කාර්යක්ෂම අවධානය යොමු කිරීමේ ප්රභේද පිළිබඳ දැවැන්ත පර්යේෂණ සමූහයක් දර්ශනය වී ඇත (Tay, Dehghani, Bahri, et al. 2022), නමුත් බොහෝ විට එය ඵලදායී කරන ගුණාංගවල වියදමින්. මෙතෙක්, මෙම ප්රභේද කිසිවක් වසම් හරහා පරිමාණයෙන් ප්රායෝගිකව ඵලදායී බව පෙන්වා දී නොමැත. මෑතකදී, ව්යුහගත රාජ්ය අභ්යවකාශ අනුක්රමික ආකෘති (SSMs) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) අනුක්රමික ආකෘති නිර්මාණය සඳහා පොරොන්දු වූ ගෘහ නිර්මාණ පන්තියක් ලෙස මතු වී ඇත. මෙම ආකෘති සම්භාව්ය රාජ්ය අභ්යවකාශ ආකෘතිවලින් (Kalman 1960) ආභාෂය ලබා ගනිමින් පුනරාවර්තන ස්නායු ජාල (RNNs) සහ සංවෘත ස්නායු ජාල (CNNs) වල සංයෝජනයක් ලෙස අර්ථ දැක්විය හැකිය. මෙම ආකෘති පන්තිය අනුක්රමික දිගෙහි රේඛීය හෝ ආසන්න රේඛීය පරිමාණය සමඟ පුනරාවර්තනයක් හෝ සංවෘත කිරීමක් ලෙස ඉතා කාර්යක්ෂමව ගණනය කළ හැකිය. ඊට අමතරව, ඇතැම් දත්ත ක්රමවේදයන්හි දිගු පරායත්තතා (Gu, Dao, et al. 2020) ආකෘතිකරණය සඳහා ඔවුන්ට ප්රතිපත්තිමය යාන්ත්රණ ඇති අතර දිගු පරායත්තතා (Tay, Dehghani, Abnar, et al. 2021) වැනි මිණුම් සලකුණු ආධිපත්යය දරයි. SSM වල බොහෝ රසයන් (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) ශ්රව්ය සහ දර්ශනය වැනි අඛණ්ඩ සංඥා දත්ත සම්බන්ධ වසම්වල සාර්ථක වී ඇත (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023). කෙසේ වෙතත්, පෙළ වැනි විවික්ත සහ තොරතුරු-ඝන දත්ත ආකෘතිකරණය කිරීමේදී ඒවා අඩු ඵලදායී වී ඇත.
අනුක්රමික දිගෙහි රේඛීයව පරිමාණය කරමින් ට්රාන්ස්ෆෝමර්වල ආකෘතිකරණ බලය ලබා ගැනීම සඳහා අක්ෂ කිහිපයක පූර්ව වැඩ වැඩිදියුණු කරන, තෝරාගත් රාජ්ය අවකාශ ආකෘතිවල නව පන්තියක් අපි යෝජනා කරමු.
තේරීමේ යාන්ත්රණය. පළමුව, අපි පෙර ආකෘතිවල ප්රධාන සීමාවක් හඳුනා ගනිමු: ආදාන-යැපෙන ආකාරයෙන් දත්ත කාර්යක්ෂමව තෝරා ගැනීමේ හැකියාව (එනම් විශේෂිත යෙදවුම් කෙරෙහි අවධානය යොමු කිරීම හෝ නොසලකා හැරීම). තෝරාගත් පිටපත් සහ ප්රේරණ ශීර්ෂ වැනි වැදගත් කෘතිම කාර්යයන් මත පදනම් වූ බුද්ධිය මත ගොඩනඟමින්, ආදානය මත පදනම්ව SSM පරාමිතීන් පරාමිතිකරණය කිරීමෙන් අපි සරල තේරීමේ යාන්ත්රණයක් නිර්මාණය කරමු. මෙය ආකෘතියට අදාළ නොවන තොරතුරු පෙරීමට සහ අදාළ තොරතුරු දින නියමයක් නොමැතිව මතක තබා ගැනීමට ඉඩ සලසයි.
දෘඪාංග-දැනුවත් ඇල්ගොරිතමය . මෙම සරල වෙනස ආකෘතිය ගණනය කිරීම සඳහා තාක්ෂණික අභියෝගයක් මතු කරයි; ඇත්ත වශයෙන්ම, පරිගණකමය වශයෙන් කාර්යක්ෂම වීමට නම් සියලුම පෙර SSM ආකෘති කාලය- සහ ආදාන-වෙනස් නොවිය යුතුය. අපි දෘඪාංග-දැනුවත් ඇල්ගොරිතමයකින් මෙය ජය ගනිමු, එය ආකෘතිය නැවත නැවතත් සංකෝචනය වෙනුවට ස්කෑන් කිරීමකින් ගණනය කරයි, නමුත් GPU මතක ධූරාවලියේ විවිධ මට්ටම් අතර IO ප්රවේශය වළක්වා ගැනීම සඳහා පුළුල් කළ තත්වය ද්රව්යකරණය නොකරයි. ප්රතිඵලයක් ලෙස ක්රියාත්මක කිරීම න්යායාත්මකව (සියලු සංකෝචන-පාදක SSM සඳහා ව්යාජ-රේඛීය හා සසඳන විට අනුක්රමික දිගෙහි රේඛීයව පරිමාණය කිරීම) සහ නවීන දෘඪාංග (A100 GPU මත 3× දක්වා වේගවත්) යන දෙකෙහිම පෙර ක්රමවලට වඩා වේගවත් වේ.
ගෘහ නිර්මාණ ශිල්පය. පෙර SSM ගෘහ නිර්මාණ ශිල්පයේ (Dao, Fu, Saab, et al. 2023) සැලසුම ට්රාන්ස්ෆෝමර්වල MLP බ්ලොක් එක සමඟ තනි බ්ලොක් එකකට ඒකාබද්ධ කිරීමෙන් අපි පෙර ගැඹුරු අනුක්රමික ආකෘති ගෘහ නිර්මාණ ශිල්පය සරල කරමු, එමඟින් තෝරාගත් රාජ්ය අවකාශයන් ඇතුළත් සරල හා සමජාතීය ගෘහ නිර්මාණ සැලසුමක් (Mamba) ඇති වේ. වරණීය SSM සහ දිගුව මගින් Mamba ගෘහ නිර්මාණ ශිල්පය, අනුපිළිවෙලවල් මත ක්රියාත්මක වන සාමාන්ය පදනම් ආකෘතිවල කොඳු නාරටිය ලෙස ඒවා සුදුසු කරන ප්රධාන ගුණාංග සහිත සම්පූර්ණයෙන්ම පුනරාවර්තන ආකෘති වේ. (i) ඉහළ ගුණාත්මකභාවය: තේරීම භාෂාව සහ ජාන විද්යාව වැනි ඝන ක්රම මත ශක්තිමත් කාර්ය සාධනයක් ගෙන එයි. (ii) වේගවත් පුහුණුව සහ අනුමානය: පුහුණුව අතරතුර අනුක්රමික දිගෙහි රේඛීයව ගණනය කිරීම සහ මතක පරිමාණයන් සහ අනුමාන කිරීමේදී ආකෘතිය ස්වයංක්රීයව ප්රතිගාමී ලෙස දිග හැරීමට පියවරකට නියත කාලයක් පමණක් අවශ්ය වේ, මන්ද එයට පෙර මූලද්රව්යවල හැඹිලියක් අවශ්ය නොවේ. (iii) දිගු සන්දර්භය: ගුණාත්මකභාවය සහ කාර්යක්ෂමතාව එක්ව අනුක්රමික දිග 1M දක්වා සැබෑ දත්ත මත කාර්ය සාධන වැඩිදියුණු කිරීම් ලබා දෙයි.
පූර්ව පුහුණුවීම් ගුණාත්මකභාවය සහ වසම්-විශේෂිත කාර්ය සාධනය යන දෙකෙහිම, ක්රමවේද සහ සැකසුම් වර්ග කිහිපයක් මත, සාමාන්ය අනුක්රමික FM කොඳු නාරටියක් ලෙස අපි Mamba හි විභවය ප්රායෝගිකව වලංගු කරමු:
• සංස්ලේෂණ විද්යාව. විශාල භාෂා ආකෘති සඳහා යතුර ලෙස යෝජනා කර ඇති පිටපත් කිරීම සහ ප්රේරණ ශීර්ෂ වැනි වැදගත් සංස්ලේෂණ කාර්යයන්හිදී, Mamba ඒවා පහසුවෙන් විසඳනවා පමණක් නොව, විසඳුම් දින නියමයක් නොමැතිව දිගු (>1M ටෝකන) නිස්සාරණය කළ හැකිය.
• ශ්රව්ය සහ ජාන විද්යාව. පූර්ව පුහුණුවීම් ගුණාත්මකභාවය සහ පහළ ප්රමිතික යන දෙකෙහිම (උදා: අභියෝගාත්මක කථන උත්පාදන දත්ත කට්ටලයක FID අඩකට වඩා අඩු කිරීම) ශ්රව්ය තරංග ආකෘති සහ DNA අනුපිළිවෙල ආකෘතිකරණය කිරීමේදී Mamba, SaShiMi, Hyena සහ Transformers වැනි පෙර අති නවීන ආකෘති අභිබවා යයි. සැකසුම් දෙකෙහිම, එහි ක්රියාකාරිත්වය මිලියනයක දිග අනුපිළිවෙලක් දක්වා දිගු සන්දර්භයක් සමඟ වැඩි දියුණු වේ.
• භාෂා ආකෘති නිර්මාණය. පූර්ව පුහුණු ව්යාකූලත්වය සහ පහළට යන ඇගයීම් යන දෙකෙහිම ට්රාන්ස්ෆෝමර්-ගුණාත්මක කාර්ය සාධනය සැබවින්ම සාක්ෂාත් කර ගන්නා පළමු රේඛීය-කාල අනුක්රමික ආකෘතිය Mamba වේ. 1B පරාමිතීන් දක්වා පරිමාණ නීති සමඟින්, LLaMa (Touvron et al. 2023) මත පදනම් වූ ඉතා ශක්තිමත් නවීන ට්රාන්ස්ෆෝමර් පුහුණු වට්ටෝරු ඇතුළුව, Mamba විශාල පරාසයක මූලික රේඛා වල කාර්ය සාධනය ඉක්මවා යන බව අපි පෙන්වමු. අපගේ Mamba භාෂා ආකෘතියට සමාන ප්රමාණයේ ට්රාන්ස්ෆෝමර් හා සසඳන විට 5× උත්පාදන ප්රතිදානයක් ඇති අතර, Mamba-3B හි ගුණාත්මකභාවය ට්රාන්ස්ෆෝමර් වල ප්රමාණය මෙන් දෙගුණයක් (උදා: Pythia-3B හා සසඳන විට සාමාන්ය බුද්ධි තර්කනය මත ලකුණු 4 කින් ඉහළ සහ Pythia-7B පවා ඉක්මවා යයි).
ආදර්ශ කේතය සහ පෙර පුහුණු මුරපොලවල් https://github.com/state-spaces/mamba හි විවෘත මූලාශ්ර කර ඇත.
සාමාන්ය රාජ්ය අභ්යවකාශ ආකෘති. රාජ්ය අභ්යවකාශ ආකෘතිය යන පදයට ඉතා පුළුල් අර්ථයක් ඇති බව අපි සටහන් කරමු, එය හුදෙක් ගුප්ත තත්වයක් සහිත ඕනෑම පුනරාවර්තන ක්රියාවලියක සංකල්පය නියෝජනය කරයි. එය මාර්කොව් තීරණ ක්රියාවලීන් (MDP) (ශක්තිමත් කිරීමේ ඉගෙනීම (Hafner et al. 2020)), ගතික හේතු ආකෘති නිර්මාණය (DCM) (පරිගණක ස්නායු විද්යාව (Friston, Harrison, and Penny 2003)), කල්මන් පෙරහන් (පාලන (Kalman 1960)), සැඟවුණු මාර්කොව් ආකෘති (HMM) සහ රේඛීය ගතික පද්ධති (LDS) (යන්ත්ර ඉගෙනීම) සහ පුනරාවර්තන (සහ සමහර විට සංවෘත) ආකෘති විශාල (ගැඹුරු ඉගෙනීම) ඇතුළු විවිධ විෂයයන්හි බොහෝ අසමාන සංකල්ප හැඳින්වීමට භාවිතා කර ඇත.
මෙම සම්පූර්ණ පත්රිකාව පුරාම අපි "SSM" යන යෙදුම භාවිතා කරන්නේ ව්යුහගත SSM හෝ S4 ආකෘති පන්තියට පමණක් යොමු කිරීමටයි (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Hasani et al. 2023; Ma et al. 2023; Smith, Warrington, and Linderman 2023) සහ මෙම පද එකිනෙකට හුවමාරු කර ගනිමින් භාවිතා කරමු. පහසුව සඳහා, රේඛීය-පුනරාවර්තනය හෝ ගෝලීය-සංකෝචන දෘෂ්ටිකෝණ (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023) කෙරෙහි අවධානය යොමු කරන එවැනි ආකෘතිවල ව්යුත්පන්නයන් ද අපට ඇතුළත් කළ හැකි අතර, අවශ්ය විටෙක සියුම් කරුණු පැහැදිලි කළ හැකිය.
SSM ගෘහ නිර්මාණ ශිල්පය. SSM යනු අන්තයේ සිට අවසානය දක්වා ස්නායු ජාල ගෘහ නිර්මාණ ශිල්පයට ඇතුළත් කළ හැකි ස්වාධීන අනුක්රමික පරිවර්තනයන් වේ. (අපි සමහර විට SSM ගෘහ නිර්මාණ ශිල්පය SSNN ලෙසද හඳුන්වන අතර, ඒවා CNN රේඛීය සංකෝචන ස්ථර වලට SSM ස්ථර වලට සමාන වේ.) අපි වඩාත් ප්රසිද්ධ SSM ගෘහ නිර්මාණ ශිල්ප කිහිපයක් සාකච්ඡා කරමු, ඒවායින් බොහොමයක් අපගේ ප්රාථමික මූලික කරුණු ලෙසද සේවය කරනු ඇත.
• රේඛීය අවධානය (Katharopoulos et al. 2020) යනු පිරිහුණු රේඛීය SSM ලෙස දැකිය හැකි පුනරාවර්තනයක් ඇතුළත් ස්වයං අවධානයේ ආසන්න අගයකි.
• H3 (Dao, Fu, Saab, et al. 2023) මෙම පුනරාවර්තනය S4 භාවිතා කිරීමට සාමාන්යකරණය කළේය; එය ද්වාර සම්බන්ධතා දෙකකින් සැන්ඩ්විච් කරන ලද SSM සහිත ගෘහ නිර්මාණ ශිල්පයක් ලෙස දැකිය හැකිය (රූපය 3). H3 ප්රධාන SSM ස්ථරයට පෙර මාරු-SSM ලෙස රාමු කරන සම්මත දේශීය සංකෝචනයක් ද ඇතුළත් කරයි.
• හයිනා (පොලි සහ වෙනත් අය 2023) H3 ලෙසම ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි, නමුත් S4 ස්ථරය MLP-පරාමිතික ගෝලීය සංකෝචනයකින් ප්රතිස්ථාපනය කරයි (රොමෙරෝ සහ වෙනත් අය 2021).
• RetNet (Y. Sun et al. 2023) ගෘහ නිර්මාණ ශිල්පයට අමතර ද්වාරයක් එක් කරන අතර සරල SSM එකක් භාවිතා කරයි, විකල්ප සමාන්තරගත කළ හැකි පරිගණක මාර්ගයකට ඉඩ සලසයි, සංකෝචන වෙනුවට බහු-ශීර්ෂ අවධානයේ (MHA) ප්රභේදයක් භාවිතා කරයි.
• RWKV (B. Peng et al. 2023) යනු තවත් රේඛීය අවධානය ආසන්න කිරීම (අවධානයෙන් තොර ට්රාන්ස්ෆෝමරය (S. Zhai et al. 2021)) මත පදනම්ව භාෂා ආකෘති නිර්මාණය සඳහා නිර්මාණය කරන ලද මෑත කාලීන RNN එකකි. එහි ප්රධාන “WKV” යාන්ත්රණයට LTI පුනරාවර්තන ඇතුළත් වන අතර එය SSM දෙකක අනුපාතය ලෙස දැකිය හැකිය.
අනෙකුත් සමීපව සම්බන්ධ SSM සහ ගෘහ නිර්මාණ ශිල්පය පිළිබඳ දීර්ඝ කාලීන අදාළ කෘතියක (උපග්රන්ථය B) තවදුරටත් සාකච්ඡා කෙරේ. අපගේ මූලික වරණීය SSM සමඟ වඩාත්ම සමීපව සම්බන්ධ වන ක්රම ලෙස අපි සලකන S5 (Smith, Warrington, and Linderman 2023), QRNN (Bradbury et al. 2016) සහ SRU (Lei et al. 2017) අපි විශේෂයෙන් ඉස්මතු කරමු.
මෙම පත්රිකාව CC BY 4.0 DEED බලපත්රය යටතේ arxiv හි ඇත .