ஆசிரியர்கள்:
(1) ஆல்பர்ட் கு, இயந்திர கற்றல் துறை, கார்னகி மெல்லன் பல்கலைக்கழகம் சம பங்களிப்புடன் (agu@cs.cmu.edu);
(2) டிரை டாவோ, கணினி அறிவியல் துறை, பிரின்ஸ்டன் பல்கலைக்கழகம் சம பங்களிப்புடன் (tri@tridao.me).
3 தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரிகள் மற்றும் 3.1 உந்துதல்: சுருக்க வழிமுறையாக தேர்வு
3.2 தேர்வு மூலம் SSMகளை மேம்படுத்துதல்
3.3 தேர்ந்தெடுக்கப்பட்ட SSM-களை திறம்பட செயல்படுத்துதல்
3.4 எளிமைப்படுத்தப்பட்ட SSM கட்டமைப்பு
தேர்வு வழிமுறைகளின் 3.5 பண்புகள்
4 அனுபவ மதிப்பீடு மற்றும் 4.1 செயற்கை பணிகள்
4.4 ஆடியோ மாடலிங் மற்றும் உருவாக்கம்
4.5 வேகம் மற்றும் நினைவக அளவுகோல்கள்
6 முடிவு, ஒப்புதல்கள் மற்றும் குறிப்புகள்
B தொடர்பான வேலை மற்றும் B.1 S4 வகைகள் மற்றும் வழித்தோன்றல்கள்
B.4 நேரியல் கவனம் மற்றும் B.5 நீண்ட சூழல் மாதிரிகள்
தேர்ந்தெடுக்கப்பட்ட SSMகளின் C இயக்கவியல்
தேர்ந்தெடுக்கப்பட்ட SSMகளுக்கான வன்பொருள் விழிப்புணர்வு வழிமுறை (D)
E பரிசோதனை விவரங்கள் மற்றும் கூடுதல் முடிவுகள் மற்றும் E.1 செயற்கை பணிகள்
ஆழமான கற்றலில் உள்ள பெரும்பாலான அற்புதமான பயன்பாடுகளுக்கு இப்போது சக்தி அளிக்கும் அறக்கட்டளை மாதிரிகள், கிட்டத்தட்ட உலகளாவிய அளவில் டிரான்ஸ்ஃபார்மர் கட்டமைப்பு மற்றும் அதன் முக்கிய கவன தொகுதியை அடிப்படையாகக் கொண்டவை. நேரியல் கவனம், கேட்டட் கன்வல்யூஷன் மற்றும் ரிகர்ரன்ட் மாதிரிகள் மற்றும் ஸ்ட்ரக்சர்டு ஸ்டேட் ஸ்பேஸ் மாதிரிகள் (SSMகள்) போன்ற பல துணை இருபடி-நேர கட்டமைப்புகள் நீண்ட வரிசைகளில் டிரான்ஸ்ஃபார்மர்களின் கணக்கீட்டு திறமையின்மையை நிவர்த்தி செய்வதற்காக உருவாக்கப்பட்டுள்ளன, ஆனால் அவை மொழி போன்ற முக்கியமான முறைகளில் கவனத்தைச் செலுத்தவில்லை. அத்தகைய மாதிரிகளின் முக்கிய பலவீனம் உள்ளடக்க அடிப்படையிலான பகுத்தறிவைச் செய்ய அவற்றின் இயலாமை என்பதை நாங்கள் அடையாளம் கண்டு, பல மேம்பாடுகளைச் செய்கிறோம். முதலாவதாக, SSM அளவுருக்களை உள்ளீட்டின் செயல்பாடுகளாக அனுமதிப்பது, அவற்றின் பலவீனத்தை தனித்துவமான முறைகளுடன் நிவர்த்தி செய்கிறது, இது தற்போதைய டோக்கனைப் பொறுத்து வரிசை நீள பரிமாணத்தில் தகவலைத் தேர்ந்தெடுத்து பரப்ப அல்லது மறக்க மாதிரியை அனுமதிக்கிறது. இரண்டாவதாக, இந்த மாற்றம் திறமையான கன்வல்யூஷன்களைப் பயன்படுத்துவதைத் தடுத்தாலும், தொடர்ச்சியான பயன்முறையில் வன்பொருள்-விழிப்புணர்வு இணையான வழிமுறையை நாங்கள் வடிவமைக்கிறோம். இந்த தேர்ந்தெடுக்கப்பட்ட SSMகளை கவனம் அல்லது MLP தொகுதிகள் (Mamba) இல்லாமல் எளிமைப்படுத்தப்பட்ட எண்ட்-டு-எண்ட் நியூரல் நெட்வொர்க் கட்டமைப்பில் ஒருங்கிணைக்கிறோம். மாம்பா வேகமான அனுமானத்தையும் (டிரான்ஸ்ஃபார்மர்களை விட 5× அதிக செயல்திறன்) வரிசை நீளத்தில் நேரியல் அளவிடுதலையும் அனுபவிக்கிறது, மேலும் மில்லியன்-நீள வரிசைகள் வரையிலான உண்மையான தரவுகளில் அதன் செயல்திறன் மேம்படுகிறது. ஒரு பொதுவான வரிசை மாதிரி முதுகெலும்பாக, மொழி, ஆடியோ மற்றும் மரபணுவியல் போன்ற பல முறைகளில் மாம்பா அதிநவீன செயல்திறனை அடைகிறது. மொழி மாதிரியாக்கத்தில், எங்கள் மாம்பா-3B மாதிரி அதே அளவிலான டிரான்ஸ்ஃபார்மர்களை விட சிறப்பாக செயல்படுகிறது மற்றும் முன் பயிற்சி மற்றும் கீழ்நிலை மதிப்பீட்டில் டிரான்ஸ்ஃபார்மர்களை அதன் அளவை விட இரண்டு மடங்கு பொருந்துகிறது.
அடித்தள மாதிரிகள் (FMகள்), அல்லது பெரிய அளவிலான தரவுகளில் முன்கூட்டியே பயிற்சி பெற்ற பெரிய மாதிரிகள், பின்னர் கீழ்நிலை பணிகளுக்கு மாற்றியமைக்கப்பட்டன, நவீன இயந்திர கற்றலில் ஒரு பயனுள்ள முன்னுதாரணமாக உருவெடுத்துள்ளன. இந்த FMகளின் முதுகெலும்பு பெரும்பாலும் வரிசை மாதிரிகள் ஆகும், அவை மொழி, படங்கள், பேச்சு, ஆடியோ, நேரத் தொடர் மற்றும் மரபியல் போன்ற பல்வேறு களங்களிலிருந்து உள்ளீடுகளின் தன்னிச்சையான வரிசைகளில் இயங்குகின்றன (Brown et al. 2020; Dosovitskiy et al. 2020; Ismail Fawaz et al. 2019; Oord et al. 2016; Poli et al. 2023; Sutskever, Vinyals, and Quoc V Le 2014). இந்த கருத்து மாதிரி கட்டமைப்பின் ஒரு குறிப்பிட்ட தேர்வுக்கு அஞ்ஞானவாதமாக இருந்தாலும், நவீன FMகள் முக்கியமாக ஒற்றை வகை வரிசை மாதிரியை அடிப்படையாகக் கொண்டவை: டிரான்ஸ்ஃபார்மர் (வாஸ்வானி மற்றும் பலர். 2017) மற்றும் அதன் மைய கவன அடுக்கு (பஹ்தானாவ், சோ, மற்றும் பெங்கியோ 2015). சுய-கவனத்தின் செயல்திறன், ஒரு சூழல் சாளரத்திற்குள் தகவல்களை அடர்த்தியாக வழிநடத்தும் திறனுக்குக் காரணம், இது சிக்கலான தரவை மாதிரியாக்க அனுமதிக்கிறது. இருப்பினும், இந்த பண்பு அடிப்படை குறைபாடுகளைக் கொண்டுவருகிறது: வரையறுக்கப்பட்ட சாளரத்திற்கு வெளியே எதையும் மாதிரியாக்க இயலாமை, மற்றும் சாளர நீளத்தைப் பொறுத்து இருபடி அளவிடுதல். இந்த குறைபாடுகளை சமாளிக்க மிகவும் திறமையான கவன மாறுபாடுகளில் ஒரு பெரிய ஆராய்ச்சி அமைப்பு தோன்றியுள்ளது (டே, டெஹ்கானி, பஹ்ரி, மற்றும் பலர். 2022), ஆனால் பெரும்பாலும் அதை திறம்படச் செய்யும் பண்புகளின் இழப்பில். இதுவரை, இந்த மாறுபாடுகள் எதுவும் களங்கள் முழுவதும் அளவில் அனுபவ ரீதியாக பயனுள்ளதாக இருப்பதாகக் காட்டப்படவில்லை. சமீபத்தில், கட்டமைக்கப்பட்ட நிலை விண்வெளி வரிசை மாதிரிகள் (SSMகள்) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) வரிசை மாதிரியாக்கத்திற்கான ஒரு நம்பிக்கைக்குரிய கட்டமைப்பு வகுப்பாக உருவெடுத்துள்ளன. இந்த மாதிரிகளை, கிளாசிக்கல் நிலை விண்வெளி மாதிரிகளிலிருந்து (Kalman 1960) உத்வேகத்துடன், தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகள் (RNNகள்) மற்றும் கன்வல்யூஷனல் நியூரல் நெட்வொர்க்குகள் (CNNகள்) ஆகியவற்றின் கலவையாக விளக்கலாம். இந்த வகை மாதிரிகளை வரிசை நீளத்தில் நேரியல் அல்லது அருகிலுள்ள நேரியல் அளவிடுதலுடன், மீண்டும் மீண்டும் அல்லது கன்வல்யூஷனாக மிகவும் திறமையாகக் கணக்கிட முடியும். கூடுதலாக, அவை சில தரவு முறைகளில் நீண்ட தூர சார்புகளை மாதிரியாக்குவதற்கான கொள்கை ரீதியான வழிமுறைகளைக் கொண்டுள்ளன (Gu, Dao, et al. 2020), மேலும் நீண்ட தூர அரங்கம் (Tay, Dehghani, Abnar, et al. 2021) போன்ற வரையறைகளில் ஆதிக்கம் செலுத்துகின்றன. SSMகளின் பல சுவைகள் (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) ஆடியோ மற்றும் பார்வை போன்ற தொடர்ச்சியான சமிக்ஞைத் தரவை உள்ளடக்கிய களங்களில் வெற்றிகரமாக உள்ளன (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023). இருப்பினும், உரை போன்ற தனித்துவமான மற்றும் தகவல் அடர்த்தியான தரவை மாதிரியாக்குவதில் அவை குறைவான செயல்திறன் கொண்டவை.
வரிசை நீளத்தில் நேரியல் முறையில் அளவிடும் போது டிரான்ஸ்ஃபார்மர்களின் மாடலிங் சக்தியை அடைய பல அச்சுகளில் முந்தைய வேலைகளை மேம்படுத்தும் தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரிகளின் புதிய வகுப்பை நாங்கள் முன்மொழிகிறோம்.
தேர்வு வழிமுறை. முதலில், முந்தைய மாதிரிகளின் ஒரு முக்கிய வரம்பை நாங்கள் அடையாளம் காண்கிறோம்: உள்ளீடு சார்ந்த முறையில் தரவை திறம்பட தேர்ந்தெடுக்கும் திறன் (அதாவது குறிப்பிட்ட உள்ளீடுகளில் கவனம் செலுத்துதல் அல்லது புறக்கணித்தல்). தேர்ந்தெடுக்கப்பட்ட நகல் மற்றும் தூண்டல் தலைகள் போன்ற முக்கியமான செயற்கை பணிகளின் அடிப்படையில் உள்ளுணர்வை உருவாக்கி, உள்ளீட்டின் அடிப்படையில் SSM அளவுருக்களை அளவுருவாக்குவதன் மூலம் ஒரு எளிய தேர்வு வழிமுறையை நாங்கள் வடிவமைக்கிறோம். இது மாதிரி பொருத்தமற்ற தகவல்களை வடிகட்டவும், தொடர்புடைய தகவல்களை காலவரையின்றி நினைவில் கொள்ளவும் அனுமதிக்கிறது.
வன்பொருள்-அறிவு அல்காரிதம் . இந்த எளிய மாற்றம் மாதிரியின் கணக்கீட்டிற்கு ஒரு தொழில்நுட்ப சவாலை முன்வைக்கிறது; உண்மையில், கணக்கீட்டு ரீதியாக திறமையாக இருக்க, அனைத்து முந்தைய SSM மாதிரிகளும் நேரம் மற்றும் உள்ளீடு-மாறாததாக இருக்க வேண்டும். கன்வல்யூஷனுக்குப் பதிலாக ஸ்கேன் மூலம் மாதிரியை மீண்டும் மீண்டும் கணக்கிடும் வன்பொருள்-அறிவு அல்காரிதம் மூலம் இதை நாங்கள் சமாளிக்கிறோம், ஆனால் GPU நினைவக படிநிலையின் வெவ்வேறு நிலைகளுக்கு இடையில் IO அணுகலைத் தவிர்ப்பதற்காக விரிவாக்கப்பட்ட நிலையை செயல்படுத்துவதில்லை. இதன் விளைவாக செயல்படுத்தல் கோட்பாட்டில் (வரிசை நீளத்தில் நேரியல் அளவிடுதல், அனைத்து கன்வல்யூஷன் அடிப்படையிலான SSMகளுக்கான போலி-நேரியலுடன் ஒப்பிடும்போது) மற்றும் நவீன வன்பொருளில் (A100 GPUகளில் 3× வரை வேகமாக) முந்தைய முறைகளை விட வேகமானது.
கட்டிடக்கலை. முந்தைய SSM கட்டமைப்புகளின் வடிவமைப்பை (Dao, Fu, Saab, et al. 2023) டிரான்ஸ்ஃபார்மர்களின் MLP தொகுதியுடன் ஒரு ஒற்றைத் தொகுதியாக இணைப்பதன் மூலம் முந்தைய ஆழமான வரிசை மாதிரி கட்டமைப்புகளை நாங்கள் எளிதாக்குகிறோம், இது தேர்ந்தெடுக்கப்பட்ட நிலை இடங்களை உள்ளடக்கிய ஒரு எளிய மற்றும் ஒரே மாதிரியான கட்டிடக்கலை வடிவமைப்பிற்கு (Mamba) வழிவகுக்கிறது. தேர்ந்தெடுக்கப்பட்ட SSMகள், மற்றும் நீட்டிப்பு மூலம் Mamba கட்டமைப்பு, வரிசைகளில் இயங்கும் பொதுவான அடித்தள மாதிரிகளின் முதுகெலும்பாக அவற்றைப் பொருத்தமானதாக மாற்றும் முக்கிய பண்புகளுடன் முழுமையாக மீண்டும் மீண்டும் வரும் மாதிரிகள். (i) உயர் தரம்: மொழி மற்றும் மரபணுவியல் போன்ற அடர்த்தியான முறைகளில் தேர்ந்தெடுப்பு வலுவான செயல்திறனைக் கொண்டுவருகிறது. (ii) வேகமான பயிற்சி மற்றும் அனுமானம்: பயிற்சியின் போது கணக்கீடு மற்றும் நினைவக அளவீடுகள் வரிசை நீளத்தில் நேரியல் முறையில், மற்றும் அனுமானத்தின் போது மாதிரியை தானாகப் பின்னோக்கிச் செல்லும்போது உருட்டுவதற்கு படிக்கு நிலையான நேரம் மட்டுமே தேவைப்படுகிறது, ஏனெனில் அதற்கு முந்தைய கூறுகளின் கேச் தேவையில்லை. (iii) நீண்ட சூழல்: தரம் மற்றும் செயல்திறன் ஆகியவை வரிசை நீளம் 1M வரை உண்மையான தரவுகளில் செயல்திறன் மேம்பாடுகளை அளிக்கின்றன.
முன் பயிற்சி தரம் மற்றும் டொமைன்-குறிப்பிட்ட பணி செயல்திறன் ஆகிய இரண்டிலும், பல வகையான முறைகள் மற்றும் அமைப்புகளில், ஒரு பொதுவான வரிசை FM முதுகெலும்பாக மாம்பாவின் திறனை அனுபவபூர்வமாக நாங்கள் சரிபார்க்கிறோம்:
• செயற்கை. பெரிய மொழி மாதிரிகளுக்கு முக்கியமாக முன்மொழியப்பட்ட நகலெடுத்தல் மற்றும் தூண்டல் தலைகள் போன்ற முக்கியமான செயற்கை பணிகளில், மாம்பா அவற்றை எளிதாகத் தீர்ப்பது மட்டுமல்லாமல், காலவரையின்றி நீண்ட (>1M டோக்கன்கள்) தீர்வுகளை விரிவுபடுத்தவும் முடியும்.
• ஆடியோ மற்றும் ஜீனோமிக்ஸ். முன் பயிற்சி தரம் மற்றும் கீழ்நிலை அளவீடுகள் இரண்டிலும் (எ.கா. சவாலான பேச்சு உருவாக்க தரவுத்தொகுப்பில் FID ஐ பாதிக்கும் மேலாகக் குறைத்தல்) ஆடியோ அலைவடிவங்கள் மற்றும் DNA வரிசைகளை மாதிரியாக்குவதில் SaShiMi, Hyena மற்றும் Transformers போன்ற முந்தைய அதிநவீன மாதிரிகளை Mamba விஞ்சுகிறது. இரண்டு அமைப்புகளிலும், மில்லியன் நீள வரிசைகள் வரை நீண்ட சூழலுடன் அதன் செயல்திறன் மேம்படுகிறது.
• மொழி மாதிரியாக்கம். முன் பயிற்சி குழப்பம் மற்றும் கீழ்நிலை மதிப்பீடுகள் இரண்டிலும் டிரான்ஸ்ஃபார்மர்-தர செயல்திறனை உண்மையிலேயே அடையும் முதல் நேரியல்-நேர வரிசை மாதிரி மாம்பா ஆகும். 1B அளவுருக்கள் வரை அளவிடுதல் சட்டங்களுடன், LLaMa (Touvron et al. 2023) அடிப்படையிலான மிகவும் வலுவான நவீன டிரான்ஸ்ஃபார்மர் பயிற்சி சமையல் குறிப்புகள் உட்பட, மாம்பா பரந்த அளவிலான அடிப்படைகளின் செயல்திறனை விட அதிகமாக இருப்பதைக் காட்டுகிறோம். எங்கள் மாம்பா மொழி மாதிரி ஒத்த அளவிலான டிரான்ஸ்ஃபார்மர்களுடன் ஒப்பிடும்போது 5× தலைமுறை செயல்திறனைக் கொண்டுள்ளது, மேலும் மாம்பா-3B இன் தரம் டிரான்ஸ்ஃபார்மர்களுடன் அதன் அளவை விட இரண்டு மடங்கு அதிகமாக பொருந்துகிறது (எ.கா. பொது அறிவு பகுத்தறிவில் பைத்தியா-3B உடன் ஒப்பிடும்போது சராசரியாக 4 புள்ளிகள் அதிகம் மற்றும் பைத்தியா-7B ஐ விட அதிகமாக உள்ளது).
மாதிரி குறியீடு மற்றும் முன் பயிற்சி பெற்ற சோதனைச் சாவடிகள் https://github.com/state-spaces/mamba இல் திறந்த மூலத்தில் உள்ளன.
பொது நிலை விண்வெளி மாதிரிகள். நிலை விண்வெளி மாதிரி என்ற சொல் மிகவும் பரந்த பொருளைக் கொண்டுள்ளது என்பதை நாங்கள் கவனிக்கிறோம், இது ஒரு மறைந்த நிலையுடன் எந்தவொரு தொடர்ச்சியான செயல்முறையின் கருத்தையும் குறிக்கிறது. மார்கோவ் முடிவு செயல்முறைகள் (MDP) (வலுவூட்டல் கற்றல் (ஹாஃப்னர் மற்றும் பலர். 2020)), டைனமிக் காசல் மாடலிங் (DCM) (கணக்கீட்டு நரம்பியல் (ஃபிரிஸ்டன், ஹாரிசன் மற்றும் பென்னி 2003)), கல்மான் வடிப்பான்கள் (கட்டுப்பாடுகள் (கல்மான் 1960)), மறைக்கப்பட்ட மார்கோவ் மாதிரிகள் (HMM) மற்றும் நேரியல் இயக்கவியல் அமைப்புகள் (LDS) (இயந்திர கற்றல்), மற்றும் பெரிய அளவில் தொடர்ச்சியான (மற்றும் சில நேரங்களில் கன்வல்யூஷனல்) மாதிரிகள் (ஆழமான கற்றல்) உள்ளிட்ட பல்வேறு துறைகளில் பல வேறுபட்ட கருத்துக்களைக் குறிக்க இது பயன்படுத்தப்பட்டுள்ளது.
இந்த முழு ஆய்வறிக்கையிலும், கட்டமைக்கப்பட்ட SSMகள் அல்லது S4 மாதிரிகளின் வகுப்பை மட்டுமே குறிக்க "SSM" என்ற வார்த்தையைப் பயன்படுத்துகிறோம் (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Hasani et al. 2023; Ma et al. 2023; Smith, Warrington, and Linderman 2023) மேலும் இந்த சொற்களை ஒன்றுக்கொன்று மாற்றாகப் பயன்படுத்துகிறோம். வசதிக்காக, நேரியல்-மீண்டும் நிகழும் அல்லது உலகளாவிய-சுழற்சி கண்ணோட்டங்களில் (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023) கவனம் செலுத்தும் மாதிரிகளின் வழித்தோன்றல்களையும் நாங்கள் சேர்க்கலாம், மேலும் தேவைப்படும்போது நுணுக்கங்களை தெளிவுபடுத்தலாம்.
SSM கட்டமைப்புகள். SSMகள் முழுமையான வரிசை மாற்றங்கள் ஆகும், அவை எண்ட்-டு-எண்ட் நியூரல் நெட்வொர்க் கட்டமைப்புகளில் இணைக்கப்படலாம். (சில நேரங்களில் SSM கட்டமைப்புகளை SSNNகள் என்றும் அழைக்கிறோம், அவை CNNகள் நேரியல் கன்வல்யூஷன் அடுக்குகளுக்கு இருப்பது போல SSM அடுக்குகளுக்கு உள்ளன.) மிகவும் பிரபலமான சில SSM கட்டமைப்புகளைப் பற்றி நாங்கள் விவாதிக்கிறோம், அவற்றில் பல எங்கள் முதன்மை அடிப்படைகளாகவும் செயல்படும்.
• நேரியல் கவனம் (Katharopoulos et al. 2020) என்பது ஒரு சீரழிந்த நேரியல் SSM ஆகக் கருதப்படும் ஒரு மறுநிகழ்வை உள்ளடக்கிய சுய-கவனத்தின் தோராயமாகும்.
• H3 (Dao, Fu, Saab, et al. 2023) இந்த மறுநிகழ்வை S4 ஐப் பயன்படுத்த பொதுமைப்படுத்தியது; இதை இரண்டு கேட் இணைப்புகளால் இணைக்கப்பட்ட SSM உடன் கூடிய கட்டமைப்பாகக் காணலாம் (படம் 3). H3 ஒரு நிலையான உள்ளூர் கன்வல்யூஷனையும் செருகுகிறது, அதை அவை பிரதான SSM அடுக்குக்கு முன் ஒரு ஷிப்ட்-SSM ஆக வடிவமைக்கின்றன.
• ஹைனா (போலி மற்றும் பலர். 2023) H3 ஐப் போலவே அதே கட்டமைப்பைப் பயன்படுத்துகிறது, ஆனால் S4 அடுக்கை MLP-அளவுருவாக்கப்பட்ட உலகளாவிய கன்வல்யூஷனுடன் மாற்றுகிறது (ரோமெரோ மற்றும் பலர். 2021).
• RetNet (Y. Sun et al. 2023) கட்டமைப்பிற்கு கூடுதல் கேட்டைச் சேர்க்கிறது மற்றும் எளிமையான SSM ஐப் பயன்படுத்துகிறது, இது மாற்று இணையான கணக்கீட்டு பாதையை அனுமதிக்கிறது, இது கன்வல்யூஷன்களுக்குப் பதிலாக மல்டி-ஹெட் அட்டென்ஷன் (MHA) மாறுபாட்டைப் பயன்படுத்துகிறது.
• RWKV (B. Peng et al. 2023) என்பது மற்றொரு நேரியல் கவன தோராயத்தை அடிப்படையாகக் கொண்ட மொழி மாதிரியாக்கத்திற்காக வடிவமைக்கப்பட்ட ஒரு சமீபத்திய RNN ஆகும் (கவனம் இல்லாத டிரான்ஸ்ஃபார்மர் (S. Zhai et al. 2021)). அதன் முக்கிய "WKV" பொறிமுறையானது LTI மறுநிகழ்வுகளை உள்ளடக்கியது மற்றும் இரண்டு SSMகளின் விகிதமாகக் கருதலாம்.
மற்ற நெருங்கிய தொடர்புடைய SSMகள் மற்றும் கட்டமைப்புகள் விரிவான தொடர்புடைய படைப்பில் (இணைப்பு B) மேலும் விவாதிக்கப்பட்டுள்ளன. குறிப்பாக S5 (Smith, Warrington, and Linderman 2023), QRNN (Bradbury et al. 2016), மற்றும் SRU (Lei et al. 2017) ஆகியவற்றை நாங்கள் முன்னிலைப்படுத்துகிறோம், இவை எங்கள் மைய தேர்ந்தெடுக்கப்பட்ட SSM உடன் மிகவும் நெருக்கமாக தொடர்புடைய முறைகளாக நாங்கள் கருதுகிறோம்.
இந்த ஆய்வுக் கட்டுரை arxiv இல் CC BY 4.0 DEED உரிமத்தின் கீழ் கிடைக்கிறது .