paint-brush
AI உலகம் ஒரு புதிய அன்பைப் பெற்றுள்ளது - அது ஒரு மின்மாற்றி அல்ல.மூலம்@rendering
728 வாசிப்புகள்
728 வாசிப்புகள்

AI உலகம் ஒரு புதிய அன்பைப் பெற்றுள்ளது - அது ஒரு மின்மாற்றி அல்ல.

மூலம் Rendering Technology Breakthroughs8m2025/03/14
Read on Terminal Reader

மிக நீளமானது; வாசிப்பதற்கு

நீண்ட வரிசை செயலாக்கத்தில் டிரான்ஸ்ஃபார்மர் திறமையின்மையை சமாளிக்க மாம்பா தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரிகளை (SSMs) அறிமுகப்படுத்துகிறது. 5× அதிக செயல்திறன் மற்றும் நேரியல் அளவிடுதலுடன், இது NLP மற்றும் ஜெனோமிக்ஸ் உட்பட பல களங்களில் அதிநவீன முடிவுகளை வழங்குகிறது.
featured image - AI உலகம் ஒரு புதிய அன்பைப் பெற்றுள்ளது - அது ஒரு மின்மாற்றி அல்ல.
Rendering Technology Breakthroughs HackerNoon profile picture
0-item

ஆசிரியர்கள்:

(1) ஆல்பர்ட் கு, இயந்திர கற்றல் துறை, கார்னகி மெல்லன் பல்கலைக்கழகம் சம பங்களிப்புடன் (agu@cs.cmu.edu);

(2) டிரை டாவோ, கணினி அறிவியல் துறை, பிரின்ஸ்டன் பல்கலைக்கழகம் சம பங்களிப்புடன் (tri@tridao.me).

இணைப்புகளின் அட்டவணை

சுருக்கம் மற்றும் 1. அறிமுகம்

2 மாநில விண்வெளி மாதிரிகள்

3 தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரிகள் மற்றும் 3.1 உந்துதல்: சுருக்க வழிமுறையாக தேர்வு

3.2 தேர்வு மூலம் SSMகளை மேம்படுத்துதல்

3.3 தேர்ந்தெடுக்கப்பட்ட SSM-களை திறம்பட செயல்படுத்துதல்

3.4 எளிமைப்படுத்தப்பட்ட SSM கட்டமைப்பு

தேர்வு வழிமுறைகளின் 3.5 பண்புகள்

3.6 கூடுதல் மாதிரி விவரங்கள்

4 அனுபவ மதிப்பீடு மற்றும் 4.1 செயற்கை பணிகள்

4.2 மொழி மாதிரியாக்கம்

4.3 டிஎன்ஏ மாடலிங்

4.4 ஆடியோ மாடலிங் மற்றும் உருவாக்கம்

4.5 வேகம் மற்றும் நினைவக அளவுகோல்கள்

4.6 மாதிரி நீக்கங்கள்

5 கலந்துரையாடல்

6 முடிவு, ஒப்புதல்கள் மற்றும் குறிப்புகள்

ஒரு விவாதம்: தேர்வு வழிமுறை

B தொடர்பான வேலை மற்றும் B.1 S4 வகைகள் மற்றும் வழித்தோன்றல்கள்

பி.2 எஸ்எஸ்எம் கட்டமைப்புகள்

B.3 RNN களுடன் உறவு

B.4 நேரியல் கவனம் மற்றும் B.5 நீண்ட சூழல் மாதிரிகள்

தேர்ந்தெடுக்கப்பட்ட SSMகளின் C இயக்கவியல்

தேர்ந்தெடுக்கப்பட்ட SSMகளுக்கான வன்பொருள் விழிப்புணர்வு வழிமுறை (D)

E பரிசோதனை விவரங்கள் மற்றும் கூடுதல் முடிவுகள் மற்றும் E.1 செயற்கை பணிகள்

E.2 மொழி மாதிரியாக்கம்

E.3 டிஎன்ஏ மாதிரியாக்கம்

E.4 ஆடியோ விவரங்கள்

E.5 செயல்திறன் அளவுகோல்

சுருக்கம்

ஆழமான கற்றலில் உள்ள பெரும்பாலான அற்புதமான பயன்பாடுகளுக்கு இப்போது சக்தி அளிக்கும் அறக்கட்டளை மாதிரிகள், கிட்டத்தட்ட உலகளாவிய அளவில் டிரான்ஸ்ஃபார்மர் கட்டமைப்பு மற்றும் அதன் முக்கிய கவன தொகுதியை அடிப்படையாகக் கொண்டவை. நேரியல் கவனம், கேட்டட் கன்வல்யூஷன் மற்றும் ரிகர்ரன்ட் மாதிரிகள் மற்றும் ஸ்ட்ரக்சர்டு ஸ்டேட் ஸ்பேஸ் மாதிரிகள் (SSMகள்) போன்ற பல துணை இருபடி-நேர கட்டமைப்புகள் நீண்ட வரிசைகளில் டிரான்ஸ்ஃபார்மர்களின் கணக்கீட்டு திறமையின்மையை நிவர்த்தி செய்வதற்காக உருவாக்கப்பட்டுள்ளன, ஆனால் அவை மொழி போன்ற முக்கியமான முறைகளில் கவனத்தைச் செலுத்தவில்லை. அத்தகைய மாதிரிகளின் முக்கிய பலவீனம் உள்ளடக்க அடிப்படையிலான பகுத்தறிவைச் செய்ய அவற்றின் இயலாமை என்பதை நாங்கள் அடையாளம் கண்டு, பல மேம்பாடுகளைச் செய்கிறோம். முதலாவதாக, SSM அளவுருக்களை உள்ளீட்டின் செயல்பாடுகளாக அனுமதிப்பது, அவற்றின் பலவீனத்தை தனித்துவமான முறைகளுடன் நிவர்த்தி செய்கிறது, இது தற்போதைய டோக்கனைப் பொறுத்து வரிசை நீள பரிமாணத்தில் தகவலைத் தேர்ந்தெடுத்து பரப்ப அல்லது மறக்க மாதிரியை அனுமதிக்கிறது. இரண்டாவதாக, இந்த மாற்றம் திறமையான கன்வல்யூஷன்களைப் பயன்படுத்துவதைத் தடுத்தாலும், தொடர்ச்சியான பயன்முறையில் வன்பொருள்-விழிப்புணர்வு இணையான வழிமுறையை நாங்கள் வடிவமைக்கிறோம். இந்த தேர்ந்தெடுக்கப்பட்ட SSMகளை கவனம் அல்லது MLP தொகுதிகள் (Mamba) இல்லாமல் எளிமைப்படுத்தப்பட்ட எண்ட்-டு-எண்ட் நியூரல் நெட்வொர்க் கட்டமைப்பில் ஒருங்கிணைக்கிறோம். மாம்பா வேகமான அனுமானத்தையும் (டிரான்ஸ்ஃபார்மர்களை விட 5× அதிக செயல்திறன்) வரிசை நீளத்தில் நேரியல் அளவிடுதலையும் அனுபவிக்கிறது, மேலும் மில்லியன்-நீள வரிசைகள் வரையிலான உண்மையான தரவுகளில் அதன் செயல்திறன் மேம்படுகிறது. ஒரு பொதுவான வரிசை மாதிரி முதுகெலும்பாக, மொழி, ஆடியோ மற்றும் மரபணுவியல் போன்ற பல முறைகளில் மாம்பா அதிநவீன செயல்திறனை அடைகிறது. மொழி மாதிரியாக்கத்தில், எங்கள் மாம்பா-3B மாதிரி அதே அளவிலான டிரான்ஸ்ஃபார்மர்களை விட சிறப்பாக செயல்படுகிறது மற்றும் முன் பயிற்சி மற்றும் கீழ்நிலை மதிப்பீட்டில் டிரான்ஸ்ஃபார்மர்களை அதன் அளவை விட இரண்டு மடங்கு பொருந்துகிறது.

1 அறிமுகம்

அடித்தள மாதிரிகள் (FMகள்), அல்லது பெரிய அளவிலான தரவுகளில் முன்கூட்டியே பயிற்சி பெற்ற பெரிய மாதிரிகள், பின்னர் கீழ்நிலை பணிகளுக்கு மாற்றியமைக்கப்பட்டன, நவீன இயந்திர கற்றலில் ஒரு பயனுள்ள முன்னுதாரணமாக உருவெடுத்துள்ளன. இந்த FMகளின் முதுகெலும்பு பெரும்பாலும் வரிசை மாதிரிகள் ஆகும், அவை மொழி, படங்கள், பேச்சு, ஆடியோ, நேரத் தொடர் மற்றும் மரபியல் போன்ற பல்வேறு களங்களிலிருந்து உள்ளீடுகளின் தன்னிச்சையான வரிசைகளில் இயங்குகின்றன (Brown et al. 2020; Dosovitskiy et al. 2020; Ismail Fawaz et al. 2019; Oord et al. 2016; Poli et al. 2023; Sutskever, Vinyals, and Quoc V Le 2014). இந்த கருத்து மாதிரி கட்டமைப்பின் ஒரு குறிப்பிட்ட தேர்வுக்கு அஞ்ஞானவாதமாக இருந்தாலும், நவீன FMகள் முக்கியமாக ஒற்றை வகை வரிசை மாதிரியை அடிப்படையாகக் கொண்டவை: டிரான்ஸ்ஃபார்மர் (வாஸ்வானி மற்றும் பலர். 2017) மற்றும் அதன் மைய கவன அடுக்கு (பஹ்தானாவ், சோ, மற்றும் பெங்கியோ 2015). சுய-கவனத்தின் செயல்திறன், ஒரு சூழல் சாளரத்திற்குள் தகவல்களை அடர்த்தியாக வழிநடத்தும் திறனுக்குக் காரணம், இது சிக்கலான தரவை மாதிரியாக்க அனுமதிக்கிறது. இருப்பினும், இந்த பண்பு அடிப்படை குறைபாடுகளைக் கொண்டுவருகிறது: வரையறுக்கப்பட்ட சாளரத்திற்கு வெளியே எதையும் மாதிரியாக்க இயலாமை, மற்றும் சாளர நீளத்தைப் பொறுத்து இருபடி அளவிடுதல். இந்த குறைபாடுகளை சமாளிக்க மிகவும் திறமையான கவன மாறுபாடுகளில் ஒரு பெரிய ஆராய்ச்சி அமைப்பு தோன்றியுள்ளது (டே, டெஹ்கானி, பஹ்ரி, மற்றும் பலர். 2022), ஆனால் பெரும்பாலும் அதை திறம்படச் செய்யும் பண்புகளின் இழப்பில். இதுவரை, இந்த மாறுபாடுகள் எதுவும் களங்கள் முழுவதும் அளவில் அனுபவ ரீதியாக பயனுள்ளதாக இருப்பதாகக் காட்டப்படவில்லை. சமீபத்தில், கட்டமைக்கப்பட்ட நிலை விண்வெளி வரிசை மாதிரிகள் (SSMகள்) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) வரிசை மாதிரியாக்கத்திற்கான ஒரு நம்பிக்கைக்குரிய கட்டமைப்பு வகுப்பாக உருவெடுத்துள்ளன. இந்த மாதிரிகளை, கிளாசிக்கல் நிலை விண்வெளி மாதிரிகளிலிருந்து (Kalman 1960) உத்வேகத்துடன், தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகள் (RNNகள்) மற்றும் கன்வல்யூஷனல் நியூரல் நெட்வொர்க்குகள் (CNNகள்) ஆகியவற்றின் கலவையாக விளக்கலாம். இந்த வகை மாதிரிகளை வரிசை நீளத்தில் நேரியல் அல்லது அருகிலுள்ள நேரியல் அளவிடுதலுடன், மீண்டும் மீண்டும் அல்லது கன்வல்யூஷனாக மிகவும் திறமையாகக் கணக்கிட முடியும். கூடுதலாக, அவை சில தரவு முறைகளில் நீண்ட தூர சார்புகளை மாதிரியாக்குவதற்கான கொள்கை ரீதியான வழிமுறைகளைக் கொண்டுள்ளன (Gu, Dao, et al. 2020), மேலும் நீண்ட தூர அரங்கம் (Tay, Dehghani, Abnar, et al. 2021) போன்ற வரையறைகளில் ஆதிக்கம் செலுத்துகின்றன. SSMகளின் பல சுவைகள் (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) ஆடியோ மற்றும் பார்வை போன்ற தொடர்ச்சியான சமிக்ஞைத் தரவை உள்ளடக்கிய களங்களில் வெற்றிகரமாக உள்ளன (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023). இருப்பினும், உரை போன்ற தனித்துவமான மற்றும் தகவல் அடர்த்தியான தரவை மாதிரியாக்குவதில் அவை குறைவான செயல்திறன் கொண்டவை.


வரிசை நீளத்தில் நேரியல் முறையில் அளவிடும் போது டிரான்ஸ்ஃபார்மர்களின் மாடலிங் சக்தியை அடைய பல அச்சுகளில் முந்தைய வேலைகளை மேம்படுத்தும் தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரிகளின் புதிய வகுப்பை நாங்கள் முன்மொழிகிறோம்.


தேர்வு வழிமுறை. முதலில், முந்தைய மாதிரிகளின் ஒரு முக்கிய வரம்பை நாங்கள் அடையாளம் காண்கிறோம்: உள்ளீடு சார்ந்த முறையில் தரவை திறம்பட தேர்ந்தெடுக்கும் திறன் (அதாவது குறிப்பிட்ட உள்ளீடுகளில் கவனம் செலுத்துதல் அல்லது புறக்கணித்தல்). தேர்ந்தெடுக்கப்பட்ட நகல் மற்றும் தூண்டல் தலைகள் போன்ற முக்கியமான செயற்கை பணிகளின் அடிப்படையில் உள்ளுணர்வை உருவாக்கி, உள்ளீட்டின் அடிப்படையில் SSM அளவுருக்களை அளவுருவாக்குவதன் மூலம் ஒரு எளிய தேர்வு வழிமுறையை நாங்கள் வடிவமைக்கிறோம். இது மாதிரி பொருத்தமற்ற தகவல்களை வடிகட்டவும், தொடர்புடைய தகவல்களை காலவரையின்றி நினைவில் கொள்ளவும் அனுமதிக்கிறது.


வன்பொருள்-அறிவு அல்காரிதம் . இந்த எளிய மாற்றம் மாதிரியின் கணக்கீட்டிற்கு ஒரு தொழில்நுட்ப சவாலை முன்வைக்கிறது; உண்மையில், கணக்கீட்டு ரீதியாக திறமையாக இருக்க, அனைத்து முந்தைய SSM மாதிரிகளும் நேரம் மற்றும் உள்ளீடு-மாறாததாக இருக்க வேண்டும். கன்வல்யூஷனுக்குப் பதிலாக ஸ்கேன் மூலம் மாதிரியை மீண்டும் மீண்டும் கணக்கிடும் வன்பொருள்-அறிவு அல்காரிதம் மூலம் இதை நாங்கள் சமாளிக்கிறோம், ஆனால் GPU நினைவக படிநிலையின் வெவ்வேறு நிலைகளுக்கு இடையில் IO அணுகலைத் தவிர்ப்பதற்காக விரிவாக்கப்பட்ட நிலையை செயல்படுத்துவதில்லை. இதன் விளைவாக செயல்படுத்தல் கோட்பாட்டில் (வரிசை நீளத்தில் நேரியல் அளவிடுதல், அனைத்து கன்வல்யூஷன் அடிப்படையிலான SSMகளுக்கான போலி-நேரியலுடன் ஒப்பிடும்போது) மற்றும் நவீன வன்பொருளில் (A100 GPUகளில் 3× வரை வேகமாக) முந்தைய முறைகளை விட வேகமானது.


கட்டிடக்கலை. முந்தைய SSM கட்டமைப்புகளின் வடிவமைப்பை (Dao, Fu, Saab, et al. 2023) டிரான்ஸ்ஃபார்மர்களின் MLP தொகுதியுடன் ஒரு ஒற்றைத் தொகுதியாக இணைப்பதன் மூலம் முந்தைய ஆழமான வரிசை மாதிரி கட்டமைப்புகளை நாங்கள் எளிதாக்குகிறோம், இது தேர்ந்தெடுக்கப்பட்ட நிலை இடங்களை உள்ளடக்கிய ஒரு எளிய மற்றும் ஒரே மாதிரியான கட்டிடக்கலை வடிவமைப்பிற்கு (Mamba) வழிவகுக்கிறது. தேர்ந்தெடுக்கப்பட்ட SSMகள், மற்றும் நீட்டிப்பு மூலம் Mamba கட்டமைப்பு, வரிசைகளில் இயங்கும் பொதுவான அடித்தள மாதிரிகளின் முதுகெலும்பாக அவற்றைப் பொருத்தமானதாக மாற்றும் முக்கிய பண்புகளுடன் முழுமையாக மீண்டும் மீண்டும் வரும் மாதிரிகள். (i) உயர் தரம்: மொழி மற்றும் மரபணுவியல் போன்ற அடர்த்தியான முறைகளில் தேர்ந்தெடுப்பு வலுவான செயல்திறனைக் கொண்டுவருகிறது. (ii) வேகமான பயிற்சி மற்றும் அனுமானம்: பயிற்சியின் போது கணக்கீடு மற்றும் நினைவக அளவீடுகள் வரிசை நீளத்தில் நேரியல் முறையில், மற்றும் அனுமானத்தின் போது மாதிரியை தானாகப் பின்னோக்கிச் செல்லும்போது உருட்டுவதற்கு படிக்கு நிலையான நேரம் மட்டுமே தேவைப்படுகிறது, ஏனெனில் அதற்கு முந்தைய கூறுகளின் கேச் தேவையில்லை. (iii) நீண்ட சூழல்: தரம் மற்றும் செயல்திறன் ஆகியவை வரிசை நீளம் 1M வரை உண்மையான தரவுகளில் செயல்திறன் மேம்பாடுகளை அளிக்கின்றன.


முன் பயிற்சி தரம் மற்றும் டொமைன்-குறிப்பிட்ட பணி செயல்திறன் ஆகிய இரண்டிலும், பல வகையான முறைகள் மற்றும் அமைப்புகளில், ஒரு பொதுவான வரிசை FM முதுகெலும்பாக மாம்பாவின் திறனை அனுபவபூர்வமாக நாங்கள் சரிபார்க்கிறோம்:


• செயற்கை. பெரிய மொழி மாதிரிகளுக்கு முக்கியமாக முன்மொழியப்பட்ட நகலெடுத்தல் மற்றும் தூண்டல் தலைகள் போன்ற முக்கியமான செயற்கை பணிகளில், மாம்பா அவற்றை எளிதாகத் தீர்ப்பது மட்டுமல்லாமல், காலவரையின்றி நீண்ட (>1M டோக்கன்கள்) தீர்வுகளை விரிவுபடுத்தவும் முடியும்.


• ஆடியோ மற்றும் ஜீனோமிக்ஸ். முன் பயிற்சி தரம் மற்றும் கீழ்நிலை அளவீடுகள் இரண்டிலும் (எ.கா. சவாலான பேச்சு உருவாக்க தரவுத்தொகுப்பில் FID ஐ பாதிக்கும் மேலாகக் குறைத்தல்) ஆடியோ அலைவடிவங்கள் மற்றும் DNA வரிசைகளை மாதிரியாக்குவதில் SaShiMi, Hyena மற்றும் Transformers போன்ற முந்தைய அதிநவீன மாதிரிகளை Mamba விஞ்சுகிறது. இரண்டு அமைப்புகளிலும், மில்லியன் நீள வரிசைகள் வரை நீண்ட சூழலுடன் அதன் செயல்திறன் மேம்படுகிறது.


• மொழி மாதிரியாக்கம். முன் பயிற்சி குழப்பம் மற்றும் கீழ்நிலை மதிப்பீடுகள் இரண்டிலும் டிரான்ஸ்ஃபார்மர்-தர செயல்திறனை உண்மையிலேயே அடையும் முதல் நேரியல்-நேர வரிசை மாதிரி மாம்பா ஆகும். 1B அளவுருக்கள் வரை அளவிடுதல் சட்டங்களுடன், LLaMa (Touvron et al. 2023) அடிப்படையிலான மிகவும் வலுவான நவீன டிரான்ஸ்ஃபார்மர் பயிற்சி சமையல் குறிப்புகள் உட்பட, மாம்பா பரந்த அளவிலான அடிப்படைகளின் செயல்திறனை விட அதிகமாக இருப்பதைக் காட்டுகிறோம். எங்கள் மாம்பா மொழி மாதிரி ஒத்த அளவிலான டிரான்ஸ்ஃபார்மர்களுடன் ஒப்பிடும்போது 5× தலைமுறை செயல்திறனைக் கொண்டுள்ளது, மேலும் மாம்பா-3B இன் தரம் டிரான்ஸ்ஃபார்மர்களுடன் அதன் அளவை விட இரண்டு மடங்கு அதிகமாக பொருந்துகிறது (எ.கா. பொது அறிவு பகுத்தறிவில் பைத்தியா-3B உடன் ஒப்பிடும்போது சராசரியாக 4 புள்ளிகள் அதிகம் மற்றும் பைத்தியா-7B ஐ விட அதிகமாக உள்ளது).


மாதிரி குறியீடு மற்றும் முன் பயிற்சி பெற்ற சோதனைச் சாவடிகள் https://github.com/state-spaces/mamba இல் திறந்த மூலத்தில் உள்ளன.

வன்பொருள் விழிப்புணர்வு நிலை விரிவாக்கத்துடன் தேர்ந்தெடுக்கப்பட்ட நிலை விண்வெளி மாதிரி


2 மாநில விண்வெளி மாதிரிகள்





பொது நிலை விண்வெளி மாதிரிகள். நிலை விண்வெளி மாதிரி என்ற சொல் மிகவும் பரந்த பொருளைக் கொண்டுள்ளது என்பதை நாங்கள் கவனிக்கிறோம், இது ஒரு மறைந்த நிலையுடன் எந்தவொரு தொடர்ச்சியான செயல்முறையின் கருத்தையும் குறிக்கிறது. மார்கோவ் முடிவு செயல்முறைகள் (MDP) (வலுவூட்டல் கற்றல் (ஹாஃப்னர் மற்றும் பலர். 2020)), டைனமிக் காசல் மாடலிங் (DCM) (கணக்கீட்டு நரம்பியல் (ஃபிரிஸ்டன், ஹாரிசன் மற்றும் பென்னி 2003)), கல்மான் வடிப்பான்கள் (கட்டுப்பாடுகள் (கல்மான் 1960)), மறைக்கப்பட்ட மார்கோவ் மாதிரிகள் (HMM) மற்றும் நேரியல் இயக்கவியல் அமைப்புகள் (LDS) (இயந்திர கற்றல்), மற்றும் பெரிய அளவில் தொடர்ச்சியான (மற்றும் சில நேரங்களில் கன்வல்யூஷனல்) மாதிரிகள் (ஆழமான கற்றல்) உள்ளிட்ட பல்வேறு துறைகளில் பல வேறுபட்ட கருத்துக்களைக் குறிக்க இது பயன்படுத்தப்பட்டுள்ளது.


இந்த முழு ஆய்வறிக்கையிலும், கட்டமைக்கப்பட்ட SSMகள் அல்லது S4 மாதிரிகளின் வகுப்பை மட்டுமே குறிக்க "SSM" என்ற வார்த்தையைப் பயன்படுத்துகிறோம் (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Hasani et al. 2023; Ma et al. 2023; Smith, Warrington, and Linderman 2023) மேலும் இந்த சொற்களை ஒன்றுக்கொன்று மாற்றாகப் பயன்படுத்துகிறோம். வசதிக்காக, நேரியல்-மீண்டும் நிகழும் அல்லது உலகளாவிய-சுழற்சி கண்ணோட்டங்களில் (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023) கவனம் செலுத்தும் மாதிரிகளின் வழித்தோன்றல்களையும் நாங்கள் சேர்க்கலாம், மேலும் தேவைப்படும்போது நுணுக்கங்களை தெளிவுபடுத்தலாம்.


SSM கட்டமைப்புகள். SSMகள் முழுமையான வரிசை மாற்றங்கள் ஆகும், அவை எண்ட்-டு-எண்ட் நியூரல் நெட்வொர்க் கட்டமைப்புகளில் இணைக்கப்படலாம். (சில நேரங்களில் SSM கட்டமைப்புகளை SSNNகள் என்றும் அழைக்கிறோம், அவை CNNகள் நேரியல் கன்வல்யூஷன் அடுக்குகளுக்கு இருப்பது போல SSM அடுக்குகளுக்கு உள்ளன.) மிகவும் பிரபலமான சில SSM கட்டமைப்புகளைப் பற்றி நாங்கள் விவாதிக்கிறோம், அவற்றில் பல எங்கள் முதன்மை அடிப்படைகளாகவும் செயல்படும்.


• நேரியல் கவனம் (Katharopoulos et al. 2020) என்பது ஒரு சீரழிந்த நேரியல் SSM ஆகக் கருதப்படும் ஒரு மறுநிகழ்வை உள்ளடக்கிய சுய-கவனத்தின் தோராயமாகும்.


• H3 (Dao, Fu, Saab, et al. 2023) இந்த மறுநிகழ்வை S4 ஐப் பயன்படுத்த பொதுமைப்படுத்தியது; இதை இரண்டு கேட் இணைப்புகளால் இணைக்கப்பட்ட SSM உடன் கூடிய கட்டமைப்பாகக் காணலாம் (படம் 3). H3 ஒரு நிலையான உள்ளூர் கன்வல்யூஷனையும் செருகுகிறது, அதை அவை பிரதான SSM அடுக்குக்கு முன் ஒரு ஷிப்ட்-SSM ஆக வடிவமைக்கின்றன.


• ஹைனா (போலி மற்றும் பலர். 2023) H3 ஐப் போலவே அதே கட்டமைப்பைப் பயன்படுத்துகிறது, ஆனால் S4 அடுக்கை MLP-அளவுருவாக்கப்பட்ட உலகளாவிய கன்வல்யூஷனுடன் மாற்றுகிறது (ரோமெரோ மற்றும் பலர். 2021).


• RetNet (Y. Sun et al. 2023) கட்டமைப்பிற்கு கூடுதல் கேட்டைச் சேர்க்கிறது மற்றும் எளிமையான SSM ஐப் பயன்படுத்துகிறது, இது மாற்று இணையான கணக்கீட்டு பாதையை அனுமதிக்கிறது, இது கன்வல்யூஷன்களுக்குப் பதிலாக மல்டி-ஹெட் அட்டென்ஷன் (MHA) மாறுபாட்டைப் பயன்படுத்துகிறது.


• RWKV (B. Peng et al. 2023) என்பது மற்றொரு நேரியல் கவன தோராயத்தை அடிப்படையாகக் கொண்ட மொழி மாதிரியாக்கத்திற்காக வடிவமைக்கப்பட்ட ஒரு சமீபத்திய RNN ஆகும் (கவனம் இல்லாத டிரான்ஸ்ஃபார்மர் (S. Zhai et al. 2021)). அதன் முக்கிய "WKV" பொறிமுறையானது LTI மறுநிகழ்வுகளை உள்ளடக்கியது மற்றும் இரண்டு SSMகளின் விகிதமாகக் கருதலாம்.


மற்ற நெருங்கிய தொடர்புடைய SSMகள் மற்றும் கட்டமைப்புகள் விரிவான தொடர்புடைய படைப்பில் (இணைப்பு B) மேலும் விவாதிக்கப்பட்டுள்ளன. குறிப்பாக S5 (Smith, Warrington, and Linderman 2023), QRNN (Bradbury et al. 2016), மற்றும் SRU (Lei et al. 2017) ஆகியவற்றை நாங்கள் முன்னிலைப்படுத்துகிறோம், இவை எங்கள் மைய தேர்ந்தெடுக்கப்பட்ட SSM உடன் மிகவும் நெருக்கமாக தொடர்புடைய முறைகளாக நாங்கள் கருதுகிறோம்.



L O A D I N G
. . . comments & more!

About Author

Rendering Technology Breakthroughs HackerNoon profile picture
Rendering Technology Breakthroughs@rendering
Research and publications on cutting-edge rendering technologies, shaping 2d & 3d visual experiences across industries.

ஹேங் டேக்குகள்

இந்த கட்டுரையில் வழங்கப்பட்டது...