អ្នកនិពន្ធ៖
(1) Albert Gu, នាយកដ្ឋានរៀនម៉ាស៊ីន, សាកលវិទ្យាល័យ Carnegie Mellon ជាមួយនឹងការរួមចំណែកស្មើគ្នា (agu@cs.cmu.edu);
(2) ទ្រី ដាវ នាយកដ្ឋានវិទ្យាសាស្ត្រកុំព្យូទ័រ សាកលវិទ្យាល័យព្រីនស្តុន ដោយមានការចូលរួមចំណែកស្មើគ្នា (tri@tridao.me)។
3 Selective State Space Models and 3.1 Motivation: Selection as a Mean of Compression
3.2 ការកែលម្អ SSMs ជាមួយនឹងការជ្រើសរើស
3.3 ការអនុវត្តប្រកបដោយប្រសិទ្ធភាពនៃ SSMs ជ្រើសរើស
3.5 លក្ខណៈសម្បត្តិនៃយន្តការជ្រើសរើស
3.6 ព័ត៌មានលម្អិតអំពីគំរូបន្ថែម
4 ការវាយតម្លៃជាក់ស្តែង និង 4.1 កិច្ចការសំយោគ
4.5 ល្បឿន និងស្តង់ដារអង្គចងចាំ
6 សេចក្តីសន្និដ្ឋាន ការទទួលស្គាល់ និងឯកសារយោង
B ការងារពាក់ព័ន្ធ និង B.1 S4 វ៉ារ្យ៉ង់ និងដេរីវេ
B.4 ការយកចិត្តទុកដាក់លីនេអ៊ែរ និង B.5 គំរូបរិបទវែង
D Hardware-aware Algorithm សម្រាប់ SSMs ជ្រើសរើស
អ៊ី ព័ត៌មានលម្អិតនៃការពិសោធន៍ និងលទ្ធផលបន្ថែម និង E.1 កិច្ចការសំយោគ
គំរូគ្រឹះ ដែលឥឡូវនេះផ្តល់ថាមពលដល់កម្មវិធីដ៏គួរឱ្យរំភើបភាគច្រើននៅក្នុងការរៀនសូត្រជ្រៅ គឺស្ទើរតែជាសកលដោយផ្អែកលើស្ថាបត្យកម្ម Transformer និងម៉ូឌុលយកចិត្តទុកដាក់ស្នូលរបស់វា។ ស្ថាបត្យកម្ម subquadratic-time ជាច្រើនដូចជាការយកចិត្តទុកដាក់លីនេអ៊ែរ ការបញ្ជូលគ្នាតាមច្រកទ្វារ និងគំរូដែលកើតឡើងដដែលៗ និងគំរូលំហរដ្ឋដែលមានរចនាសម្ព័ន្ធ (SSMs) ត្រូវបានបង្កើតឡើងដើម្បីដោះស្រាយភាពគ្មានប្រសិទ្ធភាពនៃការគណនារបស់ Transformers នៅលើលំដាប់ដ៏វែង ប៉ុន្តែពួកគេមិនបានអនុវត្តក៏ដូចជាការយកចិត្តទុកដាក់លើទម្រង់សំខាន់ៗដូចជាភាសានោះទេ។ យើងកំណត់ថាចំនុចខ្សោយសំខាន់នៃគំរូបែបនេះគឺអសមត្ថភាពក្នុងការអនុវត្តការវែកញែកផ្អែកលើខ្លឹមសារ និងធ្វើការកែលម្អជាច្រើន។ ទីមួយ ដោយគ្រាន់តែអនុញ្ញាតឱ្យប៉ារ៉ាម៉ែត្រ SSM ជាមុខងារនៃធាតុបញ្ចូល ដោះស្រាយភាពទន់ខ្សោយរបស់ពួកគេជាមួយនឹងទម្រង់ដាច់ដោយឡែក ដែលអនុញ្ញាតឱ្យម៉ូដែលជ្រើសរើសផ្សព្វផ្សាយ ឬបំភ្លេចព័ត៌មានតាមវិមាត្រប្រវែងតាមលំដាប់ អាស្រ័យលើនិមិត្តសញ្ញាបច្ចុប្បន្ន។ ទីពីរ ទោះបីជាការផ្លាស់ប្តូរនេះរារាំងការប្រើប្រាស់ការបង្វិលប្រកបដោយប្រសិទ្ធភាពក៏ដោយ យើងរៀបចំក្បួនដោះស្រាយប៉ារ៉ាឡែលដែលដឹងអំពីផ្នែករឹងនៅក្នុងរបៀបកើតឡើងវិញ។ យើងរួមបញ្ចូល SSMs ជ្រើសរើសទាំងនេះទៅក្នុងស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទដែលមានលក្ខណៈសាមញ្ញពីចុងដល់ចុងដោយមិនយកចិត្តទុកដាក់ ឬសូម្បីតែប្លុក MLP (Mamba) ។ Mamba រីករាយនឹងការសន្និដ្ឋានលឿន (5 × ខ្ពស់ជាង Transformers) និងការធ្វើមាត្រដ្ឋានលីនេអ៊ែរក្នុងប្រវែងលំដាប់ ហើយដំណើរការរបស់វាប្រសើរឡើងលើទិន្នន័យពិតរហូតដល់រាប់លានលំដាប់។ ក្នុងនាមជាឆ្អឹងខ្នងគំរូនៃលំដាប់ទូទៅ Mamba សម្រេចបាននូវការសម្តែងដ៏ទំនើបនៅទូទាំងទម្រង់មួយចំនួនដូចជាភាសា សំឡេង និងហ្សែន។ នៅលើការធ្វើគំរូភាសា ម៉ូដែល Mamba-3B របស់យើងដំណើរការជាង Transformers ដែលមានទំហំដូចគ្នា ហើយត្រូវគ្នានឹង Transformers ពីរដងទំហំរបស់វា ទាំងនៅក្នុងការវាយតម្លៃមុន និងការវាយតម្លៃខាងក្រោម។
គំរូមូលដ្ឋាន (FMs) ឬគំរូធំៗដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើទិន្នន័យដ៏ធំ បន្ទាប់មកត្រូវបានកែសម្រួលសម្រាប់កិច្ចការខាងក្រោមបានលេចចេញជាគំរូដ៏មានប្រសិទ្ធភាពមួយក្នុងការរៀនម៉ាស៊ីនទំនើប។ ឆ្អឹងខ្នងនៃ FMs ទាំងនេះច្រើនតែជាគំរូតាមលំដាប់ ដែលដំណើរការលើការបញ្ចូលតាមលំដាប់លំដោយពីដែនជាច្រើនដូចជា ភាសា រូបភាព ការនិយាយ សំឡេង ស៊េរីពេលវេលា និងហ្សែន (Brown et al. 2020; Dosovitskiy et al. 2020; Ismail Fawaz et 019; al. 2020; Ismail Fawaz et 019; al. Poli et al 2023; Sutskever, Vinyals, និង Quoc V Le 2014)។ ខណៈពេលដែលគំនិតនេះគឺមិនគួរឱ្យជឿចំពោះជម្រើសជាក់លាក់នៃស្ថាបត្យកម្មគំរូនោះ FMs ទំនើបគឺផ្អែកលើប្រភេទតែមួយនៃគំរូលំដាប់៖ Transformer (Vaswani et al. 2017) និងស្រទាប់យកចិត្តទុកដាក់ស្នូលរបស់វា (Bahdanau, Cho, and Bengio 2015) ប្រសិទ្ធភាពនៃការយកចិត្តទុកដាក់លើខ្លួនឯងគឺត្រូវបានសន្មតថាជាព័ត៌មានដែលអនុញ្ញាតឱ្យមានបរិបទរបស់វា។ ទោះជាយ៉ាងណាក៏ដោយ ទ្រព្យសម្បត្តិនេះនាំមកនូវគុណវិបត្តិជាមូលដ្ឋាន៖ អសមត្ថភាពក្នុងការធ្វើគំរូអ្វីក្រៅពីបង្អួចកំណត់ និងការធ្វើមាត្រដ្ឋានបួនជ្រុងទាក់ទងនឹងប្រវែងបង្អួច។ ស្ថាប័នស្រាវជ្រាវដ៏ធំសម្បើមមួយបានលេចឡើងនៅលើវ៉ារ្យ៉ង់ដែលមានប្រសិទ្ធភាពជាងមុននៃការយកចិត្តទុកដាក់ដើម្បីយកឈ្នះលើគុណវិបត្តិទាំងនេះ (Tay, Dehghani, Bahri, et al. 2022) ប៉ុន្តែជាញឹកញាប់ដោយចំណាយលើលក្ខណៈសម្បត្តិដែលធ្វើឱ្យវាមានប្រសិទ្ធភាព។ រហូតមកទល់ពេលនេះ គ្មានវ៉ារ្យ៉ង់ណាមួយក្នុងចំណោមវ៉ារ្យ៉ង់ទាំងនេះត្រូវបានបង្ហាញថាមានប្រសិទ្ធភាពជាក់ស្តែងក្នុងទំហំទូទាំងដែន។ ថ្មីៗនេះ គំរូលំដាប់លំហរដ្ឋដែលមានរចនាសម្ព័ន្ធ (SSMs) (Gu, Goel, និង Ré 2022; Gu, Johnson, Goel, et al. 2021) បានលេចចេញជាស្ថាបត្យកម្មលំដាប់ថ្នាក់ដ៏ជោគជ័យមួយសម្រាប់ការធ្វើគំរូតាមលំដាប់។ គំរូទាំងនេះអាចត្រូវបានបកស្រាយថាជាការរួមបញ្ចូលគ្នានៃបណ្តាញសរសៃប្រសាទដែលកើតឡើងដដែលៗ (RNNs) និងបណ្តាញប្រសាទ convolutional (CNNs) ដោយមានការបំផុសគំនិតពីគំរូលំហរដ្ឋបុរាណ (Kalman 1960)។ ថ្នាក់នៃគំរូនេះអាចត្រូវបានគេគណនាយ៉ាងមានប្រសិទ្ធភាពដូចជាការកើតឡើងវិញ ឬ convolution ជាមួយនឹងការធ្វើមាត្រដ្ឋានលីនេអ៊ែរ ឬជិតលីនេអ៊ែរក្នុងប្រវែងលំដាប់។ លើសពីនេះ ពួកគេមានយន្តការជាគោលការណ៍សម្រាប់ធ្វើគំរូពីភាពអាស្រ័យរយៈពេលវែង (Gu, Dao, et al. 2020) នៅក្នុងទម្រង់ទិន្នន័យមួយចំនួន ហើយបានគ្រប់គ្រងលើចំណុចសំខាន់ៗដូចជា Long Range Arena (Tay, Dehghani, Abnar, et al. 2021)។ រសជាតិជាច្រើននៃ SSMs (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023) បានទទួលជោគជ័យនៅក្នុង Smith, 2023; ដែនដែលពាក់ព័ន្ធនឹងទិន្នន័យសញ្ញាបន្តដូចជាសំឡេង និងចក្ខុវិស័យ (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023)។ ទោះជាយ៉ាងណាក៏ដោយ ពួកគេមិនសូវមានប្រសិទ្ធភាពក្នុងការបង្កើតគំរូទិន្នន័យដាច់ដោយឡែក និងព័ត៌មានក្រាស់ដូចជាអត្ថបទ។
យើងស្នើឱ្យថ្នាក់ថ្មីនៃគំរូលំហរដ្ឋជ្រើសរើស ដែលធ្វើអោយប្រសើរឡើងលើការងារពីមុននៅលើអ័ក្សជាច្រើន ដើម្បីសម្រេចបាននូវថាមពលគំរូនៃ Transformers ខណៈពេលដែលធ្វើមាត្រដ្ឋានលីនេអ៊ែរក្នុងប្រវែងលំដាប់។
យន្តការជ្រើសរើស។ ទីមួយ យើងកំណត់ការកំណត់សំខាន់នៃគំរូមុន៖ សមត្ថភាពក្នុងការជ្រើសរើសទិន្នន័យប្រកបដោយប្រសិទ្ធភាពក្នុងលក្ខណៈដែលពឹងផ្អែកលើការបញ្ចូល (ឧ. ផ្តោតលើ ឬមិនអើពើធាតុចូលជាក់លាក់)។ ផ្អែកលើវិចារណញាណដោយផ្អែកលើកិច្ចការសំយោគសំខាន់ៗដូចជាការចម្លងជ្រើសរើស និងក្បាលបញ្ចូល យើងរចនាយន្តការជ្រើសរើសដ៏សាមញ្ញមួយដោយកំណត់ប៉ារ៉ាម៉ែត្រ SSM ដោយផ្អែកលើការបញ្ចូល។ នេះអនុញ្ញាតឱ្យគំរូដើម្បីច្រោះព័ត៌មានដែលមិនពាក់ព័ន្ធ និងចងចាំព័ត៌មានពាក់ព័ន្ធដោយគ្មានកំណត់។
ក្បួនដោះស្រាយ Hardware-aware ។ ការផ្លាស់ប្តូរដ៏សាមញ្ញនេះបង្កឱ្យមានបញ្ហាប្រឈមផ្នែកបច្ចេកទេសសម្រាប់ការគណនាគំរូ។ តាមពិត គំរូ SSMs ពីមុនទាំងអស់ត្រូវតែមានពេលវេលា និង input-invariant ដើម្បីឱ្យមានប្រសិទ្ធភាពក្នុងការគណនា។ យើងយកឈ្នះលើបញ្ហានេះដោយប្រើក្បួនដោះស្រាយផ្នែករឹងដែលគណនាម៉ូដែលដដែលៗជាមួយនឹងការស្កេនជំនួសឱ្យការបង្រួបបង្រួម ប៉ុន្តែមិនធ្វើឱ្យស្ថានភាពដែលបានពង្រីកដើម្បីជៀសវាងការចូលប្រើ IO រវាងកម្រិតផ្សេងគ្នានៃឋានានុក្រមអង្គចងចាំ GPU ។ ការអនុវត្តជាលទ្ធផលគឺលឿនជាងវិធីសាស្រ្តមុនទាំងក្នុងទ្រឹស្តី (ធ្វើមាត្រដ្ឋានលីនេអ៊ែរក្នុងប្រវែងលំដាប់ បើប្រៀបធៀបទៅនឹង pseudo-linear សម្រាប់ SSMs ដែលមានមូលដ្ឋានលើ convolution ទាំងអស់) និងនៅលើ hardware ទំនើប (រហូតដល់ 3× លឿនជាងនៅលើ A100 GPUs)។
ស្ថាបត្យកម្ម។ យើងសម្រួលស្ថាបត្យកម្មគំរូតាមលំដាប់ស៊ីជម្រៅមុន ដោយរួមបញ្ចូលគ្នានូវការរចនានៃស្ថាបត្យកម្ម SSM មុន (Dao, Fu, Saab, et al. 2023) ជាមួយនឹងប្លុក MLP នៃ Transformers ទៅជាប្លុកតែមួយ ដែលនាំទៅដល់ការរចនាស្ថាបត្យកម្មសាមញ្ញ និងដូចគ្នា (Mamba) ដោយបញ្ចូលចន្លោះរដ្ឋជ្រើសរើស។ SSMs ជ្រើសរើស និងដោយផ្នែកបន្ថែមនៃស្ថាបត្យកម្ម Mamba គឺជាគំរូដែលកើតឡើងដដែលៗយ៉ាងពេញលេញជាមួយនឹងលក្ខណៈសម្បត្តិសំខាន់ៗដែលធ្វើឱ្យពួកវាសមស្របជាឆ្អឹងខ្នងនៃគំរូគ្រឹះទូទៅដែលដំណើរការតាមលំដាប់លំដោយ។ (i) គុណភាពខ្ពស់៖ ការជ្រើសរើសនាំមកនូវការអនុវត្តដ៏រឹងមាំលើទម្រង់ក្រាស់ ដូចជាភាសា និងហ្សែន។ (ii) ការបណ្តុះបណ្តាលរហ័ស និងការសន្និដ្ឋាន៖ ការគណនា និងអង្គចងចាំធ្វើមាត្រដ្ឋានតាមលំដាប់លំដោយក្នុងលំដាប់កំឡុងពេលហ្វឹកហាត់ ហើយការរំកិលគំរូឡើងវិញដោយស្វ័យប្រវត្តកំឡុងពេលការសន្និដ្ឋានត្រូវការពេលវេលាថេរក្នុងមួយជំហានព្រោះវាមិនត្រូវការឃ្លាំងសម្ងាត់នៃធាតុពីមុន។ (iii) បរិបទវែង៖ គុណភាព និងប្រសិទ្ធភាពរួមគ្នាផ្តល់នូវការកែលម្អការអនុវត្តលើទិន្នន័យពិតប្រាកដរហូតដល់ប្រវែងលំដាប់ 1M ។
យើងមានសុពលភាពជាក់ស្តែងសក្តានុពលរបស់ Mamba ជាឆ្អឹងខ្នង FM លំដាប់ទូទៅ ទាំងគុណភាពនៃការបណ្តុះបណ្តាល និងការអនុវត្តភារកិច្ចជាក់លាក់នៃដែន លើប្រភេទមួយចំនួននៃទម្រង់ និងការកំណត់៖
• សំយោគ។ នៅលើកិច្ចការសំយោគសំខាន់ៗដូចជាការចម្លង និងក្បាលបញ្ចូលដែលត្រូវបានស្នើឡើងថាជាគន្លឹះនៃគំរូភាសាធំ Mamba មិនត្រឹមតែអាចដោះស្រាយវាបានយ៉ាងងាយស្រួលប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចបន្ថែមដំណោះស្រាយបានយូរមិនកំណត់ (> 1M tokens)។
• អូឌីយ៉ូ និងហ្សែន។ Mamba អនុវត្តម៉ូដែលទំនើបចុងក្រោយដូចជា SaShiMi, Hyena និង Transformers លើការធ្វើគំរូនៃទម្រង់រលកសំឡេង និងលំដាប់ DNA ទាំងក្នុងគុណភាពនៃការបណ្តុះបណ្តាល និងម៉ែត្រចុះក្រោម (ឧ. កាត់បន្ថយ FID លើសំណុំទិន្នន័យបង្កើតការនិយាយដែលពិបាកជាងពាក់កណ្តាល)។ នៅក្នុងការកំណត់ទាំងពីរ ដំណើរការរបស់វាមានភាពប្រសើរឡើងជាមួយនឹងបរិបទវែងជាងរហូតដល់លំដាប់ប្រវែងរាប់លាន។
• គំរូភាសា។ Mamba គឺជាគំរូតាមលំដាប់លំដោយដំបូងបង្អស់ដែលពិតជាសម្រេចបាននូវការអនុវត្តគុណភាព Transformer ទាំងនៅក្នុងការហ្វឹកហាត់ជាមុន និងការវាយតម្លៃចុះក្រោម។ ជាមួយនឹងច្បាប់ធ្វើមាត្រដ្ឋានរហូតដល់ប៉ារ៉ាម៉ែត្រ 1B យើងបង្ហាញថា Mamba លើសពីការអនុវត្តនៃជួរដ៏ច្រើននៃមូលដ្ឋាន រួមទាំងរូបមន្តបណ្តុះបណ្តាល Transformer ទំនើបខ្លាំងបំផុតដោយផ្អែកលើ LLaMa (Touvron et al. 2023)។ គំរូភាសា Mamba របស់យើងមានជំនាន់ 5 × បើប្រៀបធៀបទៅនឹង Transformers ដែលមានទំហំប្រហាក់ប្រហែលគ្នា ហើយគុណភាពរបស់ Mamba-3B ត្រូវគ្នានឹងទំហំ Transformers ពីរដង (ឧទាហរណ៍ ខ្ពស់ជាង 4 ពិន្ទុជាមធ្យមនៅលើហេតុផលសុភវិនិច្ឆ័យបើប្រៀបធៀបទៅនឹង Pythia-3B និងលើសពី Pythia-7B) ។
លេខកូដគំរូ និងប៉ុស្តិ៍ត្រួតពិនិត្យដែលបានបណ្តុះបណ្តាលមុនត្រូវបានបើកប្រភពនៅ https://github.com/state-spaces/mamba ។
គំរូលំហរដ្ឋទូទៅ។ យើងកត់សម្គាល់ថាពាក្យគំរូអវកាសរដ្ឋមានអត្ថន័យទូលំទូលាយដែលគ្រាន់តែតំណាងឱ្យសញ្ញាណនៃដំណើរការកើតឡើងដដែលៗជាមួយនឹងស្ថានភាពមិនទាន់ឃើញច្បាស់។ វាត្រូវបានគេប្រើដើម្បីយោងទៅលើគោលគំនិតផ្សេងគ្នាជាច្រើននៅក្នុងវិញ្ញាសាផ្សេងៗគ្នា រួមទាំងដំណើរការសម្រេចចិត្ត Markov (MDP) (ការរៀនពង្រឹង (Hafner et al. 2020)) dynamic causal modeling (DCM) (computational neuroscience (Friston, Harrison, and Penny 2003)) Kalman filters (MM9) (MM. និងប្រព័ន្ធថាមវន្តលីនេអ៊ែរ (LDS) (ការរៀនម៉ាស៊ីន) និងគំរូដែលកើតឡើងដដែលៗ (និងជួនកាល) នៅក្នុងទ្រង់ទ្រាយធំ (ការរៀនស៊ីជម្រៅ)។
ពេញមួយក្រដាសនេះ យើងប្រើពាក្យ "SSM" ដើម្បីសំដៅទាំងស្រុងទៅលើថ្នាក់នៃ SSMs ឬគំរូ S4 ដែលមានរចនាសម្ព័ន្ធ (Gu, Goel, និង Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Hasani et al. 2023; Smith, 2023)។ 2023) ហើយប្រើពាក្យទាំងនេះជំនួសគ្នា។ ដើម្បីភាពងាយស្រួល យើងក៏អាចរួមបញ្ចូលនូវដេរីវេនៃគំរូបែបនេះផងដែរ ដូចជាការផ្តោតទៅលើការកើតឡើងវិញនៃលីនេអ៊ែរ ឬទស្សនៈបដិវត្តសកល (Y. Li et al. 2023; Orvieto et al. 2023; Poli et al. 2023) និងបញ្ជាក់ភាពច្បាស់លាស់នៅពេលចាំបាច់។
ស្ថាបត្យកម្ម SSM ។ SSMs គឺជាការបំប្លែងលំដាប់លំដោយឯករាជ្យដែលអាចបញ្ចូលទៅក្នុងស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទពីចុងដល់ចុង។ (ជួនកាលយើងក៏ហៅស្ថាបត្យកម្ម SSM ថា SSNNs ដែលសំដៅទៅលើស្រទាប់ SSM ខណៈដែល CNNs គឺទៅស្រទាប់ convolution លីនេអ៊ែរ។
• ការយកចិត្តទុកដាក់តាមលីនេអ៊ែរ (Katharopoulos et al. 2020) គឺជាការប៉ាន់ស្មាននៃការយកចិត្តទុកដាក់លើខ្លួនឯងដែលពាក់ព័ន្ធនឹងការកើតឡើងវិញ ដែលអាចត្រូវបានគេមើលថាជា SSM លីនេអ៊ែរដែលចុះខ្សោយ។
• H3 (Dao, Fu, Saab, et al. 2023) បានធ្វើជាទូទៅការកើតឡើងនេះដើម្បីប្រើ S4; វាអាចត្រូវបានមើលជាស្ថាបត្យកម្មដែលមាន SSM បិទភ្ជាប់ដោយការតភ្ជាប់ពីរ (រូបភាពទី 3) ។ H3 ក៏បញ្ចូលការបំប្លែងមូលដ្ឋានស្ដង់ដារ ដែលពួកវាធ្វើស៊ុមជា shift-SSM មុនស្រទាប់ SSM សំខាន់។
• Hyena (Poli et al. 2023) ប្រើស្ថាបត្យកម្មដូចគ្នាទៅនឹង H3 ប៉ុន្តែជំនួសស្រទាប់ S4 ជាមួយនឹងការបំប្លែងជាសកលដែលកំណត់ដោយ MLP (Romero et al. 2021)។
• RetNet (Y. Sun et al. 2023) បន្ថែមច្រកបន្ថែមមួយទៅស្ថាបត្យកម្ម និងប្រើ SSM សាមញ្ញជាងមុន ដែលអនុញ្ញាតឱ្យមានផ្លូវគណនាដែលអាចផ្លាស់ប្តូរបានជំនួស ដោយប្រើវ៉ារ្យ៉ង់នៃការយកចិត្តទុកដាក់ច្រើនក្បាល (MHA) ជំនួសឱ្យការបន្ទរ។
• RWKV (B. Peng et al. 2023) គឺជា RNN ថ្មីៗដែលត្រូវបានរចនាឡើងសម្រាប់គំរូភាសាដោយផ្អែកលើការប៉ាន់ស្មានការយកចិត្តទុកដាក់លីនេអ៊ែរមួយផ្សេងទៀត (Transformer គ្មានការយកចិត្តទុកដាក់ (S. Zhai et al. 2021)) ។ យន្តការ "WKV" ចម្បងរបស់វាពាក់ព័ន្ធនឹងការកើតឡើង LTI ហើយអាចត្រូវបានចាត់ទុកថាជាសមាមាត្រនៃ SSMs ពីរ។
SSMs និងស្ថាបត្យកម្មដែលទាក់ទងយ៉ាងជិតស្និទ្ធផ្សេងទៀតត្រូវបានពិភាក្សាបន្ថែមទៀតនៅក្នុងការងារដែលពាក់ព័ន្ធ (ឧបសម្ព័ន្ធ B)។ យើងគូសបញ្ជាក់ជាពិសេស S5 (Smith, Warrington, and Linderman 2023), QRNN (Bradbury et al. 2016) និង SRU (Lei et al. 2017) ដែលយើងចាត់ទុកថាជាវិធីសាស្រ្តដែលពាក់ព័ន្ធបំផុតចំពោះ SSM ជ្រើសរើសស្នូលរបស់យើង។
ក្រដាសនេះ មាននៅលើ arxiv ក្រោមអាជ្ញាប័ណ្ណ CC BY 4.0 DEED ។