කර්තෘ:
(1) ඇල්බට් ගු, යන්ත්ර ඉගෙනුම් දෙපාර්තමේන්තුව, කානගී මෙලන් විශ්වවිද්යාලය සහ සමාන දායකත්වයක් සහිතව;
(2) Tri Dao, පරිගණක විද්යා දෙපාර්තමේන්තුව, ප්රින්ස්ටන් විශ්ව විද්යාලය සහ සමාන දායකත්වයක් සහිතව.
3 වරණීය රාජ්ය අවකාශ ආකෘති සහ 3.1 අභිප්රේරණය: සම්පීඩනය කිරීමේ මාධ්යයක් ලෙස තෝරා ගැනීම
3.2 තේරීම සමඟ SSM වැඩිදියුණු කිරීම
3.3 වරණීය එස්එස්එම් කාර්යක්ෂමව ක්රියාත්මක කිරීම
3.4 සරල කළ SSM ගෘහ නිර්මාණ ශිල්පය
3.5 තෝරාගැනීමේ යාන්ත්රණවල ගුණාංග
4 ආනුභවික ඇගයීම සහ 4.1 කෘතිම කාර්යයන්
4.4 ශ්රව්ය ආකෘති නිර්මාණය සහ උත්පාදනය
C Selective SSM වල යාන්ත්ර විද්යාව
D තෝරාගත් SSM සඳහා දෘඪාංග-දැනුවත් ඇල්ගොරිතම
ඊ පර්යේෂණාත්මක විස්තර සහ අතිරේක ප්රතිඵල
convolutions (Krizhevsky, Sutskever, and Hinton 2012) සහ Transformers (Vaswani et al. 2017) වැනි දෘඪාංග-හිතකාමී ගෘහනිර්මාණයන් පුලුල්ව පැතිරුණු යෙදුමක් භුක්ති විඳිති. මෙහිදී අපි නවීන දෘඪාංග (GPU) මතද තෝරාගත් SSM කාර්යක්ෂම කිරීමට ඉලක්ක කරමු. තේරීමේ යාන්ත්රණය ඉතා ස්වාභාවික වන අතර, පුනරාවර්තන SSM (Gu, Dao, et al. 2020) තුළ කාලයත් සමඟ වෙනස් වීමට ඉඩ ∆ වැනි තේරීමේ විශේෂ අවස්ථා ඇතුළත් කිරීමට පෙර කෘති උත්සාහ කරන ලදී. කෙසේ වෙතත්, කලින් සඳහන් කළ පරිදි, SSM භාවිතයේ මූලික සීමාවක් වන්නේ ඒවායේ ගණනය කිරීමේ කාර්යක්ෂමතාවයි, ඒ නිසා S4 සහ සියලුම ව්යුත්පන්නයන් LTI (තෝරාගත් නොවන) ආකෘති භාවිතා කරන ලදී, බොහෝ විට ගෝලීය සංකෝචන ස්වරූපයෙන්.
3.3.1 පෙර මාදිලි පෙළඹවීම
අපි මුලින්ම මෙම අභිප්රේරණය නැවත සලකා බලා පෙර ක්රමවල සීමාවන් ජය ගැනීම සඳහා අපගේ ප්රවේශය සමාලෝචනය කරමු.
• ඉහළ මට්ටමක දී, SSMs වැනි පුනරාවර්තන ආකෘති සෑම විටම ප්රකාශනය සහ වේගය අතර හුවමාරුවක් සමතුලිත කරයි: 3.1 වගන්තියේ සාකච්ඡා කර ඇති පරිදි, විශාල සැඟවුණු රාජ්ය මානයන් සහිත ආකෘති වඩා ඵලදායී නමුත් මන්දගාමී විය යුතුය. මේ අනුව අපට වේගය සහ මතක පිරිවැය නොගෙවා සැඟවුණු රාජ්ය මානය උපරිම කිරීමට අවශ්යයි.
• ප්රත්යාවර්තක මාදිලිය පෙරළීමේ ප්රකාරයට වඩා නම්යශීලී බව සලකන්න, අවසාන (3) ව්යුත්පන්න වී ඇත්තේ පෙර (2) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) ව්යුත්පන්න වීමෙනි. කෙසේ වෙතත්, මේ සඳහා ගුප්ත තත්වය ℎ හැඩයෙන් (B, L, D, N), ආදාන x සහ ප්රතිදානය y හැඩයට වඩා විශාල (N හි සාධකයකින්, SSM තත්ත්වයේ මානය) (B, එල්, ඩී). මේ අනුව වඩාත් කාර්යක්ෂම පරිවර්තන මාදිලිය හඳුන්වා දෙන ලද අතර එය රාජ්ය ගණනය කිරීම මග හැරිය හැකි අතර (B, L, D) පමණක් ඇති convolution kernel (3a) ක්රියාවලි කරයි.
• පෙර LTI SSMs කාර්යක්ෂම දඩුවම් නොමැතිව සාම්ප්රදායික RNN වලට වඩා විශාල Nx (≈ 10 - 100) ගුණයකින් ඵලදායි තත්ත්වයේ මානය වැඩි කිරීමට ද්විත්ව පුනරාවර්තන-පරිවර්තන ආකෘති භාවිතා කරයි.
3.3.2 තෝරාගත් ස්කෑන් පිළිබඳ දළ විශ්ලේෂණය: දෘඪාංග-දැනුවත් රාජ්ය ව්යාප්තිය
තෝරාගැනීමේ යාන්ත්රණය LTI මාදිලිවල සීමාවන් ජය ගැනීමට සැලසුම් කර ඇත; ඒ සමගම, අපි SSM වල ගණනය කිරීමේ ගැටලුව නැවත සලකා බැලිය යුතුය. අපි මෙය සම්භාව්ය ශිල්පීය ක්රම තුනකින් ආමන්ත්රණය කරමු: කර්නල් විලයනය, සමාන්තර ස්කෑන් සහ නැවත ගණනය කිරීම. අපි ප්රධාන නිරීක්ෂණ දෙකක් කරන්නෙමු:
• බොළඳ පුනරාවර්තන ගණනය කිරීම O(BLDN) FLOP භාවිතා කරන අතර convolutional computation O(BLD log(L)) FLOPs භාවිතා කරයි, සහ පළමුවැන්නට අඩු නියත සාධකයක් ඇත. මේ අනුව දිගු අනුපිළිවෙලවල් සහ ඉතා විශාල නොවන රාජ්ය මානය N සඳහා, පුනරාවර්තන මාදිලිය ඇත්ත වශයෙන්ම අඩු FLOP භාවිතා කළ හැක.
• අභියෝග දෙක නම් පුනරාවර්තනයේ අනුක්රමික ස්වභාවය සහ විශාල මතක භාවිතයයි. දෙවැන්න ආමන්ත්රණය කිරීම සඳහා, විප්ලවීය මාදිලිය මෙන්, අපට සම්පූර්ණ තත්වය සත්ය වශයෙන්ම ක්රියාත්මක නොකිරීමට උත්සාහ කළ හැකිය ℎ.
ප්රධාන අදහස වන්නේ මතක ධූරාවලියේ වඩාත් කාර්යක්ෂම මට්ටම් වලදී පමණක් තත්වය ℎ ද්රව්යකරණය කිරීම සඳහා නවීන ත්වරණකාරකවල (GPUs) ගුණාංග උත්තේජනය කිරීමයි. විශේෂයෙන්ම, බොහෝ මෙහෙයුම් (matrix ගුණ කිරීම හැර) මතක කලාප පළලින් සීමා වේ (Dao, Fu, Ermon, et al. 2022; Ivanov et al. 2021; Williams, Waterman, and Patterson 2009). මෙයට අපගේ ස්කෑන් ක්රියාව ඇතුළත් වන අතර, සම්මත ක්රියාත්මක කිරීමකට සාපේක්ෂව සැලකිය යුතු වේගයකට තුඩු දෙන මතක IO ප්රමාණය අඩු කිරීමට අපි කර්නල් විලයනය භාවිතා කරමු.
අනුක්රමික පුනරාවර්තනය වැලැක්වීම සඳහා, රේඛීය නොවූවත් එය තවමත් වැඩ-කාර්යක්ෂම සමාන්තර ස්කෑන් ඇල්ගොරිතමයක් සමඟ සමාන්තර කළ හැකි බව අපි නිරීක්ෂණය කරමු (Blelloch 1990; Martin and Cundy 2018; Smith, Warrington, and Linderman 2023).
අවසාන වශයෙන්, පසු ප්රචාරණය සඳහා අවශ්ය වන අතරමැදි තත්වයන් සුරැකීමෙන් ද අප වැළකිය යුතුය. මතක අවශ්යතා අඩු කිරීම සඳහා අපි ප්රවේසමෙන් නැවත ගණනය කිරීමේ සම්භාව්ය තාක්ෂණය යොදන්නෙමු: HBM සිට SRAM වෙත යෙදවුම් පූරණය වන විට අතරමැදි තත්ත්වයන් ගබඩා නොකෙරෙන නමුත් පසුගාමී සම්මතයෙන් නැවත ගණනය කෙරේ. එහි ප්රතිඵලයක් ලෙස, FlashAttention සමඟින් ප්රශස්ත ට්රාන්ස්ෆෝමර් ක්රියාත්මක කිරීමකට සමාන මතක අවශ්යතා විලයන ලද වරණීය ස්කෑන් ස්ථරයට ඇත.
විලයනය කරන ලද කර්නලය සහ නැවත ගණනය කිරීම පිළිබඳ විස්තර උපග්රන්ථය D හි ඇත. සම්පූර්ණ වරණීය SSM ස්තරය සහ ඇල්ගොරිතම රූප සටහන 1 හි දක්වා ඇත.
මෙම පත්රිකාව CC BY 4.0 DEED බලපත්රය යටතේ arxiv මත ඇත .