paint-brush
අමතර වියදම් නොමැතිව AI වේගවත් කරන අති නවීන තාක්ෂණික ක්‍රමවිසින්@serialization
159 කියවීම් නව ඉතිහාසය

අමතර වියදම් නොමැතිව AI වේගවත් කරන අති නවීන තාක්ෂණික ක්‍රම

විසින් The Serialization Publication4m2024/12/15
Read on Terminal Reader

දිග වැඩියි; කියවීමට

කර්නල් විලයනය, සමාන්තර ස්කෑන් ඇල්ගොරිතම සහ නැවත ගණනය කිරීම වැනි තාක්ෂණික ක්‍රම භාවිතා කරමින් වරණීය එස්එස්එම් නවීන දෘඪාංග සඳහා ප්‍රශස්ත කර ඇත. මෙම ක්‍රම මඟින් මතක භාවිතය අඩු කිරීමෙන් සහ වේගවත් සැකසුම් සක්‍රීය කිරීමෙන් කාර්යක්ෂමතාව වැඩි දියුණු කිරීමට උපකාරී වේ, මහා පරිමාණ AI කාර්යයන් සඳහා SSM වඩාත් ප්‍රායෝගික කරයි.
featured image - අමතර වියදම් නොමැතිව AI වේගවත් කරන අති නවීන තාක්ෂණික ක්‍රම
The Serialization Publication HackerNoon profile picture
0-item

කර්තෘ:

(1) ඇල්බට් ගු, යන්ත්‍ර ඉගෙනුම් දෙපාර්තමේන්තුව, කානගී මෙලන් විශ්වවිද්‍යාලය සහ සමාන දායකත්වයක් සහිතව;

(2) Tri Dao, පරිගණක විද්‍යා දෙපාර්තමේන්තුව, ප්‍රින්ස්ටන් විශ්ව විද්‍යාලය සහ සමාන දායකත්වයක් සහිතව.

සබැඳි වගුව

සාරාංශය සහ 1 හැඳින්වීම

2 රාජ්ය අභ්යවකාශ ආකෘති

3 වරණීය රාජ්‍ය අවකාශ ආකෘති සහ 3.1 අභිප්‍රේරණය: සම්පීඩනය කිරීමේ මාධ්‍යයක් ලෙස තෝරා ගැනීම

3.2 තේරීම සමඟ SSM වැඩිදියුණු කිරීම

3.3 වරණීය එස්එස්එම් කාර්යක්ෂමව ක්‍රියාත්මක කිරීම

3.4 සරල කළ SSM ගෘහ නිර්මාණ ශිල්පය

3.5 තෝරාගැනීමේ යාන්ත්‍රණවල ගුණාංග

3.6 අතිරේක ආකෘති විස්තර

4 ආනුභවික ඇගයීම සහ 4.1 කෘතිම කාර්යයන්

4.2 භාෂා ආකෘති නිර්මාණය

4.3 DNA ආකෘති නිර්මාණය

4.4 ශ්‍රව්‍ය ආකෘති නිර්මාණය සහ උත්පාදනය

4.5 වේගය සහ මතක මිණුම් සලකුණු

4.6 ආකෘති ඉවත් කිරීම්

5 සාකච්ඡාව

6 නිගමනය සහ යොමු කිරීම්


සාකච්ඡාවක්: තේරීමේ යාන්ත්‍රණය

B සම්බන්ධ වැඩ

C Selective SSM වල යාන්ත්‍ර විද්‍යාව

D තෝරාගත් SSM සඳහා දෘඪාංග-දැනුවත් ඇල්ගොරිතම

ඊ පර්යේෂණාත්මක විස්තර සහ අතිරේක ප්රතිඵල

3.3 වරණීය එස්එස්එම් කාර්යක්ෂමව ක්‍රියාත්මක කිරීම

convolutions (Krizhevsky, Sutskever, and Hinton 2012) සහ Transformers (Vaswani et al. 2017) වැනි දෘඪාංග-හිතකාමී ගෘහනිර්මාණයන් පුලුල්ව පැතිරුණු යෙදුමක් භුක්ති විඳිති. මෙහිදී අපි නවීන දෘඪාංග (GPU) මතද තෝරාගත් SSM කාර්යක්ෂම කිරීමට ඉලක්ක කරමු. තේරීමේ යාන්ත්‍රණය ඉතා ස්වාභාවික වන අතර, පුනරාවර්තන SSM (Gu, Dao, et al. 2020) තුළ කාලයත් සමඟ වෙනස් වීමට ඉඩ ∆ වැනි තේරීමේ විශේෂ අවස්ථා ඇතුළත් කිරීමට පෙර කෘති උත්සාහ කරන ලදී. කෙසේ වෙතත්, කලින් සඳහන් කළ පරිදි, SSM භාවිතයේ මූලික සීමාවක් වන්නේ ඒවායේ ගණනය කිරීමේ කාර්යක්ෂමතාවයි, ඒ නිසා S4 සහ සියලුම ව්‍යුත්පන්නයන් LTI (තෝරාගත් නොවන) ආකෘති භාවිතා කරන ලදී, බොහෝ විට ගෝලීය සංකෝචන ස්වරූපයෙන්.


3.3.1 පෙර මාදිලි පෙළඹවීම


අපි මුලින්ම මෙම අභිප්‍රේරණය නැවත සලකා බලා පෙර ක්‍රමවල සීමාවන් ජය ගැනීම සඳහා අපගේ ප්‍රවේශය සමාලෝචනය කරමු.


• ඉහළ මට්ටමක දී, SSMs වැනි පුනරාවර්තන ආකෘති සෑම විටම ප්‍රකාශනය සහ වේගය අතර හුවමාරුවක් සමතුලිත කරයි: 3.1 වගන්තියේ සාකච්ඡා කර ඇති පරිදි, විශාල සැඟවුණු රාජ්‍ය මානයන් සහිත ආකෘති වඩා ඵලදායී නමුත් මන්දගාමී විය යුතුය. මේ අනුව අපට වේගය සහ මතක පිරිවැය නොගෙවා සැඟවුණු රාජ්‍ය මානය උපරිම කිරීමට අවශ්‍යයි.


• ප්‍රත්‍යාවර්තක මාදිලිය පෙරළීමේ ප්‍රකාරයට වඩා නම්‍යශීලී බව සලකන්න, අවසාන (3) ව්‍යුත්පන්න වී ඇත්තේ පෙර (2) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) ව්‍යුත්පන්න වීමෙනි. කෙසේ වෙතත්, මේ සඳහා ගුප්ත තත්වය ℎ හැඩයෙන් (B, L, D, N), ආදාන x සහ ප්‍රතිදානය y හැඩයට වඩා විශාල (N හි සාධකයකින්, SSM තත්ත්‍වයේ මානය) (B, එල්, ඩී). මේ අනුව වඩාත් කාර්යක්‍ෂම පරිවර්තන මාදිලිය හඳුන්වා දෙන ලද අතර එය රාජ්‍ය ගණනය කිරීම මග හැරිය හැකි අතර (B, L, D) පමණක් ඇති convolution kernel (3a) ක්‍රියාවලි කරයි.


• පෙර LTI SSMs කාර්යක්ෂම දඩුවම් නොමැතිව සාම්ප්‍රදායික RNN වලට වඩා විශාල Nx (≈ 10 - 100) ගුණයකින් ඵලදායි තත්ත්‍වයේ මානය වැඩි කිරීමට ද්විත්ව පුනරාවර්තන-පරිවර්තන ආකෘති භාවිතා කරයි.


3.3.2 තෝරාගත් ස්කෑන් පිළිබඳ දළ විශ්ලේෂණය: දෘඪාංග-දැනුවත් රාජ්‍ය ව්‍යාප්තිය


තෝරාගැනීමේ යාන්ත්රණය LTI මාදිලිවල සීමාවන් ජය ගැනීමට සැලසුම් කර ඇත; ඒ සමගම, අපි SSM වල ගණනය කිරීමේ ගැටලුව නැවත සලකා බැලිය යුතුය. අපි මෙය සම්භාව්‍ය ශිල්පීය ක්‍රම තුනකින් ආමන්ත්‍රණය කරමු: කර්නල් විලයනය, සමාන්තර ස්කෑන් සහ නැවත ගණනය කිරීම. අපි ප්රධාන නිරීක්ෂණ දෙකක් කරන්නෙමු:


• බොළඳ පුනරාවර්තන ගණනය කිරීම O(BLDN) FLOP භාවිතා කරන අතර convolutional computation O(BLD log(L)) FLOPs භාවිතා කරයි, සහ පළමුවැන්නට අඩු නියත සාධකයක් ඇත. මේ අනුව දිගු අනුපිළිවෙලවල් සහ ඉතා විශාල නොවන රාජ්‍ය මානය N සඳහා, පුනරාවර්තන මාදිලිය ඇත්ත වශයෙන්ම අඩු FLOP භාවිතා කළ හැක.


• අභියෝග දෙක නම් පුනරාවර්තනයේ අනුක්‍රමික ස්වභාවය සහ විශාල මතක භාවිතයයි. දෙවැන්න ආමන්ත්‍රණය කිරීම සඳහා, විප්ලවීය මාදිලිය මෙන්, අපට සම්පූර්ණ තත්වය සත්‍ය වශයෙන්ම ක්‍රියාත්මක නොකිරීමට උත්සාහ කළ හැකිය ℎ.


ප්‍රධාන අදහස වන්නේ මතක ධූරාවලියේ වඩාත් කාර්යක්‍ෂම මට්ටම් වලදී පමණක් තත්වය ℎ ද්‍රව්‍යකරණය කිරීම සඳහා නවීන ත්වරණකාරකවල (GPUs) ගුණාංග උත්තේජනය කිරීමයි. විශේෂයෙන්ම, බොහෝ මෙහෙයුම් (matrix ගුණ කිරීම හැර) මතක කලාප පළලින් සීමා වේ (Dao, Fu, Ermon, et al. 2022; Ivanov et al. 2021; Williams, Waterman, and Patterson 2009). මෙයට අපගේ ස්කෑන් ක්‍රියාව ඇතුළත් වන අතර, සම්මත ක්‍රියාත්මක කිරීමකට සාපේක්ෂව සැලකිය යුතු වේගයකට තුඩු දෙන මතක IO ප්‍රමාණය අඩු කිරීමට අපි කර්නල් විලයනය භාවිතා කරමු.



අනුක්‍රමික පුනරාවර්තනය වැලැක්වීම සඳහා, රේඛීය නොවූවත් එය තවමත් වැඩ-කාර්යක්ෂම සමාන්තර ස්කෑන් ඇල්ගොරිතමයක් සමඟ සමාන්තර කළ හැකි බව අපි නිරීක්ෂණය කරමු (Blelloch 1990; Martin and Cundy 2018; Smith, Warrington, and Linderman 2023).


අවසාන වශයෙන්, පසු ප්‍රචාරණය සඳහා අවශ්‍ය වන අතරමැදි තත්වයන් සුරැකීමෙන් ද අප වැළකිය යුතුය. මතක අවශ්‍යතා අඩු කිරීම සඳහා අපි ප්‍රවේසමෙන් නැවත ගණනය කිරීමේ සම්භාව්‍ය තාක්‍ෂණය යොදන්නෙමු: HBM සිට SRAM වෙත යෙදවුම් පූරණය වන විට අතරමැදි තත්ත්‍වයන් ගබඩා නොකෙරෙන නමුත් පසුගාමී සම්මතයෙන් නැවත ගණනය කෙරේ. එහි ප්‍රතිඵලයක් ලෙස, FlashAttention සමඟින් ප්‍රශස්ත ට්‍රාන්ස්ෆෝමර් ක්‍රියාත්මක කිරීමකට සමාන මතක අවශ්‍යතා විලයන ලද වරණීය ස්කෑන් ස්ථරයට ඇත.


විලයනය කරන ලද කර්නලය සහ නැවත ගණනය කිරීම පිළිබඳ විස්තර උපග්‍රන්ථය D හි ඇත. සම්පූර්ණ වරණීය SSM ස්තරය සහ ඇල්ගොරිතම රූප සටහන 1 හි දක්වා ඇත.


මෙම පත්‍රිකාව CC BY 4.0 DEED බලපත්‍රය යටතේ arxiv මත ඇත .