Հեղինակներ:
(1) Ալբերտ Գու, Քարնեգի Մելլոնի համալսարանի մեքենայական ուսուցման բաժին և հավասար ներդրումով.
(2) Տրի Դաո, Փրինսթոնի համալսարանի համակարգչային գիտության բաժին և հավասար ներդրումով:
3 ընտրովի վիճակի տիեզերական մոդելներ և 3.1 մոտիվացիա. ընտրությունը որպես սեղմման միջոց
3.2 SSM-ների բարելավում ընտրությամբ
3.3 Ընտրովի SSM-ների արդյունավետ իրականացում
3.4 Պարզեցված SSM ճարտարապետություն
3.5 Ընտրության մեխանիզմների հատկությունները
3.6 Լրացուցիչ մոդելի մանրամասներ
4 Էմպիրիկ գնահատում և 4.1 Սինթետիկ առաջադրանքներ
4.4 Աուդիո մոդելավորում և գեներացիա
4.5 Արագության և հիշողության չափորոշիչներ
Քննարկում. Ընտրության մեխանիզմ
D Սարքավորումների մասին տեղեկացված ալգորիթմ ընտրովի SSM-ների համար
E Փորձարարական մանրամասներ և լրացուցիչ արդյունքներ
Հիմնադրամի մոդելները, որոնք այժմ ապահովում են խորը ուսուցման հետաքրքիր հավելվածների մեծ մասը, գրեթե համընդհանուր հիմնված են Տրանսֆորմատորի ճարտարապետության և դրա հիմնական ուշադրության մոդուլի վրա: Շատ ենթակվադրատական ժամանակի ճարտարապետություններ, ինչպիսիք են գծային ուշադրությունը, փակ կոնվոլյուցիան և կրկնվող մոդելները և կառուցվածքային վիճակի տարածության մոդելները (SSMs), մշակվել են երկար հաջորդականությունների վրա տրանսֆորմատորների հաշվողական անարդյունավետությունը լուծելու համար, բայց դրանք այնքան լավ չեն կատարել, որքան ուշադրությունը կարևոր եղանակների վրա, ինչպիսիք են. որպես լեզու։ Մենք բացահայտում ենք, որ նման մոդելների հիմնական թույլ կողմը բովանդակության վրա հիմնված պատճառաբանություն իրականացնելու և մի շարք բարելավումներ կատարելու անկարողությունն է: Նախ, պարզապես թույլ տալով, որ SSM պարամետրերը լինեն մուտքագրման գործառույթներ, հասցեագրում է դրանց թուլությունը դիսկրետ եղանակներով՝ թույլ տալով մոդելին ընտրողաբար տարածել կամ մոռանալ տեղեկատվությունը հաջորդականության երկարության չափման երկայնքով՝ կախված ընթացիկ նշանից: Երկրորդ, թեև այս փոփոխությունը կանխում է արդյունավետ ոլորումների օգտագործումը, մենք նախագծում ենք ապարատային տեղյակ զուգահեռ ալգորիթմ պարբերական ռեժիմում: Մենք ինտեգրում ենք այս ընտրովի SSM-ները պարզեցված ծայրից ծայր նեյրոնային ցանցի ճարտարապետության մեջ՝ առանց ուշադրության կամ նույնիսկ MLP բլոկների (Mamba): Mamba-ն վայելում է արագ եզրակացություն (5× ավելի բարձր թողունակություն, քան տրանսֆորմատորները) և գծային մասշտաբավորումը հաջորդականության երկարությամբ, և դրա կատարումը բարելավվում է իրական տվյալների վրա մինչև միլիոն երկարությամբ հաջորդականություններ: Որպես ընդհանուր հաջորդականության մոդելի ողնաշար, Mamba-ն ձեռք է բերում գերժամանակակից կատարողականություն մի քանի եղանակներով, ինչպիսիք են լեզուն, ձայնը և գենոմիկան: Լեզուների մոդելավորման հարցում մեր Mamba-3B մոդելը գերազանցում է նույն չափի տրանսֆորմատորներին և համընկնում է իր չափի երկու անգամ ավելի մեծ տրանսֆորմատորների հետ՝ և՛ նախնական մարզման, և՛ ներքևի գնահատման ժամանակ:
Հիմնադրամի մոդելները (FM) կամ խոշոր մոդելները, որոնք նախապես պատրաստված են զանգվածային տվյալների վրա, այնուհետև հարմարեցվել են ներքևի առաջադրանքների համար, հայտնվել են որպես ժամանակակից մեքենայական ուսուցման արդյունավետ պարադիգմ: Այս FM-ների ողնաշարը հաճախ հաջորդական մոդելներ են, որոնք գործում են մուտքերի կամայական հաջորդականությունների վրա տարբեր տիրույթներից, ինչպիսիք են լեզուն, պատկերները, խոսքը, ձայնը, ժամանակային շարքերը և գենոմիկան (Brown et al. 2020; Dosovitskiy et al. 2020; Իսմայիլ Ֆավազ և այլք 2019 թ. 2023; Sutskever, Vinyals և Quoc V Le 2014): Թեև այս հայեցակարգը ագնոստիկ է մոդելային ճարտարապետության որոշակի ընտրության համար, ժամանակակից FM-ները հիմնականում հիմնված են մեկ տեսակի հաջորդական մոդելի վրա՝ տրանսֆորմատոր (Vaswani et al. 2017) և դրա հիմնական ուշադրության շերտը (Bahdanau, Cho, and Bengio 2015): Ինքն ուշադրության արդյունավետությունը վերագրվում է համատեքստի պատուհանի մեջ տեղեկատվությունը խիտ ուղղորդելու նրա ունակությանը, ինչը թույլ է տալիս մոդելավորել բարդ տվյալներ: Այնուամենայնիվ, այս հատկությունը բերում է հիմնարար թերություններ. վերջավոր պատուհանից դուրս որևէ բան մոդելավորելու անկարողություն և պատուհանի երկարության նկատմամբ քառակուսի մասշտաբավորում: Հետազոտությունների ահռելի զանգված է հայտնվել այս թերությունները հաղթահարելու համար ուշադրության ավելի արդյունավետ տարբերակների վերաբերյալ (Tay, Dehghani, Bahri, et al. 2022), բայց հաճախ հենց այն հատկությունների հաշվին, որոնք դարձնում են այն արդյունավետ: Առայժմ այս տարբերակներից և ոչ մեկը չի ցուցադրվել էմպիրիկորեն արդյունավետ բոլոր տիրույթների մասշտաբով:
Վերջերս կառուցվածքային վիճակի տիեզերական հաջորդականության մոդելները (SSMs) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) հայտնվել են որպես հաջորդականության մոդելավորման ճարտարապետությունների խոստումնալից դաս։ Այս մոդելները կարող են մեկնաբանվել որպես կրկնվող նեյրոնային ցանցերի (RNN) և կոնվոլյուցիոն նեյրոնային ցանցերի (CNNs) համադրություն՝ ներշնչված դասական վիճակի տիեզերական մոդելներից (Kalman 1960): Մոդելների այս դասը կարող է շատ արդյունավետ հաշվարկվել որպես կրկնություն կամ կոնվուլցիա՝ հաջորդականության երկարության գծային կամ մոտ գծային մասշտաբով: Բացի այդ, նրանք ունեն սկզբունքային մեխանիզմներ երկարաժամկետ կախվածության մոդելավորման համար (Gu, Dao, et al. 2020) տվյալների որոշակի եղանակներում և գերակշռում են այնպիսի չափանիշների, ինչպիսին է Long Range Arena-ն (Tay, Dehghani, Abnar, et al. 2021): SSM-ների բազմաթիվ համեր (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington և Linderman 2023) հաջողակ են եղել տիրույթներում ներառում է շարունակական ազդանշանային տվյալներ, ինչպիսիք են ձայնը և տեսողությունը (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta և Cui 2023): Այնուամենայնիվ, դրանք ավելի քիչ արդյունավետ են եղել դիսկրետ և տեղեկատվական խիտ տվյալների մոդելավորման հարցում, ինչպիսին է տեքստը:
Մենք առաջարկում ենք ընտրովի վիճակի տարածության մոդելների նոր դաս, որը բարելավում է մի քանի առանցքների վրա նախորդ աշխատանքը՝ հասնելու տրանսֆորմատորների մոդելավորման հզորությանը, իսկ հաջորդականության երկարությամբ գծային մասշտաբով:
Ընտրության մեխանիզմ. Նախ, մենք բացահայտում ենք նախորդ մոդելների հիմնական սահմանափակումը. տվյալների մուտքագրումից կախված եղանակով արդյունավետ ընտրելու ունակությունը (այսինքն՝ կենտրոնանալ կամ անտեսել որոշակի մուտքային տվյալները): Հիմնվելով ինտուիցիայի վրա՝ հիմնված կարևոր սինթետիկ առաջադրանքների վրա, ինչպիսիք են ընտրովի պատճենը և ինդուկցիոն գլուխները, մենք նախագծում ենք ընտրության պարզ մեխանիզմ՝ պարամետրացնելով SSM-ի պարամետրերը՝ հիմնված մուտքագրման վրա: Սա թույլ է տալիս մոդելին զտել անհամապատասխան տեղեկատվությունը և անորոշ ժամանակով հիշել համապատասխան տեղեկատվությունը:
Սարքավորումների մասին տեղեկացված ալգորիթմ. Այս պարզ փոփոխությունը տեխնիկական մարտահրավեր է ստեղծում մոդելի հաշվարկման համար. Փաստորեն, SSM-ների բոլոր նախկին մոդելները պետք է լինեն ժամանակի և մուտքագրման անփոփոխ, որպեսզի լինեն հաշվողական արդյունավետ: Մենք դա հաղթահարում ենք ապարատային իրազեկ ալգորիթմի միջոցով, որը կրկնում է մոդելը սկանավորման միջոցով, այլ ոչ թե ոլորման, բայց չի իրականացնում ընդլայնված վիճակը՝ խուսափելու համար IO մուտքից GPU հիշողության հիերարխիայի տարբեր մակարդակների միջև: Ստացված իրականացումն ավելի արագ է, քան նախորդ մեթոդները տեսականորեն (գծային մասշտաբում հաջորդականության երկարությամբ՝ համեմատած կեղծ գծային բոլոր կոնվուլյացիայի վրա հիմնված SSM-ների համար), և ժամանակակից սարքավորումների վրա (մինչև 3× ավելի արագ A100 GPU-ներում):
Ճարտարապետություն . Մենք պարզեցնում ենք նախորդ խորքային հաջորդականության մոդելների ճարտարապետությունները՝ համատեղելով նախկին SSM ճարտարապետությունների նախագծումը (Dao, Fu, Saab, et al. 2023) տրանսֆորմատորների MLP բլոկի հետ մեկ բլոկի մեջ, ինչը հանգեցնում է պարզ և միատարր ճարտարապետական դիզայնի (Mamba) ներառելով: ընտրովի պետական տարածքներ.
Ընտրովի SSM-ները և, որպես ընդլայնման, Mamba-ի ճարտարապետությունը, լիովին կրկնվող մոդելներ են առանցքային հատկություններով, որոնք դրանք հարմար են դարձնում որպես հաջորդականության վրա գործող ընդհանուր հիմքի մոդելների հիմք: (i) Բարձր որակ. ընտրողականությունը տալիս է ուժեղ արդյունավետություն այնպիսի խիտ եղանակների վրա, ինչպիսիք են լեզուն և գենոմիկան: (ii) Արագ ուսուցում և եզրակացություն. հաշվարկը և հիշողությունը դասավորվում են գծային հաջորդականության երկարությամբ մարզումների ընթացքում, և մոդելի ինքնառեգեսիվ շրջադարձը եզրակացության ընթացքում պահանջում է միայն հաստատուն ժամանակ յուրաքանչյուր քայլի համար, քանի որ այն չի պահանջում նախորդ տարրերի քեշ: (iii) Երկար համատեքստ. որակը և արդյունավետությունը միասին բերում են կատարողականի բարելավում իրական տվյալների վրա մինչև 1M հաջորդականության երկարությունը:
Մենք էմպիրիկորեն հաստատում ենք Մամբայի ներուժը որպես ընդհանուր հաջորդականության FM ողնաշար, ինչպես նախավարժանքի որակի, այնպես էլ տիրույթին հատուկ առաջադրանքների կատարման մեջ, մի քանի տեսակի եղանակների և պարամետրերի վրա.
• Սինթետիկ. Կարևոր սինթետիկ առաջադրանքների դեպքում, ինչպիսիք են պատճենահանման և ինդուկցիոն գլուխները, որոնք առաջարկվել են որպես հիմնական լեզվական մոդելների համար, Mamba-ն ոչ միայն հեշտությամբ լուծում է դրանք, այլև կարող է էքստրապոլացնել լուծումները անորոշ երկարությամբ (>1M նշան):
• Աուդիո և գենոմիկա: Mamba-ն գերազանցում է նախկին ժամանակակից մոդելները, ինչպիսիք են SaShiMi-ը, Hyena-ն և Transformers-ը աուդիո ալիքների և ԴՆԹ-ի հաջորդականությունների մոդելավորման հարցում, ինչպես նախավարժանքի որակի, այնպես էլ ներքևի չափումների մեջ (օրինակ՝ կրճատելով FID-ը դժվարին խոսքի ստեղծման տվյալների բազայի կեսից ավելին): ). Երկու պարամետրերում էլ դրա կատարումը բարելավվում է ավելի երկար համատեքստում մինչև միլիոն երկարությամբ հաջորդականություններ:
• Լեզվի մոդելավորում. Mamba-ն գծային ժամանակի հաջորդականության առաջին մոդելն է, որն իսկապես հասնում է տրանսֆորմատորի որակի կատարման, ինչպես նախավարժանքների տարակուսանքների, այնպես էլ ներքևում գտնվող գնահատումների ժամանակ: Մինչև 1B պարամետրերի մասշտաբման օրենքներով մենք ցույց ենք տալիս, որ Mamba-ն գերազանցում է բազային գծերի մեծ շարքի կատարողականը, ներառյալ շատ ուժեղ ժամանակակից տրանսֆորմատորների ուսուցման բաղադրատոմսերը, որոնք հիմնված են LLaMa-ի վրա (Touvron et al. 2023): Մեր Mamba լեզվի մոդելն ունի 5× սերնդի թողունակություն՝ համեմատած նույն չափի տրանսֆորմատորների հետ, և Mamba-3B-ի որակը համապատասխանում է իր չափի երկու անգամ ավելի տրանսֆորմատորների որակին (օրինակ՝ 4 կետով ավելի բարձր, քան առողջ դատողությունը՝ համեմատած Pythia-3B-ի հետ և նույնիսկ գերազանցում է Pythia-7B-ն: ).
Այս փաստաթուղթը հասանելի է arxiv-ում CC BY 4.0 DEED լիցենզիայի ներքո: