Waandishi:
(1) Jianhui Pang, kutoka Chuo Kikuu cha Macau, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);
(2) Fanghua Ye, Chuo Kikuu cha London, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Chuo Kikuu cha Macau;
(4) Longyue Wang, Tencent AI Lab, na mwandishi sambamba.
Miundo 3 ya Lugha Kubwa yenye msingi wa Nanga
3.2 Mitandao ya Kujizingatia yenye Anchor
3.3 Maelekezo yenye msingi wa Nanga
4 Majaribio na 4.1 Utekelezaji Wetu
4.2 Utaratibu wa Takwimu na Mafunzo
7 Hitimisho, Mapungufu, Taarifa ya Maadili, na Marejeleo
Miundo mikubwa ya lugha (LLMs) hutumia usanifu wa vibadilishaji vya dekoda pekee, hivyo kulazimisha uhifadhi wa maelezo ya funguo/thamani kwa tokeni za kihistoria ili kutoa maelezo ya muktadha na kuepuka ukokotoaji usiohitajika. Walakini, saizi kubwa na kiwango cha kigezo cha LLM hizi kinahitaji kumbukumbu kubwa ya GPU. Hitaji hili la kumbukumbu huongezeka kwa urefu wa maandishi ya ingizo, na hivyo kusababisha hitaji la haraka la mbinu bora zaidi za kuhifadhi na kuchakata habari. Utafiti huu unatanguliza LLMs zenye msingi wa Anchor (AnLLMs), ambazo hutumia mtandao bunifu wa kujizingatia (AnSAN) na pia mkakati wa uelekezaji unaozingatia nanga. Mbinu hii huwezesha LLM kubana habari za mfuatano kwenye tokeni ya nanga, kupunguza kashe ya funguo/maadili na kuimarisha ufanisi wa uelekezaji. Majaribio ya vigezo vya kujibu maswali yanaonyesha kuwa AnLLMs hudumisha viwango sawa vya usahihi huku ikifikia hadi 99% ya funguo/thamani za kupunguza akiba na hadi makisio ya haraka mara 3.5. Licha ya maelewano madogo katika usahihi, maboresho makubwa ya AnLLM yanayotumia mbinu ya AnSAN katika matumizi ya rasilimali na ufanisi wa kimahesabu yanasisitiza uwezo wao wa matumizi ya LLM ya vitendo.
Miundo mikubwa ya lugha (LLMs) hutumia usanifu wa kibadilishaji cha dekoda pekee, ambayo hulazimu maelezo ya funguo/thamani za akiba kwa tokeni za kihistoria wakati wa urejeleaji wa kiotomatiki ili kutoa maelezo ya muktadha na kuepuka ukokotoaji usiohitajika (Wei et al., 2022; Touvron et al. , 2023a; OpenAI, 2023; Touvron et al., 2023b). Hata hivyo, kutokana na ukubwa wao mkubwa na hesabu ya juu ya vigezo, kiasi kikubwa cha kumbukumbu ya GPU inahitajika ili kupakia. Kwa kuongeza, kama urefu
ya maandishi ya ingizo hukua, kuhifadhi akiba ya funguo/thamani kunahitaji kumbukumbu zaidi na zaidi ya GPU, kama inavyothibitishwa katika ujifunzaji wa ndani ya muktadha, maagizo changamano, na mazungumzo marefu (Dong et al., 2022; Jiang et al., 2023; Wang et al. , 2023), ambayo haifai kwa hali na rasilimali chache za hesabu. Mbinu mbadala inajumuisha kuhesabu upya pembejeo hizi nyingi, ambazo, hata hivyo, husababisha kuongezeka kwa muda. Kwa hivyo, utafiti huu unalenga kupunguza mahitaji ya uhifadhi wa kache za funguo/thamani wakati wa awamu ya uelekezaji ya LLMs, kuboresha ufanisi wa kumbukumbu na, hivyo basi, kuongeza kasi ya uelekezaji pia.
Katika utafiti wa hivi karibuni, Wang et al. (2023) zinaonyesha kuwa maneno ya lebo katika maonyesho ya kiambishi awali yanaweza kufanya kazi kama nanga wakati wa makisio, ikitoa mbinu bora ya mbano wa muktadha ili kuboresha ufanisi wa uelekezaji katika ujifunzaji wa ndani ya muktadha. Hata hivyo, katika matumizi ya vitendo, si viambishi awali vyote au maonyesho yaliyo na maneno ya lebo yanafaa kwa ajili ya kubana habari, na kufanya utegemezi wa maneno ya lebo kuwa mkabala mdogo wa ukandamizaji wa taarifa ya maandishi. Kwa kuongeza, Pang et al. (2024) wanaona kuwa LLMs huzingatia ishara chache tu, lakini thabiti, za kiambishi awali wakati wa makisio. Walakini, ishara maalum zinazotumiwa mara nyingi hazitabiriki na haziwezi kudhibitiwa. Uchunguzi huu unazua swali la kustaajabisha: je, maandishi ya lugha asilia yana vidokezo ambavyo vinabana taarifa ya jumla ya semantiki ya mfuatano? Katika muktadha huu, tafiti za awali kuhusu upachikaji wa mfuatano zimeonyesha kuwa hali iliyofichwa ya ishara maalum katika miundo ya mtandao wa neva inaweza kujumuisha taarifa za kisemantiki (Baudiš et al., 2016; Devlin et al., 2018). Zaidi ya hayo, LLM za kisasa kwa kawaida hutumia utaratibu wa kujizingatia wakati wa awamu za mafunzo na maelekezo (Touvron et al., 2023a,b), kuhudhuria kila tokeni iliyotangulia. Hii inapendekeza kwamba tokeni ya mwisho katika mlolongo inaweza kufaa zaidi kutumika kama sehemu ya mgandamizo wa taarifa asilia ikilinganishwa na tokeni nyingine, kwani haziwezi kuchunguza tokeni za siku zijazo. Kwa hivyo, mbinu ya kitabibu inayobainisha na kutumia alama za nanga za mfuatano kwa njia inayotegemewa na inayoweza kudhibitiwa ni muhimu kwa kubana taarifa za mfuatano, kupunguza kwa ufanisi akiba ya funguo/thamani, na kuboresha ufanisi wa uelekezaji kwa LLMs.
Ili kufikia lengo hili, tunapendekeza riwaya A yenye msingi wa L arge L anguage M odels (AnLLMs), iliyo na mtandao bunifu wa kujizingatia (ANSAN) na mkakati wa uelekezaji unaozingatia nanga. AnSAN imeundwa ili kushurutisha vielelezo kubana maelezo ya mfuatano kwenye tokeni ya nanga (ishara ya mwisho katika utekelezaji wetu) wakati wa mchakato wa mafunzo, kwa usaidizi wa vinyago vya kuzingatia vilivyo na nanga. Wakati wa kukisia, mkakati wa uelekezaji unaotegemea nanga huhifadhi akiba za funguo/thamani za tokeni za nanga, ambazo zimejumlisha taarifa nzima ya mfuatano, na kutupa zile za tokeni zisizo na msingi, na hivyo kupunguza mahitaji ya kumbukumbu. Hasa, vinyago vya kuzingatia kwa kuzingatia nanga vya AnSAN vinatimiza malengo mawili: 1) kuhakikisha tokeni za nanga zinahudhuria tokeni ndani ya mlolongo huo pekee, kuzuia uzingatiaji wa mfuatano mwingine, na 2) kuelekeza usikivu wa ishara zisizo na nanga kwa nanga za mfuatano uliopita. , kuzuia tokeni zingine zisizo na nanga kutoka kwa mfuatano uliopita. Ni muhimu kukumbuka kuwa mbinu ya umakini unaotegemea nanga inafanana na kanuni zinazozingatia umakini mdogo (Mtoto et al., 2019). Walakini, tofauti na utafiti uliopo ambao unatumia umakini mdogo kupanua urefu wa muktadha wa LLMs (Chen et al., 2023; Ratner et al., 2023), mbinu yetu inazingatia kuendelea kutoa mafunzo ya awali ya modeli ili kubana habari ya mlolongo kwenye nanga. ishara.
Karatasi hii inapatikana kwenye arxiv chini ya leseni ya CC BY 4.0 DEED.