Autoriai:
(1) Jianhui Pang iš Makao universiteto ir darbas buvo atliktas, kai Jianhui Pang ir Fanghua Ye stažavosi Tencent AI Lab ([email protected]);
(2) Fanghua Ye, Londono universiteto koledžas, ir darbas buvo atliktas, kai Jianhui Pang ir Fanghua Ye stažavosi Tencent AI Lab ([email protected]);
(3) Derekas F. Wongas, Makao universitetas;
(4) Longyue Wang, Tencent AI Lab ir atitinkamas autorius.
3 Inkariniai didelių kalbų modeliai
3.2 Inkariniai dėmesio į save tinklai
4 eksperimentai ir 4.1 mūsų įgyvendinimas
7 Išvada, apribojimai, etikos pareiškimas ir nuorodos
Daugiau eksperimentinių rezultatų
Dideliuose kalbų modeliuose (LLM) dažniausiai naudojamos tik dekoderio transformatorių architektūros, todėl istoriniams žetonams reikia išsaugoti raktų / reikšmių informaciją, kad būtų galima pateikti kontekstinę informaciją ir išvengti perteklinio skaičiavimo. Tačiau dėl didelio šių LLM dydžio ir parametrų apimties reikia didžiulės GPU atminties. Šis atminties poreikis didėja didėjant įvesties teksto ilgiui, todėl skubiai reikia efektyvesnių informacijos saugojimo ir apdorojimo metodų. Šiame tyrime pristatomi inkaru pagrįsti LLM (AnLLM), kurie naudoja naujovišką inkaru pagrįstą savęs dėmesio tinklą (AnSAN) ir inkaru pagrįstą išvadų strategiją. Šis metodas leidžia LLM suspausti sekos informaciją į inkaro prieigos raktą, sumažinant raktų / reikšmių talpyklą ir padidinant išvadų efektyvumą. Eksperimentai su atsakymų į klausimus etalonu rodo, kad AnLLM išlaiko panašų tikslumo lygį, tuo pačiu sumažinant raktų / reikšmių talpyklą iki 99 % ir iki 3,5 karto greitesnes išvadas. Nepaisant nedidelio tikslumo kompromiso, esminiai AnLLM patobulinimai, naudojant AnSAN techniką išteklių panaudojimo ir skaičiavimo efektyvumo srityse, pabrėžia jų galimybes praktiškai pritaikyti LLM.
Didelių kalbų modeliai (LLM) pirmiausia naudoja tik dekoderio transformatorių architektūras, dėl kurių reikia saugoti istorinių žetonų raktų / reikšmių informaciją atliekant automatiškai regresuojančią išvadą, kad būtų pateikta kontekstinė informacija ir išvengta perteklinio skaičiavimo (Wei ir kt., 2022; Touvron ir kt. , 2023a; OpenAI, 2023; Touvron ir kt., 2023b). Tačiau dėl didžiulio jų dydžio ir didelio parametrų skaičiaus įkėlimui reikalingas didelis GPU atminties kiekis. Be to, kaip ilgis
įvesties teksto skaičius auga, raktų / reikšmių talpykloms saugoti reikia vis daugiau GPU atminties, kaip rodo mokymasis kontekste, sudėtingos instrukcijos ir išplėstiniai pokalbiai (Dong ir kt., 2022; Jiang ir kt., 2023; Wang ir kt. , 2023), o tai nėra palanki scenarijams su ribotais skaičiavimo ištekliais. Alternatyvus metodas apima šių didelių sąnaudų perskaičiavimą, tačiau tai padidina laiko sąnaudas. Todėl šiuo tyrimu siekiama sumažinti raktų / reikšmių talpyklų saugojimo poreikį LLM išvadų fazėje, pagerinant atminties efektyvumą ir, atitinkamai, pagreitinant išvadų greitį.
Neseniai atliktame tyrime Wang ir kt. (2023) rodo, kad etikečių žodžiai priešdėlių demonstracijose gali veikti kaip inkarai darant išvadas ir suteikia veiksmingą konteksto glaudinimo metodą, siekiant pagerinti išvadų efektyvumą mokantis kontekste. Tačiau praktikoje ne visose priešdėlių įvestėse ar demonstracijose yra etiketės žodžių, tinkamų informacijai suspausti, todėl pasikliauti etiketės žodžiais yra mažiau universalus būdas suspausti teksto informaciją. Be to, Pang ir kt. (2024) pastebi, kad LLM, darydami išvadas, atsižvelgia į tik kelis, tačiau nuoseklius, priešdėlio žetonus. Tačiau naudojami konkretūs žetonai dažnai yra nenuspėjami ir nekontroliuojami. Šie pastebėjimai kelia intriguojantį klausimą: ar natūralios kalbos tekstuose yra inkaro taškų, kurie suspaudžia bendrą sekų semantinę informaciją? Šiame kontekste ankstesni sekų įterpimo tyrimai parodė, kad paslėpta specialaus žetono būsena neuroninių tinklų modeliuose gali apimti semantinę informaciją (Baudiš ir kt., 2016; Devlin ir kt., 2018). Be to, šiuolaikiniai LLM paprastai naudoja priežastinį savęs dėmesio mechanizmą tiek mokymo, tiek išvados fazėse (Touvron ir kt., 2023a, b), dalyvaujant kiekviename ankstesniame žetone. Tai rodo, kad galutinis žetonas sekoje gali būti geriau pritaikytas kaip natūralus informacijos suspaudimo taškas, palyginti su kitais žetonais, nes jie negali stebėti būsimų žetonų. Todėl norint suspausti sekos informaciją, veiksmingai sumažinti raktų / reikšmių talpyklą ir pagerinti LLM išvadų efektyvumą, būtinas metodinis metodas, kuris patikimai ir kontroliuojamai identifikuoja ir išnaudoja sekos inkaro žetonus.
Šiuo tikslu siūlome naujus A nchor pagrindu pagrįstus L arge L Anguage M modelius (AnLLM), aprūpintus naujovišku inkaru pagrįstu savęs dėmesio tinklu (AnSAN) ir inkaru pagrįsta išvadų strategija. AnSAN sukurtas priversti modelius suspausti sekos informaciją į inkaro žetoną (paskutinį mūsų diegimo prieigos raktą) mokymo proceso metu, naudojant inkarines dėmesio kaukes. Atliekant išvadas, inkaru pagrįsta išvadų strategija išsaugo inkaro žetonų raktų / reikšmių talpyklas, kurios sukaupė visą sekos informaciją, ir atmeta neinkarinių žetonų raktus / reikšmes, taip sumažindama atminties poreikį. Tiksliau, AnSAN skirtos dėmesio kaukės tarnauja dviem tikslams: 1) užtikrinti, kad inkaro žetonai atitiktų tik tos pačios sekos žetonus, neleidžiant atkreipti dėmesį į kitas sekas, ir 2) nukreipti ne prierašo žetonų dėmesį į ankstesnes sekos inkarus. , blokuoja kitus ankstesnių sekų nepririšimo žetonus. Pastebėtina, kad inkaru pagrįsto dėmesio technika yra panaši į principus, kuriais grindžiamas negausus dėmesys (Child ir kt., 2019). Tačiau, skirtingai nuo esamų tyrimų, kuriuose skiriama nedaug dėmesio siekiant išplėsti LLM konteksto ilgį (Chen ir kt., 2023; Ratner ir kt., 2023), mūsų metodas sutelktas į nuolatinį modelio išankstinį mokymą, kad sekos informacija būtų suspausta į inkarą. žetonas.
Šis dokumentas yra prieinamas arxiv pagal CC BY 4.0 DEED licenciją.