paint-brush
Veliki jezični modeli temeljeni na sidrupo@anchoring
400 čitanja
400 čitanja

Veliki jezični modeli temeljeni na sidru

po Anchoring4m2024/10/10
Read on Terminal Reader

Predugo; Čitati

Ova studija predstavlja velike jezične modele (AnLLM) temeljene na sidrima, koji koriste inovativnu mrežu za samopažnju temeljenu na sidrima (AnSAN) za komprimiranje informacija o nizu u token sidra. Ovaj pristup značajno smanjuje veličinu predmemorije ključeva/vrijednosti i poboljšava učinkovitost zaključivanja, postižući smanjenje predmemorije do 99% i 3,5x bržu obradu uz minimalan kompromis točnosti. AnLLM-ovi nude napredak u optimizaciji memorije za modele jezika velikih razmjera.
featured image - Veliki jezični modeli temeljeni na sidru
Anchoring HackerNoon profile picture
0-item

Autori:

(1) Jianhui Pang, sa Sveučilišta Macau, a posao je obavljen kada su Jianhui Pang i Fanghua Ye stažirali u Tencent AI Labu ([email protected]);

(2) Fanghua Ye, Sveučilišni koledž London, a posao je obavljen kada su Jianhui Pang i Fanghua Ye stažirali u Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Sveučilište Macau;

(4) Longyue Wang, Tencent AI Lab i odgovarajući autor.

Tablica veza

Sažetak i 1 Uvod

2 Povezano djelo

3 velika jezična modela temeljena na sidru

3.1 Pozadina

3.2 Mreže samousmjeravanja temeljene na sidru

3.3 Zaključivanje na temelju sidra

4 Eksperimenti i 4.1 Naša implementacija

4.2 Podaci i postupak obuke

4.3 Evaluacija

5 rezultata

6 Analiza

7 Zaključak, ograničenja, etička izjava i reference


Više eksperimentalnih rezultata

B Postavke podataka

Sažetak

Veliki jezični modeli (LLM) pretežno koriste transformatorske arhitekture samo za dekoder, zahtijevajući zadržavanje informacija o ključevima/vrijednostima za povijesne tokene kako bi se pružile kontekstualne informacije i izbjeglo suvišno izračunavanje. Međutim, značajna veličina i volumen parametara ovih LLM-ova zahtijevaju veliku GPU memoriju. Ovaj zahtjev za memorijom raste s duljinom ulaznog teksta, što dovodi do hitne potrebe za učinkovitijim metodama pohrane i obrade informacija. Ova studija predstavlja LLM-ove temeljene na sidrima (AnLLMs), koji koriste inovativnu mrežu samopažnje temeljenu na sidrima (AnSAN) i također strategiju zaključivanja temeljenu na sidrima. Ovaj pristup omogućuje LLM-ovima da komprimiraju informacije o nizu u sidreni token, smanjujući predmemoriju ključeva/vrijednosti i poboljšavajući učinkovitost zaključivanja. Eksperimenti na referentnim vrijednostima za odgovaranje na pitanja otkrivaju da AnLLM-ovi održavaju slične razine točnosti dok postižu smanjenje predmemorije ključeva/vrijednosti do 99% i do 3,5 puta brže zaključivanje. Unatoč manjem kompromisu u točnosti, značajna poboljšanja AnLLM-ova koji koriste AnSAN tehniku u korištenju resursa i računalne učinkovitosti naglašavaju njihov potencijal za praktične primjene LLM-a.

1 Uvod

Veliki jezični modeli (LLM) primarno koriste transformatorske arhitekture samo za dekodere, koje zahtijevaju predmemoriranje informacija o ključevima/vrijednostima za povijesne tokene tijekom auto-regresivnog zaključivanja kako bi se pružile kontekstualne informacije i izbjeglo redundantno izračunavanje (Wei et al., 2022; Touvron et al. , 2023a; OpenAI, 2023; Međutim, zbog njihove ogromne veličine i velikog broja parametara, za učitavanje je potrebna znatna količina GPU memorije. Nadalje, kao duljina


Slika 1: Predmemorije ključeva/vrijednosti i naš omjer ubrzanja zaključivanja u zadacima OBQA, PIQA i BoolQ s demonstracijama u pet koraka. Trake označavaju predmemoriju ključeva/vrijednosti i duljinu teksta, dok krivulja predstavlja omjer ubrzanja zaključivanja. Kako se duljina teksta povećava, naša metoda pokazuje impresivno smanjenje do 99% u predmemoriji ključeva/vrijednosti u usporedbi s konvencionalnim metodama. Štoviše, predmemoriranjem tekstova prefiksa poboljšali smo učinkovitost zaključivanja za faktor 3,5 u usporedbi sa zaključivanjem bez predmemoriranja.


ulaznog teksta raste, pohranjivanje predmemorija ključeva/vrijednosti zahtijeva sve više i više GPU memorije, što se vidi u učenju u kontekstu, složenim uputama i proširenim razgovorima (Dong et al., 2022; Jiang et al., 2023; Wang et al. , 2023), što nije pogodno za scenarije s ograničenim računalnim resursima. Alternativni pristup uključuje ponovno izračunavanje ovih opsežnih inputa, što, međutim, rezultira povećanim vremenskim opterećenjem. Stoga ova studija ima za cilj smanjiti zahtjeve za pohranom za predmemorije ključeva/vrijednosti tijekom faze zaključivanja LLM-ova, poboljšavajući učinkovitost memorije i, posljedično, ubrzavajući brzinu zaključivanja.


U nedavnoj studiji, Wang i sur. (2023) pokazuju da riječi oznake u demonstracijama prefiksa mogu djelovati kao sidra tijekom zaključivanja, pružajući učinkovit pristup kompresije konteksta za poboljšanje učinkovitosti zaključivanja u učenju u kontekstu. Međutim, u praktičnim primjenama, svi unosi prefiksa ili demonstracije ne sadrže riječi oznake prikladne za komprimiranje informacija, što oslanjanje na riječi oznake čini manje univerzalnim pristupom za kompresiju tekstualnih informacija. Nadalje, Pang et al. (2024) primjećuju da LLM-i imaju tendenciju obraćati pažnju na samo nekoliko, ali dosljednih, prefiksnih tokena tijekom zaključivanja. Međutim, specifični tokeni koji se koriste često su nepredvidivi i nekontrolirani. Ova zapažanja pokreću intrigantno pitanje: sadrže li tekstovi na prirodnom jeziku uporišne točke koje komprimiraju ukupne semantičke informacije sekvenci? U tom kontekstu, prethodne studije o ugrađivanju sekvenci pokazale su da skriveno stanje posebnog tokena u modelima neuronskih mreža može enkapsulirati semantičke informacije (Baudiš i sur., 2016.; Devlin i sur., 2018.). Nadalje, suvremeni LLM tipično koriste mehanizam kauzalne samopažnje tijekom faze obuke i zaključivanja (Touvron et al., 2023a,b), prateći svaki prethodni token. To sugerira da bi konačni token u nizu mogao biti prikladniji da služi kao prirodna točka kompresije informacija u usporedbi s drugim tokenima, jer ne mogu promatrati buduće tokene. Stoga je metodički pristup koji identificira i iskorištava tokene sidra sekvence na pouzdan i kontroliran način bitan za komprimiranje informacija o sekvenci, učinkovito smanjenje predmemorije ključeva/vrijednosti i poboljšanje učinkovitosti zaključivanja za LLM.


U tu svrhu predlažemo nove modele velikih jezika (AnLLM) koji se temelje na sidrima , opremljene inovativnom mrežom samopažnje koja se temelji na sidrima (AnSAN) i strategijom zaključivanja na temelju sidra. AnSAN je osmišljen kako bi natjerao modele da komprimiraju informacije o nizu u token sidra (posljednji token u našoj implementaciji) tijekom procesa obuke, uz pomoć maski pažnje temeljenih na sidru. Tijekom zaključivanja, strategija zaključivanja temeljena na sidrištu zadržava predmemoriju ključeva/vrijednosti sidrenih tokena, koji su agregirali cjelokupne informacije o nizu, i odbacuje one nesidrenih tokena, čime se smanjuju zahtjevi za memorijom. Konkretno, maske pažnje temeljene na sidrima za AnSAN imaju dva cilja: 1) osigurati da se tokeni sidra obraćaju isključivo na tokene unutar iste sekvence, sprječavajući pozornost na druge sekvence, i 2) usmjeriti pozornost nesidrenih tokena na prethodna sidra sekvence , blokirajući druge neusidrene tokene iz prethodnih nizova. Važno je spomenuti da je tehnika sidrene pažnje slična principima koji leže u osnovi oskudne pozornosti (Child et al., 2019). Međutim, za razliku od postojećeg istraživanja koje posvećuje malo pozornosti produljenju duljine konteksta LLM-ova (Chen et al., 2023; Ratner et al., 2023), naša se metoda usredotočuje na kontinuirano prethodno uvježbavanje modela za komprimiranje informacija o slijedu u sidro znak.


Ovaj je dokument dostupan na arxiv pod licencom CC BY 4.0 DEED.