Autori:  (1) Jianhui Pang, sa Sveučilišta Macau, a posao je obavljen kada su Jianhui Pang i Fanghua Ye stažirali u Tencent AI Labu (nlp2ct.pangjh3@gmail.com);  (2) Fanghua Ye, Sveučilišni koledž London, a posao je obavljen kada su Jianhui Pang i Fanghua Ye stažirali u Tencent AI Lab (fanghua.ye.19@ucl.ac.uk);  (3) Derek F. Wong, Sveučilište Macau;  (4) Longyue Wang, Tencent AI Lab i odgovarajući autor.  Tablica veza   Sažetak i 1 Uvod   2 Povezano djelo  3 velika jezična modela temeljena na sidru   3.1 Pozadina   3.2 Mreže samousmjeravanja temeljene na sidru   3.3 Zaključivanje na temelju sidra   4 Eksperimenti i 4.1 Naša implementacija   4.2 Podaci i postupak obuke   4.3 Evaluacija   5 rezultata   6 Analiza   7 Zaključak, ograničenja, etička izjava i reference   Više eksperimentalnih rezultata   B Postavke podataka  Sažetak  Veliki jezični modeli (LLM) pretežno koriste transformatorske arhitekture samo za dekoder, zahtijevajući zadržavanje informacija o ključevima/vrijednostima za povijesne tokene kako bi se pružile kontekstualne informacije i izbjeglo suvišno izračunavanje. Međutim, značajna veličina i volumen parametara ovih LLM-ova zahtijevaju veliku GPU memoriju. Ovaj zahtjev za memorijom raste s duljinom ulaznog teksta, što dovodi do hitne potrebe za učinkovitijim metodama pohrane i obrade informacija. Ova studija predstavlja LLM-ove temeljene na sidrima (AnLLMs), koji koriste inovativnu mrežu samopažnje temeljenu na sidrima (AnSAN) i također strategiju zaključivanja temeljenu na sidrima. Ovaj pristup omogućuje LLM-ovima da komprimiraju informacije o nizu u sidreni token, smanjujući predmemoriju ključeva/vrijednosti i poboljšavajući učinkovitost zaključivanja. Eksperimenti na referentnim vrijednostima za odgovaranje na pitanja otkrivaju da AnLLM-ovi održavaju slične razine točnosti dok postižu smanjenje predmemorije ključeva/vrijednosti do 99% i do 3,5 puta brže zaključivanje. Unatoč manjem kompromisu u točnosti, značajna poboljšanja AnLLM-ova koji koriste AnSAN tehniku u korištenju resursa i računalne učinkovitosti naglašavaju njihov potencijal za praktične primjene LLM-a.  1 Uvod  Veliki jezični modeli (LLM) primarno koriste transformatorske arhitekture samo za dekodere, koje zahtijevaju predmemoriranje informacija o ključevima/vrijednostima za povijesne tokene tijekom auto-regresivnog zaključivanja kako bi se pružile kontekstualne informacije i izbjeglo redundantno izračunavanje (Wei et al., 2022; Touvron et al. , 2023a; OpenAI, 2023; Međutim, zbog njihove ogromne veličine i velikog broja parametara, za učitavanje je potrebna znatna količina GPU memorije. Nadalje, kao duljina   ulaznog teksta raste, pohranjivanje predmemorija ključeva/vrijednosti zahtijeva sve više i više GPU memorije, što se vidi u učenju u kontekstu, složenim uputama i proširenim razgovorima (Dong et al., 2022; Jiang et al., 2023; Wang et al. , 2023), što nije pogodno za scenarije s ograničenim računalnim resursima. Alternativni pristup uključuje ponovno izračunavanje ovih opsežnih inputa, što, međutim, rezultira povećanim vremenskim opterećenjem. Stoga ova studija ima za cilj  smanjiti zahtjeve za pohranom za predmemorije ključeva/vrijednosti tijekom faze zaključivanja LLM-ova, poboljšavajući učinkovitost memorije i, posljedično, ubrzavajući brzinu zaključivanja.  U nedavnoj studiji, Wang i sur. (2023) pokazuju da riječi oznake u demonstracijama prefiksa mogu djelovati kao sidra tijekom zaključivanja, pružajući učinkovit pristup kompresije konteksta za poboljšanje učinkovitosti zaključivanja u učenju u kontekstu. Međutim, u praktičnim primjenama, svi unosi prefiksa ili demonstracije ne sadrže riječi oznake prikladne za komprimiranje informacija, što oslanjanje na riječi oznake čini manje univerzalnim pristupom za kompresiju tekstualnih informacija. Nadalje, Pang et al. (2024) primjećuju da LLM-i imaju tendenciju obraćati pažnju na samo nekoliko, ali dosljednih, prefiksnih tokena tijekom zaključivanja. Međutim, specifični tokeni koji se koriste često su nepredvidivi i nekontrolirani. Ova zapažanja pokreću intrigantno pitanje: sadrže li tekstovi na prirodnom jeziku uporišne točke koje komprimiraju ukupne semantičke informacije sekvenci? U tom kontekstu, prethodne studije o ugrađivanju sekvenci pokazale su da skriveno stanje posebnog tokena u modelima neuronskih mreža može enkapsulirati semantičke informacije (Baudiš i sur., 2016.; Devlin i sur., 2018.). Nadalje, suvremeni LLM tipično koriste mehanizam kauzalne samopažnje tijekom faze obuke i zaključivanja (Touvron et al., 2023a,b), prateći svaki prethodni token. To sugerira da bi konačni token u nizu mogao biti prikladniji da služi kao prirodna točka kompresije informacija u usporedbi s drugim tokenima, jer ne mogu promatrati buduće tokene. Stoga je metodički pristup koji identificira i iskorištava tokene sidra sekvence na pouzdan i kontroliran način bitan za komprimiranje informacija o sekvenci, učinkovito smanjenje predmemorije ključeva/vrijednosti i poboljšanje učinkovitosti zaključivanja za LLM.  U tu svrhu predlažemo nove       (AnLLM) koji se temelje na   , opremljene inovativnom mrežom samopažnje koja se temelji na sidrima (AnSAN) i strategijom zaključivanja na temelju sidra. AnSAN je osmišljen kako bi natjerao modele da komprimiraju informacije o nizu u token sidra (posljednji token u našoj implementaciji) tijekom procesa obuke, uz pomoć maski pažnje temeljenih na sidru. Tijekom zaključivanja, strategija zaključivanja temeljena na sidrištu zadržava predmemoriju ključeva/vrijednosti sidrenih tokena, koji su agregirali cjelokupne informacije o nizu, i odbacuje one nesidrenih tokena, čime se smanjuju zahtjevi za memorijom. Konkretno, maske pažnje temeljene na sidrima za AnSAN imaju dva cilja: 1) osigurati da se tokeni sidra obraćaju isključivo na tokene unutar iste sekvence, sprječavajući pozornost na druge sekvence, i 2) usmjeriti pozornost nesidrenih tokena na prethodna sidra sekvence , blokirajući druge neusidrene tokene iz prethodnih nizova. Važno je spomenuti da je tehnika sidrene pažnje slična principima koji leže u osnovi oskudne pozornosti (Child et al., 2019). Međutim, za razliku od postojećeg istraživanja koje posvećuje malo pozornosti produljenju duljine konteksta LLM-ova (Chen et al., 2023; Ratner et al., 2023), naša se metoda usredotočuje na kontinuirano prethodno uvježbavanje modela za komprimiranje informacija o slijedu u sidro znak. modele velikih jezika sidrima  Ovaj je dokument   pod licencom CC BY 4.0 DEED. dostupan na arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

Ovaj zvuk je proizveden na izvornom jeziku priče!

Veliki jezični modeli temeljeni na sidru

About Author

KOMENTARI

VIJESI OZNAKE

OVAJ ČLANAK JE PREDSTAVLJEN U

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps