autoři:  (1) Jianhui Pang z University of Macau a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab (nlp2ct.pangjh3@gmail.com);  (2) Fanghua Ye, University College London a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab (fanghua.ye.19@ucl.ac.uk);  (3) Derek F. Wong, Univerzita v Macau;  (4) Longyue Wang, Tencent AI Lab a odpovídající autor.  Tabulka odkazů   Abstrakt a 1 Úvod   2 Související práce  3 Velké jazykové modely založené na kotvě   3.1 Pozadí   3.2 Sítě sebepozornosti založené na kotvě   3.3 Anchor-based Inference   4 Experimenty a 4.1 Naše implementace   4.2 Údaje a postup školení   4.3 Hodnocení   5 Výsledky   6 Analýza   7 Závěr, omezení, etické prohlášení a odkazy   Další experimentální výsledky   B Nastavení dat  Abstraktní  Velké jazykové modely (LLM) převážně využívají pouze dekodérové transformátorové architektury, což vyžaduje uchování informací o klíčích/hodnotách pro historické tokeny, aby poskytovaly kontextové informace a vyhnuly se nadbytečným výpočtům. Značná velikost a objem parametrů těchto LLM však vyžadují masivní paměť GPU. Tato paměťová náročnost se zvyšuje s délkou vstupního textu, což vede k naléhavé potřebě efektivnějších metod ukládání a zpracování informací. Tato studie představuje Anchor-based LLMs (AnLLMs), které využívají inovativní samopozornou síť založenou na kotvě (AnSAN) a také inferenční strategii založenou na kotvě. Tento přístup umožňuje LLM komprimovat sekvenční informace do kotevního tokenu, čímž se snižuje mezipaměť klíčů/hodnot a zvyšuje se účinnost odvození. Experimenty s benchmarky odpovědí na otázky odhalují, že AnLLM si udržují podobné úrovně přesnosti, přičemž dosahují až 99% snížení mezipaměti klíčů/hodnot a až 3,5krát rychlejšího vyvozování. Navzdory menšímu kompromisu v přesnosti podtrhují podstatná vylepšení AnLLM využívající techniku AnSAN ve využití zdrojů a výpočetní účinnosti jejich potenciál pro praktické aplikace LLM.  1 Úvod  Velké jazykové modely (LLM) primárně využívají pouze dekodérové transformátorové architektury, které vyžadují ukládání informací o klíčích/hodnotách do mezipaměti pro historické tokeny během auto-regresivní inference, aby poskytly kontextové informace a vyhnuly se redundantním výpočtům (Wei et al., 2022; Touvron et al. 2023a, 2023, Touvron a kol., 2023b). Vzhledem k jejich obrovské velikosti a vysokému počtu parametrů je však pro načítání vyžadováno značné množství paměti GPU. Navíc jako délka   vstupního textu roste, ukládání klíčů/hodnot mezipaměti vyžaduje stále více paměti GPU, jak dokazují kontextové učení, složité instrukce a rozšířené konverzace (Dong a kol., 2022; Jiang a kol., 2023; Wang a kol. , 2023), což není příznivé pro scénáře s omezenými výpočetními zdroji. Alternativní přístup znamená přepočítání těchto rozsáhlých vstupů, což však vede ke zvýšení časové režie. Tato studie si proto klade za cíl  snížit nároky na úložiště pro mezipaměti klíčů/hodnot během inferenční fáze LLM, zlepšit efektivitu paměti a následně také zrychlit rychlost inference.  V nedávné studii Wang a kol. (2023) demonstrují, že popisková slova v předponových demonstracích mohou fungovat jako kotvy během vyvozování, poskytující efektivní přístup komprese kontextu pro zlepšení efektivity vyvozování v kontextu učení. V praktických aplikacích však ne všechny předponové vstupy nebo ukázky obsahují popisková slova vhodná pro kompresi informací, takže spoléhání na popisková slova je méně univerzální přístup pro kompresi textových informací. Kromě toho Pang a kol. (2024) pozorují, že LLM mají tendenci věnovat se pouze několika, přesto konzistentním, předponovým tokenům během inference. Konkrétní používané tokeny jsou však často nepředvídatelné a nekontrolovatelné. Tato pozorování vyvolávají zajímavou otázku: obsahují texty v přirozeném jazyce kotevní body, které komprimují celkovou sémantickou informaci sekvencí? V této souvislosti předchozí studie o vkládání sekvencí ukázaly, že skrytý stav speciálního tokenu v modelech neuronové sítě může zapouzdřit sémantickou informaci (Baudiš et al., 2016; Devlin et al., 2018). Současné LLM navíc typicky využívají mechanismus kauzální sebepozornosti během tréninkové i inferenční fáze (Touvron et al., 2023a,b), přičemž se účastní každého předchozího tokenu. To naznačuje, že konečný token v sekvenci může být vhodnější, aby sloužil jako přirozený bod komprimace informací ve srovnání s jinými tokeny, protože nemohou pozorovat budoucí tokeny. Proto je metodický přístup, který identifikuje a využívá tokeny ukotvení sekvencí spolehlivým a kontrolovatelným způsobem, nezbytný pro komprimaci sekvenčních informací, efektivní snížení mezipaměti klíčů/hodnot a zlepšení efektivity vyvozování pro LLM.  Za tímto účelem navrhujeme nové       založené na kotvách (AnLLMs), vybavené inovativní sítí sebepozorování založenou na kotvách   AnSAN) a strategií vyvozování založené na kotvách. AnSAN je navržen tak, aby přinutil modely komprimovat sekvenční informace do kotvícího tokenu (posledního tokenu v naší implementaci) během tréninkového procesu, s pomocí kotevních masek pozornosti. Během inference strategie inference založená na kotvě zachovává mezipaměti klíčů/hodnot kotevních tokenů, které agregovaly informace o celé sekvenci, a vyřazuje ty z nekotevních tokenů, čímž snižuje nároky na paměť. Masky pozornosti založené na ukotvení pro AnSAN konkrétně slouží dvěma cílům: 1) zajistit, aby se tokeny ukotvení věnovaly výhradně tokenům ve stejné sekvenci, čímž zabránily pozornosti jiným sekvencím, a 2) nasměrovat pozornost nekotevních tokenů na předchozí kotvy sekvencí. , blokuje ostatní nekotevní tokeny z předchozích sekvencí. Je pozoruhodné, že technika pozornosti založené na kotvě má podobnosti s principy, na nichž je založena řídká pozornost (Child et al., 2019). Avšak na rozdíl od stávajícího výzkumu, který využívá řídkou pozornost k prodloužení délky kontextu LLM (Chen et al., 2023; Ratner et al., 2023), se naše metoda zaměřuje na neustálé předtrénování modelu pro komprimaci sekvenční informace do kotvy. žeton. modely velkého jazyka (  Tento dokument je   pod licencí CC BY 4.0 DEED. dostupný na arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

Tento zvuk je produkován v původním jazyce příběhu!

Velké jazykové modely založené na kotvě

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps