Авторлары:
(1) Цзянхуй Панг, Макао университетінен және Цзяньхуй Панг пен Фанхуа Йе Tencent AI зертханасында тағылымдамадан өту кезінде жұмыс жасалды ([email protected]);
(2) Фанхуа Йе, Лондон университеттік колледжі және Цзянхуй Панг пен Фанхуа Йе Tencent AI зертханасында тағылымдамадан өту кезінде жұмыс жасалды ([email protected]);
(3) Дерек Ф. Вонг, Макао университеті;
(4) Лонгюэ Ван, Tencent AI зертханасы және сәйкес автор.
3 Зәкірге негізделген үлкен тіл үлгілері
3.2 Зәкірге негізделген өзіндік назар аудару желілері
3.3 Анкорға негізделген қорытынды
4 Эксперимент және 4.1 Біздің енгізуіміз
4.2 Деректер және оқыту процедурасы
7 Қорытынды, шектеулер, этика туралы мәлімдеме және пайдаланылған әдебиеттер
Қосымша эксперимент нәтижелері
Үлкен тілдік модельдер (LLM) негізінен контекстік ақпаратты қамтамасыз ету және артық есептеулерді болдырмау үшін тарихи таңбалауыштар үшін кілттер/мәндер туралы ақпаратты сақтауды қажет ететін тек декодерлерге арналған трансформатор архитектурасын қолданады. Дегенмен, бұл LLM-дің айтарлықтай өлшемі мен параметр көлемі үлкен GPU жадын талап етеді. Бұл жадқа сұраныс енгізілген мәтіннің ұзақтығына қарай артады, бұл ақпаратты сақтау мен өңдеудің тиімді әдістерін шұғыл қажет етеді. Бұл зерттеу инновациялық зәкірге негізделген өзіндік назар аудару желісін (AnSAN) және сонымен қатар якорға негізделген қорытынды стратегиясын пайдаланатын Anchor негізіндегі LLMs (AnLLMs) ұсынады. Бұл тәсіл LLM-ге жүйелілік ақпаратын анкерлік таңбалауышқа сығуға мүмкіндік береді, кілттер/мәндер кэшін азайтады және қорытындының тиімділігін арттырады. Сұрақ-жауап эталондары бойынша эксперименттер AnLLM дәлдік деңгейлерін 99%-ға дейін кілттер/мәндер кэштерін азайтуға және 3,5 есеге дейін жылдамырақ қорытынды жасауға қол жеткізетінін көрсетеді. Дәлдіктегі шамалы ымыраға қарамастан, ресурстарды пайдалануда және есептеу тиімділігінде AnSAN әдісін қолданатын AnLLM-дің айтарлықтай жақсартулары олардың практикалық LLM қолданбалары үшін әлеуетін көрсетеді.
Үлкен тілдік модельдер (LLM) негізінен контекстік ақпаратты қамтамасыз ету және артық есептеулерді болдырмау үшін авто-регрессивті қорытынды кезінде тарихи таңбалауыштар үшін кілттерді/мәндерді кэштеуді қажет ететін тек декодерлерге арналған трансформатор архитектурасын пайдаланады (Wei және т.б., 2022; Touvron және т.б.). , 2023a; OpenAI, 2023; Touvron et al., 2023b). Дегенмен, олардың үлкен өлшемі мен жоғары параметрлер санына байланысты жүктеу үшін GPU жадының айтарлықтай көлемі қажет. Сонымен қатар, ұзындығы ретінде
Кіріс мәтіні өседі, кілттерді/мәндерді кэштерді сақтау GPU жадын көбірек қажет етеді, бұл контексттегі оқытуда, күрделі нұсқауларда және кеңейтілген сөйлесулерден көрінеді (Донг және т.б., 2022; Цзян және т.б., 2023; Ванг және т.б. , 2023), бұл шектеулі есептеу ресурстары бар сценарийлер үшін қолайлы емес. Балама тәсіл осы ауқымды кірістерді қайта есептеуді талап етеді, алайда бұл уақыттың үстеме шығындарының артуына әкеледі. Сондықтан, бұл зерттеу LLMs шығару кезеңінде кілттер/мәндер кэштеріне сақтау сұранысын азайтуға, жад тиімділігін арттыруға және, тиісінше, шығару жылдамдығын арттыруға бағытталған.
Жақында жүргізілген зерттеуде Ван және т.б. (2023) префикс демонстрацияларындағы белгі сөздері контексттегі оқытуда қорытындылау тиімділігін арттыру үшін тиімді контекстті қысу тәсілін қамтамасыз ете отырып, қорытынды жасау кезінде якорь ретінде әрекет ете алатынын көрсетеді. Дегенмен, практикалық қолданбаларда барлық префикс кірістері немесе көрсетілімдер ақпаратты қысу үшін жарамды жапсырма сөздерді қамтымайды, бұл белгі сөздеріне сенуді мәтіндік ақпаратты қысу үшін әмбебап тәсілге айналдырады. Сонымен қатар, Pang және т.б. (2024) LLM-лер қорытынды жасау кезінде бірнеше, бірақ тұрақты префикс таңбалауыштарына ғана қатысатынын байқайды. Дегенмен, пайдаланылатын арнайы белгілер жиі болжау мүмкін емес және басқарылмайды. Бұл бақылаулар қызықты сұрақ тудырады: табиғи тілдегі мәтіндерде тізбектердің жалпы семантикалық ақпаратын қысатын тірек нүктелері бар ма? Осы контекстте ретті ендіру бойынша алдыңғы зерттеулер нейрондық желі модельдеріндегі арнайы таңбалауыштың жасырын күйі семантикалық ақпаратты инкапсуляциялай алатындығын көрсетті (Baudiš et al., 2016; Devlin et al., 2018). Сонымен қатар, қазіргі заманғы LLM-лер әдетте оқу және қорытынды кезеңдерінде (Touvron және т.б., 2023a,b), әрбір алдыңғы таңбалауышқа қатыса отырып, себеп-салдарлық өзіне назар аудару механизмін пайдаланады. Бұл тізбектегі соңғы таңбалауыш басқа таңбалауыштармен салыстырғанда табиғи ақпаратты қысу нүктесі ретінде қызмет ету үшін жақсырақ болуы мүмкін екенін көрсетеді, өйткені олар болашақ таңбалауыштарды бақылай алмайды. Сондықтан, дәйектілік анкерлік таңбалауыштарын сенімді және басқарылатын түрде анықтайтын және пайдаланатын әдістемелік тәсіл реттілік туралы ақпаратты қысу, кілттер/мәндер кэштерін тиімді азайту және LLM үшін қорытынды тиімділігін арттыру үшін өте маңызды.
Осы мақсатта біз инновациялық зәкірге негізделген өзіндік назар аудару желісімен (AnSAN) және зәкірге негізделген қорытынды стратегиясымен жабдықталған жаңа A nchor-based L arge L anguage M odels (AnLLMs) романын ұсынамыз. AnSAN зәкірге негізделген зейін маскаларының көмегімен оқу процесі кезінде модельдерді дәйектілік туралы ақпаратты анкерлік таңбалауышқа (біздің іске асырудағы соңғы белгі) қысуға мәжбүрлеуге арналған. Қорытындылау кезінде якорьге негізделген қорытынды стратегиясы бүкіл реттілік ақпаратын жинақтаған анкерлік таңбалауыштардың кілттер/мәндер кэштерін сақтайды және анкерлік емес таңбалауыштарды алып тастайды, осылайша жад талаптарын азайтады. Атап айтқанда, AnSAN үшін зәкірге негізделген назар аудару маскалары екі мақсатқа қызмет етеді: 1) зәкірлік таңбалауыштардың басқа тізбектерге назар аударуына жол бермей, тек бір реттілік ішіндегі токендерге қатысуын қамтамасыз ету және 2) зәкірлік емес таңбалауыштардың назарын алдыңғы реттілік анкерлеріне бағыттау. , алдыңғы қатарлардан басқа анкерлік емес таңбалауыштарды блоктау. Бір қызығы, зәкірге негізделген зейін техникасы аз назар аударудың негізінде жатқан принциптерге ұқсастыққа ие (Child et al., 2019). Дегенмен, LLM контекстік ұзақтығын ұзартуға аз назар аударатын бар зерттеулерден айырмашылығы (Чен және басқалар, 2023; Ратнер және т.б., 2023), біздің әдісіміз дәйектілік туралы ақпаратты якорьге қысу үшін үлгіні үнемі алдын ала оқытуға бағытталған. жетон.