Таърихи нав

Моделҳои забони калон дар асоси лангар

аз ҷониби Anchoring4m2024/10/10

Хеле дароз; Хондан

Ин тадқиқот моделҳои калони забонро (AnLLMs) дар асоси лангар пешниҳод мекунад, ки дар он шабакаи инноватсионии худтаваҷҷӯҳӣ дар асоси Anchor (AnSAN) барои фишурдани иттилооти пайдарпай ба аломати лангар истифода мешавад. Ин равиш андозаи кэши калидҳо/арзишҳоро ба таври назаррас коҳиш медиҳад ва самаранокии хулосабарориро афзоиш дода, то 99% кам кардани кэш ва коркарди 3,5 маротиба тезтар бо созиши дақиқии ҳадди ақал ноил мегардад. AnLLMҳо пешрафтро дар оптимизатсияи хотира барои моделҳои миқёси калон пешниҳод мекунанд.

featured image - Моделҳои забони калон дар асоси лангар

Муаллифон:

(1) Jianhui Pang, аз Донишгоҳи Макао ва кор вақте анҷом дода шуд, ки Ҷянхуй Панг ва Фанхуа Йе дар лабораторияи Tencent AI таҷрибаомӯзӣ мекарданд ([email protected]);

(2) Фанхуа Йе, Коллеҷи Донишгоҳи Лондон ва кор вақте анҷом дода шуд, ки Ҷянҳуй Панг ва Фанхуа Йе дар лабораторияи Tencent AI таҷрибаомӯзӣ мекарданд ([email protected]);

(3) Дерек Ф. Вонг, Донишгоҳи Макао;

(4) Longyue Wang, Tencent AI Lab ва муаллифи мувофиқ.

Ҷадвали пайвандҳо

Реферат ва 1 муқаддима

2 Корҳои марбут

3 Моделҳои забони калон дар асоси лангар

3.1 Замина

3.2 Шабакаҳои ба лангар асосёфтаи худидоракунии таваҷҷӯҳ

3.3 Хулосаи ба лангар асосёфта

4 Таҷрибаҳо ва 4.1 Амалисозии мо

4.2 Маълумот ва тартиби таълим

4.3 Арзёбӣ

5 Натиҷаҳо

6 Таҳлил

7 Хулоса, Маҳдудиятҳо, Эъломияи ахлоқӣ ва истинодҳо

Натиҷаҳои таҷрибавии бештар

B Танзимоти маълумот

Реферат

Моделҳои забонҳои калон (LLM) асосан меъмории трансформатори танҳо декодерро истифода мебаранд, ки нигоҳдории иттилооти калидҳо/арзишҳоро барои токенҳои таърихӣ барои таъмини иттилооти контекстӣ ва пешгирӣ кардани ҳисобҳои зиёдатӣ талаб мекунанд. Аммо, андозаи назаррас ва ҳаҷми параметрҳои ин LLMҳо хотираи азими GPU-ро талаб мекунанд. Ин талабот ба хотира бо дарозии матни воридотӣ зиёд мешавад, ки боиси зарурати фаврии усулҳои самараноки нигоҳдорӣ ва коркарди иттилоот мегардад. Ин таҳқиқот LLM-ҳои асоси Anchor (AnLLMs)-ро муаррифӣ мекунад, ки шабакаи инноватсионии худтаваҷҷӯҳ ба лангар (AnSAN) ва инчунин стратегияи хулосабарории лангарро истифода мебаранд. Ин равиш ба LLM имкон медиҳад, ки иттилооти пайдарпайро ба аломати лангар фишурда, кэши калидҳо/арзишҳоро кам кунад ва самаранокии хулосабарориро баланд бардорад. Таҷрибаҳо оид ба меъёрҳои ҷавоб ба саволҳо нишон медиҳанд, ки AnLLMҳо сатҳи дақиқии шабеҳро нигоҳ медоранд ва дар ҳоле ки то 99% кам кардани кэши калидҳо/арзишҳо ва то 3,5 маротиба тезтар хулосабарорӣ мекунанд. Сарфи назар аз як созиши ночиз дар дақиқ, такмили назарраси AnLLMs, ки техникаи AnSAN-ро дар истифодаи захираҳо ва самаранокии ҳисоббарорӣ истифода мебаранд, потенсиали онҳоро барои барномаҳои амалии LLM таъкид мекунанд.

1 Муқаддима

Моделҳои забонҳои калон (LLM) пеш аз ҳама меъмории трансформатори танҳо декодерро истифода мебаранд, ки кэшкунии иттилооти калидҳо/арзишҳоро барои аломатҳои таърихӣ ҳангоми хулосаи худкоррегрессивӣ барои таъмини иттилооти контекстӣ ва пешгирӣ кардани ҳисобҳои зиёдатӣ талаб мекунанд (Wei et al., 2022; Touvron et al. , 2023a; OpenAI, 2023; Touvron et al., 2023b). Бо вуҷуди ин, аз сабаби андозаи азими онҳо ва миқдори зиёди параметрҳо, барои боркунӣ миқдори зиёди хотираи GPU лозим аст. Илова бар ин, ҳамчун дарозии

Матни вуруд афзоиш меёбад, нигоҳ доштани кэшҳои калидҳо/арзишҳо хотираи бештари GPU-ро талаб мекунад, ки инро дар омӯзиши контекстӣ, дастурҳои мураккаб ва гуфтугӯҳои васеъ нишон медиҳанд (Донг ва дигарон, 2022; Jiang et al., 2023; Ванг ва дигарон. , 2023), ки барои сенарияҳои дорои захираҳои ҳисоббарории маҳдуд мусоид нест. Равиши алтернативӣ аз нав ҳисоб кардани ин саҳмҳои васеъро дар бар мегирад, аммо ин боиси зиёд шудани хароҷоти вақт мегардад. Аз ин рӯ, ҳадафи ин тадқиқот коҳиш додани талабот ба нигоҳдорӣ ба кэшҳои калидҳо/арзишҳо дар марҳилаи хулосабарории LLMҳо, баланд бардоштани самаранокии хотира ва дар натиҷа, суръат бахшидан ба суръати хулосабарорӣ низ мебошад.

Дар як тадқиқоти охирин, Ванг ва дигарон. (2023) нишон медиҳад, ки калимаҳои нишона дар намоишҳои префикс метавонанд ҳангоми хулосабарорӣ ҳамчун лангар амал кунанд ва як равиши муассири фишурдани контекстро барои баланд бардоштани самаранокии хулоса дар омӯзиши контекст таъмин кунанд. Бо вуҷуди ин, дар барномаҳои амалӣ, на ҳама вуруд ё намоишҳои префикс дорои калимаҳои тамғакоғазӣ мебошанд, ки барои фишурдани иттилоот мувофиқанд ва ин такя ба калимаҳои тамғаро барои фишурдани иттилооти матнӣ муносибати камтар универсалӣ месозад. Илова бар ин, Панг ва дигарон. (2024) мушоҳида мекунанд, ки LLMҳо ҳангоми хулосабарорӣ танҳо ба чанд токенҳои пайваста, вале пайваста иштирок мекунанд. Аммо, аломатҳои мушаххасе, ки истифода мешаванд, аксар вақт пешгӯинашаванда ва идоранашавандаанд. Ин мушоҳидаҳо саволи ҷолиберо ба миён меоранд: оё матнҳои забони табиӣ дорои нуктаҳои лангар мебошанд, ки маълумоти умумии семантикии пайдарпайҳоро фишурда мекунанд? Дар ин замина, таҳқиқоти қаблӣ оид ба ҷойгиркунии пайдарпай нишон доданд, ки ҳолати пинҳонии аломати махсус дар моделҳои шабакаи нейрон метавонад иттилооти семантикиро фаро гирад (Baudiš et al., 2016; Devlin et al., 2018). Ғайр аз он, LLM-ҳои муосир маъмулан механизми худтаваҷҷӯҳии сабабӣ дар марҳилаҳои омӯзиш ва хулосабарориро истифода мебаранд (Touvron et al., 2023a,b), иштирок дар ҳар як аломати қаблӣ. Ин аз он шаҳодат медиҳад, ки аломати ниҳоӣ дар пайдарпаӣ метавонад дар муқоиса бо дигар нишонаҳо ҳамчун нуқтаи фишурдани иттилооти табиӣ беҳтар мувофиқ бошад, зеро онҳо аломатҳои ояндаро мушоҳида карда наметавонанд. Аз ин рӯ, як равиши методӣ, ки аломатҳои лангари пайдарпайро ба таври боэътимод ва идорашаванда муайян ва истифода мебарад, барои фишурдани иттилооти пайдарпай, самаранок кам кардани кэшҳои калидҳо/арзишҳо ва баланд бардоштани самаранокии хулосабарорӣ барои LLM муҳим аст.

Бо ин мақсад, мо романи Оделҳои L arge L anguage M (AnLLMs)-ро пешниҳод менамоем, ки бо шабакаи инноватсионии худтаваҷҷӯҳ ба лангар (AnSAN) ва стратегияи хулосабарорӣ дар асоси лангар муҷаҳҳаз шудаанд. AnSAN барои он тарҳрезӣ шудааст, ки моделҳоро маҷбур кунад, ки иттилооти пайдарпайро ба аломати лангар (охирин нишона дар татбиқи мо) дар ҷараёни таълим бо ёрии ниқобҳои таваҷҷӯҳ ба лангар фишурда кунанд. Ҳангоми хулосабарорӣ, стратегияи ба лангар асосёфта кэшҳои калидҳо/қиматҳои токенҳои лангарро, ки тамоми маълумоти пайдарпайро ҷамъ овардаанд, нигоҳ медорад ва токенҳои ғайридавлатиро мепартояд ва ба ин васила талаботи хотираро коҳиш медиҳад. Махсусан, ниқобҳои таваҷҷӯҳи ба лангар асосёфта барои AnSAN ду ҳадафро иҷро мекунанд: 1) таъмин кардани токенҳои лангар танҳо ба нишонаҳо дар як пайдарпай, пешгирӣ кардани таваҷҷӯҳ ба пайдарпайии дигар ва 2) равона кардани диққати аломатҳои ғайридавлатӣ ба лангари пайдарпайии қаблӣ. , бастани аломатҳои дигар аз пайдарпайҳои қаблӣ. Қобили зикр аст, ки техникаи таваҷҷӯҳи лангарӣ ба принсипҳое, ки таваҷҷӯҳи кам доранд, шабоҳат дорад (Чайлд ва дигарон, 2019). Аммо, бар хилофи таҳқиқоти мавҷуда, ки барои васеъ кардани дарозии контексти LLMҳо таваҷҷӯҳи камро истифода мебарад (Чен ва дигарон, 2023; Ратнер ва дигарон, 2023), усули мо ба омӯзиши пайвастаи модел барои фишурдани иттилооти пайдарпай ба лангар тамаркуз мекунад. нишона.