ஆசிரியர்கள்:  (1) ஜியான்ஹூய் பாங், மக்காவ் பல்கலைக்கழகத்தைச் சேர்ந்தவர், ஜியான்ஹூய் பாங் மற்றும் ஃபங்ஹுவா யே ஆகியோர் டென்சென்ட் AI ஆய்வகத்தில் (nlp2ct.pangjh3@gmail.com) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;  (2) Fanghua Ye, University College London, மற்றும் Jianhui Pang மற்றும் Fanghua Ye ஆகியோர் Tencent AI ஆய்வகத்தில் (fanghua.ye.19@ucl.ac.uk) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;  (3) டெரெக் எஃப். வோங், மக்காவ் பல்கலைக்கழகம்;  (4) Longyue Wang, Tencent AI ஆய்வகம் மற்றும் தொடர்புடைய ஆசிரியர்.  இணைப்புகளின் அட்டவணை   சுருக்கம் மற்றும் 1 அறிமுகம்   2 தொடர்புடைய வேலை  3 ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்   3.1 பின்னணி   3.2 ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க்குகள்   3.3 ஆங்கர் அடிப்படையிலான அனுமானம்   4 சோதனைகள் மற்றும் 4.1 எங்கள் செயல்படுத்தல்   4.2 தரவு மற்றும் பயிற்சி நடைமுறை   4.3 மதிப்பீடு   5 முடிவுகள்   6 பகுப்பாய்வு   7 முடிவு, வரம்புகள், நெறிமுறைகள் அறிக்கை மற்றும் குறிப்புகள்   மேலும் சோதனை முடிவுகள்   பி தரவு அமைப்புகள்  சுருக்கம்  பெரிய மொழி மாதிரிகள் (LLMகள்) முக்கியமாக டிகோடர்-மட்டுமே மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, வரலாற்று டோக்கன்களுக்கான விசைகள்/மதிப்புத் தகவல்களைத் தக்கவைத்து, சூழல் சார்ந்த தகவல்களை வழங்கவும், தேவையற்ற கணக்கீடுகளைத் தவிர்க்கவும் அவசியம். இருப்பினும், இந்த எல்எல்எம்களின் கணிசமான அளவு மற்றும் அளவுரு அளவுகளுக்கு மிகப்பெரிய GPU நினைவகம் தேவைப்படுகிறது. உள்ளீட்டு உரையின் நீளத்துடன் இந்த நினைவக தேவை அதிகரிக்கிறது, இது தகவல் சேமிப்பு மற்றும் செயலாக்கத்தின் மிகவும் திறமையான முறைகளுக்கான அவசரத் தேவைக்கு வழிவகுக்கிறது. இந்த ஆய்வு ஆங்கர் அடிப்படையிலான LLMகளை (AnLLMs) அறிமுகப்படுத்துகிறது, இது ஒரு புதுமையான ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஒரு நங்கூரம் சார்ந்த அனுமான உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை எல்எல்எம்களை வரிசைத் தகவலை ஆங்கர் டோக்கனில் சுருக்கவும், விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்பைக் குறைத்து அனுமானத் திறனை மேம்படுத்தவும் உதவுகிறது. 99% விசைகள்/மதிப்புகள் கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான அனுமானம் வரை அடையும் போது, AnLLMகள் ஒரே மாதிரியான துல்லிய நிலைகளை பராமரிக்கின்றன என்பதை கேள்வி-பதில் வரையறைகள் மீதான சோதனைகள் வெளிப்படுத்துகின்றன. துல்லியத்தில் சிறிய சமரசம் இருந்தாலும், வளப் பயன்பாடு மற்றும் கணக்கீட்டுத் திறனில் AnSAN நுட்பத்தைப் பயன்படுத்தும் AnLLMகளின் கணிசமான மேம்பாடுகள் நடைமுறை LLM பயன்பாடுகளுக்கான அவற்றின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.  1 அறிமுகம்  பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) முதன்மையாக டிகோடர்-மட்டும் மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, அவை வரலாற்று டோக்கன்களுக்கான கேச்சிங் விசைகள்/மதிப்புத் தகவல்களைத் தேவைப்படுத்துகின்றன, அவை சூழல் தகவல்களை வழங்கவும் தேவையற்ற கணக்கீட்டைத் தவிர்க்கவும் (Wei et al., 2022; Tou. , 2023a; OpenAI, 2023; Touvron et al., 2023b). இருப்பினும், அவற்றின் அபரிமிதமான அளவு மற்றும் அதிக அளவுரு எண்ணிக்கை காரணமாக, ஏற்றுவதற்கு கணிசமான அளவு GPU நினைவகம் தேவைப்படுகிறது. மேலும், நீளம் என   உள்ளீட்டு உரையின் வளர்ச்சி, விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை சேமிப்பதற்கு மேலும் மேலும் GPU நினைவகம் தேவைப்படுகிறது, இது சூழலில் கற்றல், சிக்கலான வழிமுறைகள் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களில் சாட்சியமளிக்கப்படுகிறது (டாங் மற்றும் பலர், 2022; ஜியாங் மற்றும் பலர்., 2023; வாங் மற்றும் பலர். , 2023), இது வரையறுக்கப்பட்ட கணக்கீட்டு வளங்களைக் கொண்ட காட்சிகளுக்கு உகந்ததாக இல்லை. ஒரு மாற்று அணுகுமுறையானது இந்த விரிவான உள்ளீடுகளை மீண்டும் கணக்கிடுவதை உள்ளடக்குகிறது, இருப்பினும், இதன் விளைவாக அதிக நேரம் மேல்நிலை ஏற்படுகிறது. எனவே, இந்த ஆய்வு  LLMகளின் அனுமானக் கட்டத்தில் விசைகள்/மதிப்புகள் தற்காலிக சேமிப்பிற்கான சேமிப்பகத் தேவையைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது, நினைவக செயல்திறனை மேம்படுத்துகிறது மற்றும் அதன் விளைவாக, அனுமான வேகத்தையும் துரிதப்படுத்துகிறது.  சமீபத்திய ஆய்வில், வாங் மற்றும் பலர். (2023) முன்னொட்டு விளக்கங்களில் லேபிள் சொற்கள் அனுமானத்தின் போது அறிவிப்பாளர்களாக செயல்பட முடியும் என்பதை நிரூபிக்கிறது, இது சூழல் கற்றலில் அனுமான செயல்திறனை மேம்படுத்துவதற்கான பயனுள்ள சூழல் சுருக்க அணுகுமுறையை வழங்குகிறது. இருப்பினும், நடைமுறை பயன்பாடுகளில், அனைத்து முன்னொட்டு உள்ளீடுகள் அல்லது ஆர்ப்பாட்டங்கள் தகவலை சுருக்குவதற்கு ஏற்ற லேபிள் வார்த்தைகளைக் கொண்டிருக்கவில்லை, லேபிள் வார்த்தைகளை நம்பியிருப்பது உரை தகவல் சுருக்கத்திற்கான குறைவான உலகளாவிய அணுகுமுறையாகும். கூடுதலாக, பாங் மற்றும் பலர். (2024) அனுமானத்தின் போது LLMகள் ஒரு சில, இன்னும் சீரான, முன்னொட்டு டோக்கன்களை மட்டுமே கவனிக்க முனைகின்றன என்பதைக் கவனியுங்கள். இருப்பினும், பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கன்கள் பெரும்பாலும் கணிக்க முடியாதவை மற்றும் கட்டுப்படுத்த முடியாதவை. இந்த அவதானிப்புகள் ஒரு புதிரான கேள்வியை எழுப்புகின்றன: இயற்கை மொழி நூல்கள் வரிசைகளின் ஒட்டுமொத்த சொற்பொருள் தகவலை சுருக்கும் நங்கூர புள்ளிகளைக் கொண்டிருக்கின்றனவா? இந்த சூழலில், வரிசை உட்பொதிவுகள் பற்றிய முந்தைய ஆய்வுகள், நியூரல் நெட்வொர்க் மாடல்களில் உள்ள ஒரு சிறப்பு டோக்கனின் மறைக்கப்பட்ட நிலை, சொற்பொருள் தகவல்களை இணைக்க முடியும் என்பதைக் காட்டுகிறது (Baudiš et al., 2016; Devlin et al., 2018). மேலும், சமகால எல்எல்எம்கள் பயிற்சி மற்றும் அனுமானம் ஆகிய இரண்டு கட்டங்களிலும் (Touvron et al., 2023a,b) ஒவ்வொரு முன் டோக்கனிலும் கலந்துகொள்வதன் போது காரணமான சுய-கவனம் பொறிமுறையை பொதுவாகப் பயன்படுத்துகின்றன. எதிர்கால டோக்கன்களை அவதானிக்க முடியாது என்பதால், மற்ற டோக்கன்களுடன் ஒப்பிடுகையில், ஒரு வரிசையில் உள்ள இறுதி டோக்கன் ஒரு இயற்கையான தகவல் சுருக்கப் புள்ளியாகச் செயல்பட மிகவும் பொருத்தமானதாக இருக்கும் என்று இது அறிவுறுத்துகிறது. எனவே, வரிசைத் தகவலைச் சுருக்கவும், விசைகள்/மதிப்புக் கேச்களை திறம்பட குறைக்கவும், LLMகளுக்கான அனுமானத் திறனை மேம்படுத்தவும், நம்பகமான மற்றும் கட்டுப்படுத்தக்கூடிய முறையில் வரிசை நங்கூரம் டோக்கன்களை அடையாளம் கண்டு சுரண்டும் முறையான அணுகுமுறை அவசியம்.  இந்த நோக்கத்திற்காக, ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஆங்கர் அடிப்படையிலான அனுமான உத்தி ஆகியவற்றைக் கொண்ட நாவல்   nchor-அடிப்படையிலான   arge   anguage   odels (AnLLMs) ஐ நாங்கள் முன்மொழிகிறோம். AnSAN ஆனது, பயிற்சிச் செயல்பாட்டின் போது, நங்கூரம் சார்ந்த கவனம் முகமூடிகளின் உதவியுடன், ஆங்கர் டோக்கனில் (எங்கள் செயலாக்கத்தின் கடைசி டோக்கன்) வரிசைத் தகவலைச் சுருக்குமாறு மாதிரிகளை கட்டாயப்படுத்த வடிவமைக்கப்பட்டுள்ளது. அனுமானத்தின் போது, ஆங்கர்-அடிப்படையிலான அனுமான உத்தியானது ஆங்கர் டோக்கன்களின் விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை வைத்திருக்கிறது, அவை முழு வரிசைத் தகவலையும் ஒருங்கிணைத்து, மற்றும் நான்காம் டோக்கன்களை நிராகரித்து, நினைவக கோரிக்கைகளை குறைக்கிறது. குறிப்பாக, AnSANக்கான ஆங்கர்-அடிப்படையிலான கவனம் முகமூடிகள் இரண்டு நோக்கங்களைச் செயல்படுத்துகின்றன: 1) ஆங்கர் டோக்கன்கள் ஒரே வரிசையில் உள்ள டோக்கன்களில் பிரத்தியேகமாக கலந்துகொள்வதை உறுதிசெய்வது, மற்ற காட்சிகளுக்கு கவனம் செலுத்துவதைத் தடுப்பது, மற்றும் 2) முந்தைய வரிசை அறிவிப்பாளர்களுக்கு நங்கூரம் அல்லாத டோக்கன்களின் கவனத்தை செலுத்துவது. , முந்தைய வரிசைகளில் இருந்து மற்ற நாஞ்சர் டோக்கன்களைத் தடுக்கிறது. நங்கூரம் சார்ந்த கவனத்தின் நுட்பம், சிதறிய கவனத்தின் அடிப்படையிலான கொள்கைகளுடன் ஒற்றுமையைக் கொண்டுள்ளது என்பது குறிப்பிடத்தக்கது (குழந்தை மற்றும் பலர்., 2019). எவ்வாறாயினும், எல்எல்எம்களின் சூழல் நீளத்தை (சென் மற்றும் பலர், 2023; ராட்னர் மற்றும் பலர், 2023) நீட்டிப்பதில் தற்போதுள்ள ஆராய்ச்சியைப் போலல்லாமல், வரிசைத் தகவலை நங்கூரத்தில் சுருக்குவதற்கு மாதிரியை தொடர்ந்து முன் பயிற்சி செய்வதில் எங்கள் முறை கவனம் செலுத்துகிறது. டோக்கன். A L L M  இந்தத் தாள் CC BY 4.0 DEED உரிமத்தின் கீழ்   . arxiv இல் கிடைக்கிறது

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

இந்த ஆடியோ கதையின் அசல் மொழியில் தயாரிக்கப்பட்டது!

ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்

About Author

கருத்துகள்

ஹேங் டேக்குகள்

இந்த கட்டுரையில் வழங்கப்பட்டது

Related Stories

Meet Neo4j: HackerNoon Company of the Week

Meet Starknet: HackerNoon Company of the Week

Using HackerNoon's Story Settings to Your Advantage: Tips From HackerNoon Editors

Meet Fastex: HackerNoon Company of the Week

Meet Neo4j: HackerNoon Company of the Week

Meet Starknet: HackerNoon Company of the Week

Using HackerNoon's Story Settings to Your Advantage: Tips From HackerNoon Editors

Meet Fastex: HackerNoon Company of the Week

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps