ஆசிரியர்கள்:
(1) ஜியான்ஹூய் பாங், மக்காவ் பல்கலைக்கழகத்தைச் சேர்ந்தவர், ஜியான்ஹூய் பாங் மற்றும் ஃபங்ஹுவா யே ஆகியோர் டென்சென்ட் AI ஆய்வகத்தில் ([email protected]) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;
(2) Fanghua Ye, University College London, மற்றும் Jianhui Pang மற்றும் Fanghua Ye ஆகியோர் Tencent AI ஆய்வகத்தில் ([email protected]) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;
(3) டெரெக் எஃப். வோங், மக்காவ் பல்கலைக்கழகம்;
(4) Longyue Wang, Tencent AI ஆய்வகம் மற்றும் தொடர்புடைய ஆசிரியர்.
3 ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்
3.2 ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க்குகள்
3.3 ஆங்கர் அடிப்படையிலான அனுமானம்
4 சோதனைகள் மற்றும் 4.1 எங்கள் செயல்படுத்தல்
4.2 தரவு மற்றும் பயிற்சி நடைமுறை
7 முடிவு, வரம்புகள், நெறிமுறைகள் அறிக்கை மற்றும் குறிப்புகள்
பெரிய மொழி மாதிரிகள் (LLMகள்) முக்கியமாக டிகோடர்-மட்டுமே மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, வரலாற்று டோக்கன்களுக்கான விசைகள்/மதிப்புத் தகவல்களைத் தக்கவைத்து, சூழல் சார்ந்த தகவல்களை வழங்கவும், தேவையற்ற கணக்கீடுகளைத் தவிர்க்கவும் அவசியம். இருப்பினும், இந்த எல்எல்எம்களின் கணிசமான அளவு மற்றும் அளவுரு அளவுகளுக்கு மிகப்பெரிய GPU நினைவகம் தேவைப்படுகிறது. உள்ளீட்டு உரையின் நீளத்துடன் இந்த நினைவக தேவை அதிகரிக்கிறது, இது தகவல் சேமிப்பு மற்றும் செயலாக்கத்தின் மிகவும் திறமையான முறைகளுக்கான அவசரத் தேவைக்கு வழிவகுக்கிறது. இந்த ஆய்வு ஆங்கர் அடிப்படையிலான LLMகளை (AnLLMs) அறிமுகப்படுத்துகிறது, இது ஒரு புதுமையான ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஒரு நங்கூரம் சார்ந்த அனுமான உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை எல்எல்எம்களை வரிசைத் தகவலை ஆங்கர் டோக்கனில் சுருக்கவும், விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்பைக் குறைத்து அனுமானத் திறனை மேம்படுத்தவும் உதவுகிறது. 99% விசைகள்/மதிப்புகள் கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான அனுமானம் வரை அடையும் போது, AnLLMகள் ஒரே மாதிரியான துல்லிய நிலைகளை பராமரிக்கின்றன என்பதை கேள்வி-பதில் வரையறைகள் மீதான சோதனைகள் வெளிப்படுத்துகின்றன. துல்லியத்தில் சிறிய சமரசம் இருந்தாலும், வளப் பயன்பாடு மற்றும் கணக்கீட்டுத் திறனில் AnSAN நுட்பத்தைப் பயன்படுத்தும் AnLLMகளின் கணிசமான மேம்பாடுகள் நடைமுறை LLM பயன்பாடுகளுக்கான அவற்றின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.
பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) முதன்மையாக டிகோடர்-மட்டும் மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, அவை வரலாற்று டோக்கன்களுக்கான கேச்சிங் விசைகள்/மதிப்புத் தகவல்களைத் தேவைப்படுத்துகின்றன, அவை சூழல் தகவல்களை வழங்கவும் தேவையற்ற கணக்கீட்டைத் தவிர்க்கவும் (Wei et al., 2022; Tou. , 2023a; OpenAI, 2023; Touvron et al., 2023b). இருப்பினும், அவற்றின் அபரிமிதமான அளவு மற்றும் அதிக அளவுரு எண்ணிக்கை காரணமாக, ஏற்றுவதற்கு கணிசமான அளவு GPU நினைவகம் தேவைப்படுகிறது. மேலும், நீளம் என
உள்ளீட்டு உரையின் வளர்ச்சி, விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை சேமிப்பதற்கு மேலும் மேலும் GPU நினைவகம் தேவைப்படுகிறது, இது சூழலில் கற்றல், சிக்கலான வழிமுறைகள் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களில் சாட்சியமளிக்கப்படுகிறது (டாங் மற்றும் பலர், 2022; ஜியாங் மற்றும் பலர்., 2023; வாங் மற்றும் பலர். , 2023), இது வரையறுக்கப்பட்ட கணக்கீட்டு வளங்களைக் கொண்ட காட்சிகளுக்கு உகந்ததாக இல்லை. ஒரு மாற்று அணுகுமுறையானது இந்த விரிவான உள்ளீடுகளை மீண்டும் கணக்கிடுவதை உள்ளடக்குகிறது, இருப்பினும், இதன் விளைவாக அதிக நேரம் மேல்நிலை ஏற்படுகிறது. எனவே, இந்த ஆய்வு LLMகளின் அனுமானக் கட்டத்தில் விசைகள்/மதிப்புகள் தற்காலிக சேமிப்பிற்கான சேமிப்பகத் தேவையைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது, நினைவக செயல்திறனை மேம்படுத்துகிறது மற்றும் அதன் விளைவாக, அனுமான வேகத்தையும் துரிதப்படுத்துகிறது.
சமீபத்திய ஆய்வில், வாங் மற்றும் பலர். (2023) முன்னொட்டு விளக்கங்களில் லேபிள் சொற்கள் அனுமானத்தின் போது அறிவிப்பாளர்களாக செயல்பட முடியும் என்பதை நிரூபிக்கிறது, இது சூழல் கற்றலில் அனுமான செயல்திறனை மேம்படுத்துவதற்கான பயனுள்ள சூழல் சுருக்க அணுகுமுறையை வழங்குகிறது. இருப்பினும், நடைமுறை பயன்பாடுகளில், அனைத்து முன்னொட்டு உள்ளீடுகள் அல்லது ஆர்ப்பாட்டங்கள் தகவலை சுருக்குவதற்கு ஏற்ற லேபிள் வார்த்தைகளைக் கொண்டிருக்கவில்லை, லேபிள் வார்த்தைகளை நம்பியிருப்பது உரை தகவல் சுருக்கத்திற்கான குறைவான உலகளாவிய அணுகுமுறையாகும். கூடுதலாக, பாங் மற்றும் பலர். (2024) அனுமானத்தின் போது LLMகள் ஒரு சில, இன்னும் சீரான, முன்னொட்டு டோக்கன்களை மட்டுமே கவனிக்க முனைகின்றன என்பதைக் கவனியுங்கள். இருப்பினும், பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கன்கள் பெரும்பாலும் கணிக்க முடியாதவை மற்றும் கட்டுப்படுத்த முடியாதவை. இந்த அவதானிப்புகள் ஒரு புதிரான கேள்வியை எழுப்புகின்றன: இயற்கை மொழி நூல்கள் வரிசைகளின் ஒட்டுமொத்த சொற்பொருள் தகவலை சுருக்கும் நங்கூர புள்ளிகளைக் கொண்டிருக்கின்றனவா? இந்த சூழலில், வரிசை உட்பொதிவுகள் பற்றிய முந்தைய ஆய்வுகள், நியூரல் நெட்வொர்க் மாடல்களில் உள்ள ஒரு சிறப்பு டோக்கனின் மறைக்கப்பட்ட நிலை, சொற்பொருள் தகவல்களை இணைக்க முடியும் என்பதைக் காட்டுகிறது (Baudiš et al., 2016; Devlin et al., 2018). மேலும், சமகால எல்எல்எம்கள் பயிற்சி மற்றும் அனுமானம் ஆகிய இரண்டு கட்டங்களிலும் (Touvron et al., 2023a,b) ஒவ்வொரு முன் டோக்கனிலும் கலந்துகொள்வதன் போது காரணமான சுய-கவனம் பொறிமுறையை பொதுவாகப் பயன்படுத்துகின்றன. எதிர்கால டோக்கன்களை அவதானிக்க முடியாது என்பதால், மற்ற டோக்கன்களுடன் ஒப்பிடுகையில், ஒரு வரிசையில் உள்ள இறுதி டோக்கன் ஒரு இயற்கையான தகவல் சுருக்கப் புள்ளியாகச் செயல்பட மிகவும் பொருத்தமானதாக இருக்கும் என்று இது அறிவுறுத்துகிறது. எனவே, வரிசைத் தகவலைச் சுருக்கவும், விசைகள்/மதிப்புக் கேச்களை திறம்பட குறைக்கவும், LLMகளுக்கான அனுமானத் திறனை மேம்படுத்தவும், நம்பகமான மற்றும் கட்டுப்படுத்தக்கூடிய முறையில் வரிசை நங்கூரம் டோக்கன்களை அடையாளம் கண்டு சுரண்டும் முறையான அணுகுமுறை அவசியம்.
இந்த நோக்கத்திற்காக, ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஆங்கர் அடிப்படையிலான அனுமான உத்தி ஆகியவற்றைக் கொண்ட நாவல் A nchor-அடிப்படையிலான L arge L anguage M odels (AnLLMs) ஐ நாங்கள் முன்மொழிகிறோம். AnSAN ஆனது, பயிற்சிச் செயல்பாட்டின் போது, நங்கூரம் சார்ந்த கவனம் முகமூடிகளின் உதவியுடன், ஆங்கர் டோக்கனில் (எங்கள் செயலாக்கத்தின் கடைசி டோக்கன்) வரிசைத் தகவலைச் சுருக்குமாறு மாதிரிகளை கட்டாயப்படுத்த வடிவமைக்கப்பட்டுள்ளது. அனுமானத்தின் போது, ஆங்கர்-அடிப்படையிலான அனுமான உத்தியானது ஆங்கர் டோக்கன்களின் விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை வைத்திருக்கிறது, அவை முழு வரிசைத் தகவலையும் ஒருங்கிணைத்து, மற்றும் நான்காம் டோக்கன்களை நிராகரித்து, நினைவக கோரிக்கைகளை குறைக்கிறது. குறிப்பாக, AnSANக்கான ஆங்கர்-அடிப்படையிலான கவனம் முகமூடிகள் இரண்டு நோக்கங்களைச் செயல்படுத்துகின்றன: 1) ஆங்கர் டோக்கன்கள் ஒரே வரிசையில் உள்ள டோக்கன்களில் பிரத்தியேகமாக கலந்துகொள்வதை உறுதிசெய்வது, மற்ற காட்சிகளுக்கு கவனம் செலுத்துவதைத் தடுப்பது, மற்றும் 2) முந்தைய வரிசை அறிவிப்பாளர்களுக்கு நங்கூரம் அல்லாத டோக்கன்களின் கவனத்தை செலுத்துவது. , முந்தைய வரிசைகளில் இருந்து மற்ற நாஞ்சர் டோக்கன்களைத் தடுக்கிறது. நங்கூரம் சார்ந்த கவனத்தின் நுட்பம், சிதறிய கவனத்தின் அடிப்படையிலான கொள்கைகளுடன் ஒற்றுமையைக் கொண்டுள்ளது என்பது குறிப்பிடத்தக்கது (குழந்தை மற்றும் பலர்., 2019). எவ்வாறாயினும், எல்எல்எம்களின் சூழல் நீளத்தை (சென் மற்றும் பலர், 2023; ராட்னர் மற்றும் பலர், 2023) நீட்டிப்பதில் தற்போதுள்ள ஆராய்ச்சியைப் போலல்லாமல், வரிசைத் தகவலை நங்கூரத்தில் சுருக்குவதற்கு மாதிரியை தொடர்ந்து முன் பயிற்சி செய்வதில் எங்கள் முறை கவனம் செலுத்துகிறது. டோக்கன்.
இந்தத் தாள் CC BY 4.0 DEED உரிமத்தின் கீழ் arxiv இல் கிடைக்கிறது .