paint-brush
ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்மூலம்@anchoring
புதிய வரலாறு

ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்

மூலம் Anchoring4m2024/10/10
Read on Terminal Reader

மிக நீளமானது; வாசிப்பதற்கு

இந்த ஆய்வு ஆங்கர்-அடிப்படையிலான பெரிய மொழி மாதிரிகளை (AnLLMs) வழங்குகிறது, இது ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க்கை (AnSAN) பயன்படுத்தி, வரிசை தகவலை ஒரு ஆங்கர் டோக்கனில் சுருக்குகிறது. இந்த அணுகுமுறை விசைகள்/மதிப்புகளின் கேச் அளவுகளைக் கணிசமாகக் குறைக்கிறது மற்றும் அனுமானத் திறனை மேம்படுத்துகிறது, 99% கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான செயலாக்கத்தை குறைந்தபட்ச துல்லிய சமரசத்துடன் அடைகிறது. பெரிய அளவிலான மொழி மாதிரிகளுக்கான நினைவக மேம்படுத்தலில் AnLLMகள் ஒரு திருப்புமுனையை வழங்குகின்றன.
featured image - ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்
Anchoring HackerNoon profile picture
0-item

ஆசிரியர்கள்:

(1) ஜியான்ஹூய் பாங், மக்காவ் பல்கலைக்கழகத்தைச் சேர்ந்தவர், ஜியான்ஹூய் பாங் மற்றும் ஃபங்ஹுவா யே ஆகியோர் டென்சென்ட் AI ஆய்வகத்தில் ([email protected]) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;

(2) Fanghua Ye, University College London, மற்றும் Jianhui Pang மற்றும் Fanghua Ye ஆகியோர் Tencent AI ஆய்வகத்தில் ([email protected]) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;

(3) டெரெக் எஃப். வோங், மக்காவ் பல்கலைக்கழகம்;

(4) Longyue Wang, Tencent AI ஆய்வகம் மற்றும் தொடர்புடைய ஆசிரியர்.

இணைப்புகளின் அட்டவணை

சுருக்கம் மற்றும் 1 அறிமுகம்

2 தொடர்புடைய வேலை

3 ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்

3.1 பின்னணி

3.2 ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க்குகள்

3.3 ஆங்கர் அடிப்படையிலான அனுமானம்

4 சோதனைகள் மற்றும் 4.1 எங்கள் செயல்படுத்தல்

4.2 தரவு மற்றும் பயிற்சி நடைமுறை

4.3 மதிப்பீடு

5 முடிவுகள்

6 பகுப்பாய்வு

7 முடிவு, வரம்புகள், நெறிமுறைகள் அறிக்கை மற்றும் குறிப்புகள்


மேலும் சோதனை முடிவுகள்

பி தரவு அமைப்புகள்

சுருக்கம்

பெரிய மொழி மாதிரிகள் (LLMகள்) முக்கியமாக டிகோடர்-மட்டுமே மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, வரலாற்று டோக்கன்களுக்கான விசைகள்/மதிப்புத் தகவல்களைத் தக்கவைத்து, சூழல் சார்ந்த தகவல்களை வழங்கவும், தேவையற்ற கணக்கீடுகளைத் தவிர்க்கவும் அவசியம். இருப்பினும், இந்த எல்எல்எம்களின் கணிசமான அளவு மற்றும் அளவுரு அளவுகளுக்கு மிகப்பெரிய GPU நினைவகம் தேவைப்படுகிறது. உள்ளீட்டு உரையின் நீளத்துடன் இந்த நினைவக தேவை அதிகரிக்கிறது, இது தகவல் சேமிப்பு மற்றும் செயலாக்கத்தின் மிகவும் திறமையான முறைகளுக்கான அவசரத் தேவைக்கு வழிவகுக்கிறது. இந்த ஆய்வு ஆங்கர் அடிப்படையிலான LLMகளை (AnLLMs) அறிமுகப்படுத்துகிறது, இது ஒரு புதுமையான ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஒரு நங்கூரம் சார்ந்த அனுமான உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை எல்எல்எம்களை வரிசைத் தகவலை ஆங்கர் டோக்கனில் சுருக்கவும், விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்பைக் குறைத்து அனுமானத் திறனை மேம்படுத்தவும் உதவுகிறது. 99% விசைகள்/மதிப்புகள் கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான அனுமானம் வரை அடையும் போது, AnLLMகள் ஒரே மாதிரியான துல்லிய நிலைகளை பராமரிக்கின்றன என்பதை கேள்வி-பதில் வரையறைகள் மீதான சோதனைகள் வெளிப்படுத்துகின்றன. துல்லியத்தில் சிறிய சமரசம் இருந்தாலும், வளப் பயன்பாடு மற்றும் கணக்கீட்டுத் திறனில் AnSAN நுட்பத்தைப் பயன்படுத்தும் AnLLMகளின் கணிசமான மேம்பாடுகள் நடைமுறை LLM பயன்பாடுகளுக்கான அவற்றின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.

1 அறிமுகம்

பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) முதன்மையாக டிகோடர்-மட்டும் மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, அவை வரலாற்று டோக்கன்களுக்கான கேச்சிங் விசைகள்/மதிப்புத் தகவல்களைத் தேவைப்படுத்துகின்றன, அவை சூழல் தகவல்களை வழங்கவும் தேவையற்ற கணக்கீட்டைத் தவிர்க்கவும் (Wei et al., 2022; Tou. , 2023a; OpenAI, 2023; Touvron et al., 2023b). இருப்பினும், அவற்றின் அபரிமிதமான அளவு மற்றும் அதிக அளவுரு எண்ணிக்கை காரணமாக, ஏற்றுவதற்கு கணிசமான அளவு GPU நினைவகம் தேவைப்படுகிறது. மேலும், நீளம் என


படம் 1: விசைகள்/மதிப்புகள் தேக்ககங்கள் மற்றும் ஐந்து-ஷாட் விளக்கங்களுடன் OBQA, PIQA மற்றும் BoolQ பணிகளில் எங்களின் அனுமான முடுக்கம் விகிதம். பார்கள் விசைகள்/மதிப்புகள் கேச் மற்றும் உரை நீளத்தைக் குறிக்கின்றன, அதே சமயம் வளைவு அனுமான முடுக்க விகிதத்தைக் குறிக்கிறது. உரையின் நீளம் அதிகரிக்கும் போது, வழக்கமான முறைகளுடன் ஒப்பிடும்போது, விசைகள்/மதிப்புகள் தற்காலிக சேமிப்புகளில் 99% வரை ஈர்க்கக்கூடிய குறைப்பை எங்கள் முறை நிரூபிக்கிறது. மேலும், முன்னொட்டு உரைகளை தேக்ககப்படுத்துவதன் மூலம், கேச்சிங் அல்லாத அனுமானத்துடன் ஒப்பிடுகையில், அனுமானத்தின் செயல்திறனை 3.5 மடங்கு அதிகரித்துள்ளோம்.


உள்ளீட்டு உரையின் வளர்ச்சி, விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை சேமிப்பதற்கு மேலும் மேலும் GPU நினைவகம் தேவைப்படுகிறது, இது சூழலில் கற்றல், சிக்கலான வழிமுறைகள் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களில் சாட்சியமளிக்கப்படுகிறது (டாங் மற்றும் பலர், 2022; ஜியாங் மற்றும் பலர்., 2023; வாங் மற்றும் பலர். , 2023), இது வரையறுக்கப்பட்ட கணக்கீட்டு வளங்களைக் கொண்ட காட்சிகளுக்கு உகந்ததாக இல்லை. ஒரு மாற்று அணுகுமுறையானது இந்த விரிவான உள்ளீடுகளை மீண்டும் கணக்கிடுவதை உள்ளடக்குகிறது, இருப்பினும், இதன் விளைவாக அதிக நேரம் மேல்நிலை ஏற்படுகிறது. எனவே, இந்த ஆய்வு LLMகளின் அனுமானக் கட்டத்தில் விசைகள்/மதிப்புகள் தற்காலிக சேமிப்பிற்கான சேமிப்பகத் தேவையைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது, நினைவக செயல்திறனை மேம்படுத்துகிறது மற்றும் அதன் விளைவாக, அனுமான வேகத்தையும் துரிதப்படுத்துகிறது.


சமீபத்திய ஆய்வில், வாங் மற்றும் பலர். (2023) முன்னொட்டு விளக்கங்களில் லேபிள் சொற்கள் அனுமானத்தின் போது அறிவிப்பாளர்களாக செயல்பட முடியும் என்பதை நிரூபிக்கிறது, இது சூழல் கற்றலில் அனுமான செயல்திறனை மேம்படுத்துவதற்கான பயனுள்ள சூழல் சுருக்க அணுகுமுறையை வழங்குகிறது. இருப்பினும், நடைமுறை பயன்பாடுகளில், அனைத்து முன்னொட்டு உள்ளீடுகள் அல்லது ஆர்ப்பாட்டங்கள் தகவலை சுருக்குவதற்கு ஏற்ற லேபிள் வார்த்தைகளைக் கொண்டிருக்கவில்லை, லேபிள் வார்த்தைகளை நம்பியிருப்பது உரை தகவல் சுருக்கத்திற்கான குறைவான உலகளாவிய அணுகுமுறையாகும். கூடுதலாக, பாங் மற்றும் பலர். (2024) அனுமானத்தின் போது LLMகள் ஒரு சில, இன்னும் சீரான, முன்னொட்டு டோக்கன்களை மட்டுமே கவனிக்க முனைகின்றன என்பதைக் கவனியுங்கள். இருப்பினும், பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கன்கள் பெரும்பாலும் கணிக்க முடியாதவை மற்றும் கட்டுப்படுத்த முடியாதவை. இந்த அவதானிப்புகள் ஒரு புதிரான கேள்வியை எழுப்புகின்றன: இயற்கை மொழி நூல்கள் வரிசைகளின் ஒட்டுமொத்த சொற்பொருள் தகவலை சுருக்கும் நங்கூர புள்ளிகளைக் கொண்டிருக்கின்றனவா? இந்த சூழலில், வரிசை உட்பொதிவுகள் பற்றிய முந்தைய ஆய்வுகள், நியூரல் நெட்வொர்க் மாடல்களில் உள்ள ஒரு சிறப்பு டோக்கனின் மறைக்கப்பட்ட நிலை, சொற்பொருள் தகவல்களை இணைக்க முடியும் என்பதைக் காட்டுகிறது (Baudiš et al., 2016; Devlin et al., 2018). மேலும், சமகால எல்எல்எம்கள் பயிற்சி மற்றும் அனுமானம் ஆகிய இரண்டு கட்டங்களிலும் (Touvron et al., 2023a,b) ஒவ்வொரு முன் டோக்கனிலும் கலந்துகொள்வதன் போது காரணமான சுய-கவனம் பொறிமுறையை பொதுவாகப் பயன்படுத்துகின்றன. எதிர்கால டோக்கன்களை அவதானிக்க முடியாது என்பதால், மற்ற டோக்கன்களுடன் ஒப்பிடுகையில், ஒரு வரிசையில் உள்ள இறுதி டோக்கன் ஒரு இயற்கையான தகவல் சுருக்கப் புள்ளியாகச் செயல்பட மிகவும் பொருத்தமானதாக இருக்கும் என்று இது அறிவுறுத்துகிறது. எனவே, வரிசைத் தகவலைச் சுருக்கவும், விசைகள்/மதிப்புக் கேச்களை திறம்பட குறைக்கவும், LLMகளுக்கான அனுமானத் திறனை மேம்படுத்தவும், நம்பகமான மற்றும் கட்டுப்படுத்தக்கூடிய முறையில் வரிசை நங்கூரம் டோக்கன்களை அடையாளம் கண்டு சுரண்டும் முறையான அணுகுமுறை அவசியம்.


இந்த நோக்கத்திற்காக, ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஆங்கர் அடிப்படையிலான அனுமான உத்தி ஆகியவற்றைக் கொண்ட நாவல் A nchor-அடிப்படையிலான L arge L anguage M odels (AnLLMs) ஐ நாங்கள் முன்மொழிகிறோம். AnSAN ஆனது, பயிற்சிச் செயல்பாட்டின் போது, நங்கூரம் சார்ந்த கவனம் முகமூடிகளின் உதவியுடன், ஆங்கர் டோக்கனில் (எங்கள் செயலாக்கத்தின் கடைசி டோக்கன்) வரிசைத் தகவலைச் சுருக்குமாறு மாதிரிகளை கட்டாயப்படுத்த வடிவமைக்கப்பட்டுள்ளது. அனுமானத்தின் போது, ஆங்கர்-அடிப்படையிலான அனுமான உத்தியானது ஆங்கர் டோக்கன்களின் விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை வைத்திருக்கிறது, அவை முழு வரிசைத் தகவலையும் ஒருங்கிணைத்து, மற்றும் நான்காம் டோக்கன்களை நிராகரித்து, நினைவக கோரிக்கைகளை குறைக்கிறது. குறிப்பாக, AnSANக்கான ஆங்கர்-அடிப்படையிலான கவனம் முகமூடிகள் இரண்டு நோக்கங்களைச் செயல்படுத்துகின்றன: 1) ஆங்கர் டோக்கன்கள் ஒரே வரிசையில் உள்ள டோக்கன்களில் பிரத்தியேகமாக கலந்துகொள்வதை உறுதிசெய்வது, மற்ற காட்சிகளுக்கு கவனம் செலுத்துவதைத் தடுப்பது, மற்றும் 2) முந்தைய வரிசை அறிவிப்பாளர்களுக்கு நங்கூரம் அல்லாத டோக்கன்களின் கவனத்தை செலுத்துவது. , முந்தைய வரிசைகளில் இருந்து மற்ற நாஞ்சர் டோக்கன்களைத் தடுக்கிறது. நங்கூரம் சார்ந்த கவனத்தின் நுட்பம், சிதறிய கவனத்தின் அடிப்படையிலான கொள்கைகளுடன் ஒற்றுமையைக் கொண்டுள்ளது என்பது குறிப்பிடத்தக்கது (குழந்தை மற்றும் பலர்., 2019). எவ்வாறாயினும், எல்எல்எம்களின் சூழல் நீளத்தை (சென் மற்றும் பலர், 2023; ராட்னர் மற்றும் பலர், 2023) நீட்டிப்பதில் தற்போதுள்ள ஆராய்ச்சியைப் போலல்லாமல், வரிசைத் தகவலை நங்கூரத்தில் சுருக்குவதற்கு மாதிரியை தொடர்ந்து முன் பயிற்சி செய்வதில் எங்கள் முறை கவனம் செலுத்துகிறது. டோக்கன்.


இந்தத் தாள் CC BY 4.0 DEED உரிமத்தின் கீழ் arxiv இல் கிடைக்கிறது .