LLM செயல்திறனை அளவிடுவதற்குப் பயன்படுத்தப்படும் பிரபலமான வரையறைகளை நீங்கள் சரிபார்த்தால், AI மிகவும் புத்திசாலி என்று நீங்கள் உணரலாம்.
இது ஒரு நியாயமான மேற்பரப்பு-நிலை தோற்றம்; இருப்பினும், அறிவாற்றல் பணிகளுக்கு சராசரி மனிதனை விட AI உண்மையிலேயே சிறந்ததா?
OpenAI இலிருந்து o1 மற்றும் Anthropic இலிருந்து Claude 3.5 Sonnet போன்ற எல்லைப்புற மாடல்கள் சட்டம், குறியீட்டு முறை மற்றும் கணிதம் உட்பட பல துறைகளில் நிபுணர்களை விட சிறப்பாக செயல்படுகின்றன. அப்படியானால், ChatGPT ஆல் சில எளிய இடஞ்சார்ந்த பகுத்தறிவு பணிகளை அல்லது சில முட்டாள்தனமான கேள்விகளை ஏன் தீர்க்க முடியவில்லை? சரி, நாங்கள் இன்னும் "பெரிய மொழி மாதிரிகள்" பற்றிப் பேசுகிறோம் - அவை ஒரு டன் எழுத்துக்களை எடுத்து, கொடுக்கப்பட்ட வினவலுக்கு என்ன எழுத்துக்களை துப்ப வேண்டும் என்பதைக் கணிக்க முயற்சிக்கின்றன.
கவனிக்கவும், இந்த சமன்பாட்டில் எங்கும் உண்மையான "சிந்தனை" குறிப்பிடப்படவில்லை. மாடல்கள் ஒரு வகையான ஒத்திசைவான கிளிகள் , ஏனெனில் அவை உங்கள் கேள்வியைக் கருத்தில் கொள்ளாமல், அவர்களின் பயிற்சி தரவுத்தொகுப்பிலிருந்து சரியான தகவலை மீட்டெடுக்க முயற்சி செய்கின்றன. குறைந்தபட்சம், OpenAI o1-முன்னோட்டத்தை வெளியிடும் வரை இதுவே இருந்தது, ஆனால் இதைப் பற்றி பின்னர் மேலும்.
தற்போதுள்ள LLM அளவுகோல்களைப் பொருத்தவரை கேள்வி கேட்கத் தொடங்கியவர்களில், "AI Explained" என்ற பிரபலமான யூடியூப் சேனலின் ஆசிரியர் நானும் ஒரு பெரிய ரசிகன். பிலிப் (யூடியூபரின் பெயர்) தொழில்துறை தரநிலைகள் தெளிவான பாணியிலான கேள்விகளைக் கொண்டிருப்பதைக் கவனித்தனர், அவை பெரும்பாலும் பொதுவில் கிடைக்கின்றன. அதாவது, அந்தத் துல்லியமான கேள்விகள் பயிற்சித் தரவுத்தொகுப்பின் ஒரு பகுதியாக மட்டும் இருக்க முடியாது, ஆனால் தரநிலைப்படுத்தலின் காரணமாக, ஒட்டுமொத்த பயிற்சித் தரவிலிருந்து மாதிரிகளைக் கண்டறிந்து அவற்றைப் பயன்படுத்துவது எளிதாகிறது.
எளிமையாகச் சொன்னால், புதுமையான சிக்கலான தொழில்நுட்பத்தை உருவாக்கும் AI ஆராய்ச்சியாளர்கள், தரப்படுத்துவதற்கு முன், "நினைவில் இருப்பதற்கு" பொருத்தமான கேள்விகள் மற்றும் பதில்களை தங்கள் மாதிரியை வழங்குவதற்கான வழியை நிச்சயமாகக் கண்டறிய முடியும்.
OpenAI இலிருந்து o1 இன் சிறந்த மாடலின் முடிவுகளைப் பார்க்கும்போது, இது பல தொழில்முறை டொமைன்களில் சராசரிக்கு மேல் மதிப்பெண்களைப் பெற்றுள்ளது என்பதைக் குறிக்கலாம். இது உண்மைதான், ஆனால் இந்த முடிவு அந்த குறிப்பிட்ட துறைகளில் இருந்து தொடர்புடைய பயிற்சி தரவு மற்றும் கடந்தகால எடுத்துக்காட்டுகளின் கிடைக்கும் தன்மையை சார்ந்துள்ளது. என்னை தவறாக எண்ண வேண்டாம், பாடப்புத்தக கேள்விகளுக்கு பாடப்புத்தக பதில்களை வழங்குவதில் மாதிரிகள் இப்போது ஆச்சரியமாக இருக்கிறது, மேலும் இதுவே மிகவும் ஈர்க்கக்கூடியதாக உள்ளது.
இருப்பினும், "செயற்கை நுண்ணறிவு" என்ற சொல், தகவல் மீட்டெடுப்பதை விட சற்று அதிகமாக இருப்பதைக் குறிக்கிறது; இதில் சில உண்மையான சிந்தனை இருக்க வேண்டும். எனவே மேலே உள்ள அனைத்து ஈர்க்கக்கூடிய எண்களின் தர்க்கரீதியான பின்தொடர்தல், அத்தகைய "AI" ஒரு தந்திரமான காரணத்திற்கு பதிலளிக்குமா என்பதுதான். இது ஏதேனும் இடஞ்சார்ந்த புத்திசாலித்தனம் உள்ளதா?
முன் வரையறுக்கப்பட்ட பதில்களைக் கொண்ட புலம் சார்ந்த கேள்விகள் போலல்லாமல், மனிதர்கள் அன்றாடம் தீர்க்கும் பிரச்சனைகள் பெரும்பாலும் இயற்கையான மொழிக்கு அப்பாற்பட்ட சூழலைப் புரிந்து கொள்ள வேண்டும் (எல்.எல்.எம்-களுக்கு இருக்கும் ஒரே விஷயம்).
மேலே உள்ள எளிய அளவுகோலில் அதிக மதிப்பெண் பெற்றவர்கள், இது எல்எல்எம்களுக்கு ஒரு சராசரி நபர் அற்பமானதாகக் கருதும் கேள்விகளை வழங்குகிறது, ஆனால் மாடல்களால் இன்னும் பதிலளிக்க முடியாது. பரீட்சைகள் அல்லது பிரத்யேக அளவுகோல்களில் சராசரி மனிதனை விட AI மிகவும் சிறப்பாகச் செயல்படுவதைப் பார்க்கப் பழகிவிட்டோம், ஆனால் இங்கு, சிறந்த மாடல் செயல்திறன் உண்மையில் 41.7% (o1-preview) மற்றும் சராசரி மனிதனின் 83.7% மட்டுமே. இந்த அளவுகோல் 200 பல்தேர்வு உரை கேள்விகளைப் பயன்படுத்துகிறது.
அளவுகோலின் மிக முக்கியமான அம்சம் என்னவென்றால், அந்த கேள்விகள் பொதுவில் கிடைக்காது, எனவே AI ஆய்வகங்கள் அவற்றை தங்கள் பயிற்சி தரவுகளில் சேர்க்க முடியாது. இந்த அளவுகோலைப் பற்றி நீங்கள் இங்கே மேலும் அறியலாம்.
எல்எல்எம் செயல்திறனை அளவிடுவதற்கான இந்த புதிய அணுகுமுறை, அனைத்து மாதிரிகளும் சராசரி மனித பகுத்தறியும் திறனில் இருந்து எவ்வளவு தூரம் உள்ளன என்பதைக் காட்டுகிறது. வரவிருக்கும் மாதங்களில் இந்த இடைவெளி எவ்வளவு விரைவாக மூடப்படுகிறதோ, அவ்வளவு உறுதியான பதில் "ஆம்" என்ற எங்கள் தலைப்புக்கு வரும். AI பற்றி நீங்கள் ஆர்வமாக ஆனால் எச்சரிக்கையாக இருந்தால் கவனிக்க வேண்டிய ஒரு சுவாரஸ்யமான புதிய அளவீடு.