LLM செயல்திறனை அளவிடுவதற்குப் பயன்படுத்தப்படும் பிரபலமான வரையறைகளை நீங்கள் சரிபார்த்தால், AI மிகவும் புத்திசாலி என்று நீங்கள் உணரலாம்.  இது ஒரு நியாயமான மேற்பரப்பு-நிலை தோற்றம்; இருப்பினும், அறிவாற்றல் பணிகளுக்கு சராசரி மனிதனை விட AI உண்மையிலேயே சிறந்ததா?  OpenAI இலிருந்து o1 மற்றும் Anthropic இலிருந்து Claude 3.5 Sonnet போன்ற எல்லைப்புற மாடல்கள் சட்டம், குறியீட்டு முறை மற்றும் கணிதம் உட்பட பல துறைகளில் நிபுணர்களை விட சிறப்பாக செயல்படுகின்றன. அப்படியானால், ChatGPT ஆல் சில எளிய இடஞ்சார்ந்த பகுத்தறிவு பணிகளை அல்லது சில முட்டாள்தனமான கேள்விகளை ஏன் தீர்க்க முடியவில்லை? சரி, நாங்கள் இன்னும் "பெரிய மொழி மாதிரிகள்" பற்றிப் பேசுகிறோம் - அவை ஒரு டன் எழுத்துக்களை எடுத்து, கொடுக்கப்பட்ட வினவலுக்கு என்ன எழுத்துக்களை துப்ப வேண்டும் என்பதைக் கணிக்க முயற்சிக்கின்றன.  கவனிக்கவும், இந்த சமன்பாட்டில் எங்கும் உண்மையான "சிந்தனை" குறிப்பிடப்படவில்லை. மாடல்கள் ஒரு வகையான   , ஏனெனில் அவை உங்கள் கேள்வியைக் கருத்தில் கொள்ளாமல், அவர்களின் பயிற்சி தரவுத்தொகுப்பிலிருந்து சரியான தகவலை மீட்டெடுக்க முயற்சி செய்கின்றன. குறைந்தபட்சம், OpenAI o1-முன்னோட்டத்தை வெளியிடும் வரை இதுவே இருந்தது, ஆனால் இதைப் பற்றி பின்னர் மேலும். ஒத்திசைவான கிளிகள்  தற்போதுள்ள LLM அளவுகோல்களைப் பொருத்தவரை கேள்வி கேட்கத் தொடங்கியவர்களில், "AI Explained" என்ற பிரபலமான யூடியூப் சேனலின் ஆசிரியர் நானும் ஒரு பெரிய ரசிகன். பிலிப் (யூடியூபரின் பெயர்) தொழில்துறை தரநிலைகள் தெளிவான பாணியிலான கேள்விகளைக் கொண்டிருப்பதைக் கவனித்தனர், அவை பெரும்பாலும் பொதுவில் கிடைக்கின்றன. அதாவது, அந்தத் துல்லியமான கேள்விகள் பயிற்சித் தரவுத்தொகுப்பின் ஒரு பகுதியாக மட்டும் இருக்க முடியாது, ஆனால் தரநிலைப்படுத்தலின் காரணமாக, ஒட்டுமொத்த பயிற்சித் தரவிலிருந்து மாதிரிகளைக் கண்டறிந்து அவற்றைப் பயன்படுத்துவது எளிதாகிறது.  எளிமையாகச் சொன்னால், புதுமையான சிக்கலான தொழில்நுட்பத்தை உருவாக்கும் AI ஆராய்ச்சியாளர்கள், தரப்படுத்துவதற்கு முன், "நினைவில் இருப்பதற்கு" பொருத்தமான கேள்விகள் மற்றும் பதில்களை தங்கள் மாதிரியை வழங்குவதற்கான வழியை நிச்சயமாகக் கண்டறிய முடியும்.   OpenAI இலிருந்து o1 இன் சிறந்த மாடலின் முடிவுகளைப் பார்க்கும்போது, இது பல தொழில்முறை டொமைன்களில் சராசரிக்கு மேல் மதிப்பெண்களைப் பெற்றுள்ளது என்பதைக் குறிக்கலாம். இது உண்மைதான், ஆனால் இந்த முடிவு அந்த குறிப்பிட்ட துறைகளில் இருந்து தொடர்புடைய பயிற்சி தரவு மற்றும் கடந்தகால எடுத்துக்காட்டுகளின் கிடைக்கும் தன்மையை சார்ந்துள்ளது. என்னை தவறாக எண்ண வேண்டாம், பாடப்புத்தக கேள்விகளுக்கு பாடப்புத்தக பதில்களை வழங்குவதில் மாதிரிகள் இப்போது ஆச்சரியமாக இருக்கிறது, மேலும் இதுவே மிகவும் ஈர்க்கக்கூடியதாக உள்ளது.  இருப்பினும், "செயற்கை நுண்ணறிவு" என்ற சொல், தகவல் மீட்டெடுப்பதை விட சற்று அதிகமாக இருப்பதைக் குறிக்கிறது; இதில் சில உண்மையான சிந்தனை இருக்க வேண்டும். எனவே மேலே உள்ள அனைத்து ஈர்க்கக்கூடிய எண்களின் தர்க்கரீதியான பின்தொடர்தல், அத்தகைய "AI" ஒரு தந்திரமான காரணத்திற்கு பதிலளிக்குமா என்பதுதான். இது ஏதேனும் இடஞ்சார்ந்த புத்திசாலித்தனம் உள்ளதா?  முன் வரையறுக்கப்பட்ட பதில்களைக் கொண்ட புலம் சார்ந்த கேள்விகள் போலல்லாமல், மனிதர்கள் அன்றாடம் தீர்க்கும் பிரச்சனைகள் பெரும்பாலும் இயற்கையான மொழிக்கு அப்பாற்பட்ட சூழலைப் புரிந்து கொள்ள வேண்டும் (எல்.எல்.எம்-களுக்கு இருக்கும் ஒரே விஷயம்).   மேலே உள்ள எளிய அளவுகோலில் அதிக மதிப்பெண் பெற்றவர்கள், இது எல்எல்எம்களுக்கு ஒரு சராசரி நபர் அற்பமானதாகக் கருதும் கேள்விகளை வழங்குகிறது, ஆனால் மாடல்களால் இன்னும் பதிலளிக்க முடியாது. பரீட்சைகள் அல்லது பிரத்யேக அளவுகோல்களில் சராசரி மனிதனை விட AI மிகவும் சிறப்பாகச் செயல்படுவதைப் பார்க்கப் பழகிவிட்டோம், ஆனால் இங்கு, சிறந்த மாடல் செயல்திறன் உண்மையில் 41.7% (o1-preview) மற்றும் சராசரி மனிதனின் 83.7% மட்டுமே. இந்த அளவுகோல் 200 பல்தேர்வு உரை கேள்விகளைப் பயன்படுத்துகிறது.  அளவுகோலின் மிக முக்கியமான அம்சம் என்னவென்றால், அந்த கேள்விகள் பொதுவில் கிடைக்காது, எனவே AI ஆய்வகங்கள் அவற்றை தங்கள் பயிற்சி தரவுகளில் சேர்க்க முடியாது. இந்த அளவுகோலைப் பற்றி நீங்கள்   மேலும் அறியலாம். இங்கே  எல்எல்எம் செயல்திறனை அளவிடுவதற்கான இந்த புதிய அணுகுமுறை, அனைத்து மாதிரிகளும் சராசரி மனித பகுத்தறியும் திறனில் இருந்து எவ்வளவு தூரம் உள்ளன என்பதைக் காட்டுகிறது. வரவிருக்கும் மாதங்களில் இந்த இடைவெளி எவ்வளவு விரைவாக மூடப்படுகிறதோ, அவ்வளவு உறுதியான பதில் "ஆம்" என்ற எங்கள் தலைப்புக்கு வரும். AI பற்றி நீங்கள் ஆர்வமாக ஆனால் எச்சரிக்கையாக இருந்தால் கவனிக்க வேண்டிய ஒரு சுவாரஸ்யமான புதிய அளவீடு.

Read My Stories

இந்த ஆடியோ கதையின் அசல் மொழியில் தயாரிக்கப்பட்டது!

AI vs மனித - இயந்திரம் ஏற்கனவே உயர்ந்ததா?

About Author

கருத்துகள்

ஹேங் டேக்குகள்

இந்த கட்டுரையில் வழங்கப்பட்டது

Related Stories

Proof of Usefulness Hackathon: Bright Data, Neo4j, Algolia, Storyblok & HackerNoon மூலம் $ 150K+ வெற்றி

சந்திக்க IPinfo: HackerNoon வாரம் நிறுவனம்

The Year in Marketing: What You Need to Read Before 2026

Proof of Usefulness Hackathon: Bright Data, Neo4j, Algolia, Storyblok & HackerNoon மூலம் $ 150K+ வெற்றி

சந்திக்க IPinfo: HackerNoon வாரம் நிறுவனம்

The Year in Marketing: What You Need to Read Before 2026

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps