paint-brush
AI vs மனித - இயந்திரம் ஏற்கனவே உயர்ந்ததா? மூலம்@learning2survive
புதிய வரலாறு

AI vs மனித - இயந்திரம் ஏற்கனவே உயர்ந்ததா?

மூலம் Vitalii Chukhlantcev3m2024/10/31
Read on Terminal Reader

மிக நீளமானது; வாசிப்பதற்கு

அளவுகோல்களை நீங்கள் நம்பினால், AI மாதிரிகள் இப்போது பெரும்பாலான துறைகளில் மனிதர்களை விட சிறந்ததாகத் தெரிகிறது. ஏனென்றால், அவர்கள் சிறப்புக் கேள்விகளுக்கான பதில்களை நினைவில் வைத்துக் கொண்டு மீட்டெடுப்பார்கள் - உண்மையில் அவர்கள் நன்றாகப் பகுத்தறிவதால் அல்ல. புதிய "எளிமையான" அளவுகோல் இந்த சிக்கலை தீர்க்க வடிவமைக்கப்பட்டுள்ளது.
featured image - AI vs மனித - இயந்திரம் ஏற்கனவே உயர்ந்ததா?
Vitalii Chukhlantcev HackerNoon profile picture

LLM செயல்திறனை அளவிடுவதற்குப் பயன்படுத்தப்படும் பிரபலமான வரையறைகளை நீங்கள் சரிபார்த்தால், AI மிகவும் புத்திசாலி என்று நீங்கள் உணரலாம்.


இது ஒரு நியாயமான மேற்பரப்பு-நிலை தோற்றம்; இருப்பினும், அறிவாற்றல் பணிகளுக்கு சராசரி மனிதனை விட AI உண்மையிலேயே சிறந்ததா?


OpenAI இலிருந்து o1 மற்றும் Anthropic இலிருந்து Claude 3.5 Sonnet போன்ற எல்லைப்புற மாடல்கள் சட்டம், குறியீட்டு முறை மற்றும் கணிதம் உட்பட பல துறைகளில் நிபுணர்களை விட சிறப்பாக செயல்படுகின்றன. அப்படியானால், ChatGPT ஆல் சில எளிய இடஞ்சார்ந்த பகுத்தறிவு பணிகளை அல்லது சில முட்டாள்தனமான கேள்விகளை ஏன் தீர்க்க முடியவில்லை? சரி, நாங்கள் இன்னும் "பெரிய மொழி மாதிரிகள்" பற்றிப் பேசுகிறோம் - அவை ஒரு டன் எழுத்துக்களை எடுத்து, கொடுக்கப்பட்ட வினவலுக்கு என்ன எழுத்துக்களை துப்ப வேண்டும் என்பதைக் கணிக்க முயற்சிக்கின்றன.


கவனிக்கவும், இந்த சமன்பாட்டில் எங்கும் உண்மையான "சிந்தனை" குறிப்பிடப்படவில்லை. மாடல்கள் ஒரு வகையான ஒத்திசைவான கிளிகள் , ஏனெனில் அவை உங்கள் கேள்வியைக் கருத்தில் கொள்ளாமல், அவர்களின் பயிற்சி தரவுத்தொகுப்பிலிருந்து சரியான தகவலை மீட்டெடுக்க முயற்சி செய்கின்றன. குறைந்தபட்சம், OpenAI o1-முன்னோட்டத்தை வெளியிடும் வரை இதுவே இருந்தது, ஆனால் இதைப் பற்றி பின்னர் மேலும்.


தற்போதுள்ள LLM அளவுகோல்களைப் பொருத்தவரை கேள்வி கேட்கத் தொடங்கியவர்களில், "AI Explained" என்ற பிரபலமான யூடியூப் சேனலின் ஆசிரியர் நானும் ஒரு பெரிய ரசிகன். பிலிப் (யூடியூபரின் பெயர்) தொழில்துறை தரநிலைகள் தெளிவான பாணியிலான கேள்விகளைக் கொண்டிருப்பதைக் கவனித்தனர், அவை பெரும்பாலும் பொதுவில் கிடைக்கின்றன. அதாவது, அந்தத் துல்லியமான கேள்விகள் பயிற்சித் தரவுத்தொகுப்பின் ஒரு பகுதியாக மட்டும் இருக்க முடியாது, ஆனால் தரநிலைப்படுத்தலின் காரணமாக, ஒட்டுமொத்த பயிற்சித் தரவிலிருந்து மாதிரிகளைக் கண்டறிந்து அவற்றைப் பயன்படுத்துவது எளிதாகிறது.


எளிமையாகச் சொன்னால், புதுமையான சிக்கலான தொழில்நுட்பத்தை உருவாக்கும் AI ஆராய்ச்சியாளர்கள், தரப்படுத்துவதற்கு முன், "நினைவில் இருப்பதற்கு" பொருத்தமான கேள்விகள் மற்றும் பதில்களை தங்கள் மாதிரியை வழங்குவதற்கான வழியை நிச்சயமாகக் கண்டறிய முடியும்.


ஆதாரம்: https://blog.getbind.co/2024/09/13/openai-o1-vs-gpt-4o-is-it-worth-paying-6x-more/ 

OpenAI இலிருந்து o1 இன் சிறந்த மாடலின் முடிவுகளைப் பார்க்கும்போது, இது பல தொழில்முறை டொமைன்களில் சராசரிக்கு மேல் மதிப்பெண்களைப் பெற்றுள்ளது என்பதைக் குறிக்கலாம். இது உண்மைதான், ஆனால் இந்த முடிவு அந்த குறிப்பிட்ட துறைகளில் இருந்து தொடர்புடைய பயிற்சி தரவு மற்றும் கடந்தகால எடுத்துக்காட்டுகளின் கிடைக்கும் தன்மையை சார்ந்துள்ளது. என்னை தவறாக எண்ண வேண்டாம், பாடப்புத்தக கேள்விகளுக்கு பாடப்புத்தக பதில்களை வழங்குவதில் மாதிரிகள் இப்போது ஆச்சரியமாக இருக்கிறது, மேலும் இதுவே மிகவும் ஈர்க்கக்கூடியதாக உள்ளது.


இருப்பினும், "செயற்கை நுண்ணறிவு" என்ற சொல், தகவல் மீட்டெடுப்பதை விட சற்று அதிகமாக இருப்பதைக் குறிக்கிறது; இதில் சில உண்மையான சிந்தனை இருக்க வேண்டும். எனவே மேலே உள்ள அனைத்து ஈர்க்கக்கூடிய எண்களின் தர்க்கரீதியான பின்தொடர்தல், அத்தகைய "AI" ஒரு தந்திரமான காரணத்திற்கு பதிலளிக்குமா என்பதுதான். இது ஏதேனும் இடஞ்சார்ந்த புத்திசாலித்தனம் உள்ளதா?

முன் வரையறுக்கப்பட்ட பதில்களைக் கொண்ட புலம் சார்ந்த கேள்விகள் போலல்லாமல், மனிதர்கள் அன்றாடம் தீர்க்கும் பிரச்சனைகள் பெரும்பாலும் இயற்கையான மொழிக்கு அப்பாற்பட்ட சூழலைப் புரிந்து கொள்ள வேண்டும் (எல்.எல்.எம்-களுக்கு இருக்கும் ஒரே விஷயம்).


ஆதாரம்: AI விளக்கப்பட்டது https://www.youtube.com/watch?v=KngdLKv9RAc
மேலே உள்ள எளிய அளவுகோலில் அதிக மதிப்பெண் பெற்றவர்கள், இது எல்எல்எம்களுக்கு ஒரு சராசரி நபர் அற்பமானதாகக் கருதும் கேள்விகளை வழங்குகிறது, ஆனால் மாடல்களால் இன்னும் பதிலளிக்க முடியாது. பரீட்சைகள் அல்லது பிரத்யேக அளவுகோல்களில் சராசரி மனிதனை விட AI மிகவும் சிறப்பாகச் செயல்படுவதைப் பார்க்கப் பழகிவிட்டோம், ஆனால் இங்கு, சிறந்த மாடல் செயல்திறன் உண்மையில் 41.7% (o1-preview) மற்றும் சராசரி மனிதனின் 83.7% மட்டுமே. இந்த அளவுகோல் 200 பல்தேர்வு உரை கேள்விகளைப் பயன்படுத்துகிறது.


அளவுகோலின் மிக முக்கியமான அம்சம் என்னவென்றால், அந்த கேள்விகள் பொதுவில் கிடைக்காது, எனவே AI ஆய்வகங்கள் அவற்றை தங்கள் பயிற்சி தரவுகளில் சேர்க்க முடியாது. இந்த அளவுகோலைப் பற்றி நீங்கள் இங்கே மேலும் அறியலாம்.

எல்எல்எம் செயல்திறனை அளவிடுவதற்கான இந்த புதிய அணுகுமுறை, அனைத்து மாதிரிகளும் சராசரி மனித பகுத்தறியும் திறனில் இருந்து எவ்வளவு தூரம் உள்ளன என்பதைக் காட்டுகிறது. வரவிருக்கும் மாதங்களில் இந்த இடைவெளி எவ்வளவு விரைவாக மூடப்படுகிறதோ, அவ்வளவு உறுதியான பதில் "ஆம்" என்ற எங்கள் தலைப்புக்கு வரும். AI பற்றி நீங்கள் ஆர்வமாக ஆனால் எச்சரிக்கையாக இருந்தால் கவனிக்க வேண்டிய ஒரு சுவாரஸ்யமான புதிய அளவீடு.