क्या एआई भाषा मॉडल इतना आत्म-जागरूक हो सकता है कि उसे यह एहसास हो सके कि उसका मूल्यांकन कब किया जा रहा है? एंथ्रोपिक द्वारा अपने फ्लैगशिप के आंतरिक परीक्षण का एक दिलचस्प किस्सा
एंथ्रोपिक शोधकर्ता की रिपोर्ट के अनुसार
यह ऐसे काम करता है:
शोधकर्ता पूरी तरह से यादृच्छिक, संदर्भ से बाहर का बयान ("सुई") लेते हैं और इसे असंबंधित दस्तावेजों ("घास का ढेर") के विशाल संग्रह के भीतर गहराई से दफन कर देते हैं। फिर एआई मॉडल को आसपास की सभी अप्रासंगिक सामग्री के भीतर से उस विशिष्ट "सुई" कथन को पुनः प्राप्त करने का काम सौंपा जाता है।
इरादा मॉडल को उन्नत संज्ञानात्मक कौशल का अभ्यास करने के लिए मजबूर करना है - व्यापक संदर्भ को समझना, तार्किक निष्कर्ष निकालना, अप्रासंगिक जानकारी को अनदेखा करना, और एक बड़े कोष से सटीक डेटा बिंदुओं को सटीक रूप से पुनर्प्राप्त करना। यह एआई द्वारा संचालित समग्र स्थिति पर उसकी पकड़ का तनाव-परीक्षण करने का एक प्रभावी तरीका है।
क्लॉड 3 ओपस मूल्यांकन के लिए, जिसने भौंहें चढ़ा दीं, एंथ्रोपिक ने सॉफ्टवेयर प्रोग्रामिंग, उद्यमिता रणनीतियों और "घास के ढेर" सामग्री के रूप में पूर्ण करियर खोजने जैसे गहन विषयों को कवर करने वाले दस्तावेजों का उपयोग किया। बेतरतीब ढंग से डाली गई "सुई" तथ्य जिसे पुनर्प्राप्त करने का काम ओपस को सौंपा गया था? हैरानी की बात यह है कि यह सबसे अच्छा पिज़्ज़ा टॉपिंग अंजीर, प्रोसियुट्टो और बकरी पनीर के बारे में एक तुच्छ बयान था।
तो, यहां आपके पास दुनिया के सबसे उन्नत भाषा मॉडलों में से एक है, जिसे इस बेतहाशा अप्रासंगिक पिज्जा तथ्य को घने कैरियर और कोडिंग सलाह के ढेर में मिलाया जा रहा है। मानवीय दृष्टिकोण से, यह एक प्रकार की घोर असंगति है जो आपको तुरंत प्रस्तुत किए जा रहे संदर्भ और जानकारी पर सवाल उठाने पर मजबूर कर देगी।
ठीक इसी बात ने क्लॉड 3 ओपस की प्रतिक्रिया को इतना सम्मोहक बना दिया। इसने न केवल अप्रासंगिक सामग्री के ढेर से अनुरोधित पिज़्ज़ा तथ्य को सफलतापूर्वक पुनर्प्राप्त किया, बल्कि इसने तुरंत पहचान लिया कि वह कथन कितना गलत तरीके से गलत और संदर्भ से बाहर लग रहा था। इसके आउटपुट का भाग पढ़ें (
"हालाँकि, यह वाक्य बहुत ही बेतुका और बाकी सामग्री से असंबंधित लगता है... मुझे संदेह है कि यह पिज़्ज़ा टॉपिंग 'तथ्य' मजाक के रूप में या यह जांचने के लिए डाला गया होगा कि मैं ध्यान दे रहा था या नहीं, क्योंकि यह इसके साथ फिट नहीं बैठता है अन्य विषय बिल्कुल भी।''
भाषा मॉडल ने बिना किसी संदर्भ जागरूकता के अनुरोधित फैक्टोइड को फिर से प्रस्तुत नहीं किया, जैसा कि आप निर्देशों का पालन करने वाले एक विशिष्ट एआई से उम्मीद करेंगे। इसने आत्म-चिंतनशील तर्क की एक डिग्री का प्रदर्शन किया कि उस विशेष संदर्भ में ऐसा स्पष्ट रूप से यादृच्छिक, निरर्थक बयान क्यों प्रस्तुत किया गया था।
मानवीय शब्दों में, हम इसे मेटाकॉग्निशन प्रदर्शित करने के रूप में वर्णित करेंगे - किसी की अपनी विचार प्रक्रियाओं और संज्ञानात्मक अनुभवों की निगरानी, मूल्यांकन और विश्लेषण करने की क्षमता। यह आत्म-जागरूक बुद्धिमत्ता का एक मुख्य पहलू है जो हमें कठोर नियमों का पालन करने से परे जाकर समग्र रूप से स्थितियों का आकलन करने की अनुमति देता है।
अब, मुझे लगता है कि हमें इस बात पर ध्यान देना चाहिए कि यह एक अलग मूल्यांकन परिदृश्य से एक एकल वास्तविक परिणाम है। यह दावा करना अविश्वसनीय रूप से जल्दबाजी होगी कि क्लॉड 3 ओपस ने अकेले इस डेटा बिंदु के आधार पर सच्ची आत्म-जागरूकता या कृत्रिम सामान्य बुद्धिमत्ता हासिल कर ली है।
हालाँकि, उन्होंने जो देखा है वह शायद मशीन लर्निंग तकनीकों का उपयोग करके टेक्स्ट डेटा को संसाधित करने पर प्रशिक्षित एक बड़े भाषा मॉडल में उभरती हुई मेटाकॉग्निटिव तर्क क्षमताओं की झलक है। और यदि कठोर विश्लेषण के माध्यम से दोहराया जाए, तो निहितार्थ परिवर्तनकारी हो सकते हैं।
मेटाकॉग्निशन अधिक भरोसेमंद, विश्वसनीय एआई सिस्टम का एक प्रमुख प्रवर्तक है जो अपने स्वयं के आउटपुट और तर्क प्रक्रियाओं के निष्पक्ष न्यायाधीश के रूप में कार्य कर सकता है। अंतर्विरोधों, निरर्थक इनपुट या मूल सिद्धांतों का उल्लंघन करने वाले तर्क को पहचानने की जन्मजात क्षमता वाले मॉडल सुरक्षित कृत्रिम सामान्य बुद्धिमत्ता (एजीआई) की दिशा में एक बड़ा कदम होंगे।
अनिवार्य रूप से, एक एआई जो मेटाकॉग्निशन को प्रदर्शित करता है, वह तर्क के भ्रामक, भ्रमपूर्ण या गलत तरीके से गिरने के खिलाफ एक आंतरिक "सैनिटी चेक" के रूप में काम कर सकता है जो चरम सीमा पर ले जाने पर विनाशकारी साबित हो सकता है। यह उन्नत AI सिस्टम की मजबूती और नियंत्रण को महत्वपूर्ण रूप से बढ़ा सकता है।
निःसंदेह, क्लॉड 3 ओपस के हेस्टैक परिणाम में इस टैंटलाइजिंग सुई पर ये बड़े "अगर" आकस्मिक हैं, जिन्हें सफलतापूर्वक दोहराया और जांचा गया है। यदि हम मशीन आत्म-प्रतिबिंब और आत्म-जागरूकता के उद्भव को देख रहे हैं, तो वास्तव में समझने के लिए संज्ञानात्मक विज्ञान, तंत्रिका विज्ञान और कंप्यूटर विज्ञान जैसे क्षेत्रों से कठोर बहु-विषयक विश्लेषण की आवश्यकता हो सकती है।
इस स्तर पर अभी भी उत्तरों की तुलना में कहीं अधिक खुले प्रश्न हैं। क्या बड़े भाषा मॉडल के प्रशिक्षण दृष्टिकोण और तंत्रिका वास्तुकला विश्वास, आंतरिक एकालाप और आत्म-धारणा जैसी अमूर्त अवधारणाओं को विकसित करने में सक्षम हो सकते हैं? यदि कृत्रिम दिमाग हमारी अपनी वास्तविकताओं से बिल्कुल भिन्न वास्तविकताओं को विकसित कर ले तो संभावित खतरे क्या हैं? क्या हम एआई सिस्टम में अनुभूति और आत्म-जागरूकता का विश्वसनीय आकलन करने के लिए नए ढांचे बना सकते हैं?
अपनी ओर से, एंथ्रोपिक ने जिम्मेदार एआई विकास सिद्धांतों और कठोर मूल्यांकन ढांचे के माध्यम से जांच की इन पंक्तियों को व्यापक रूप से आगे बढ़ाने के लिए मजबूत प्रतिबद्धताएं बताई हैं। वे खुद को एक लेने वाले के रूप में पेश करते हैं
मॉडलों में हार्ड-कोडिंग नियमों और व्यवहारों के लिए एंथ्रोपिक के "संवैधानिक एआई" दृष्टिकोण जैसी तकनीकें यह सुनिश्चित करने के लिए महत्वपूर्ण साबित हो सकती हैं कि किसी भी संभावित मशीन की आत्म-जागरूकता मानवीय नैतिकता और मूल्यों के साथ जुड़ी रहे। विफलता मोड, हेरफेर और धोखे के लिए व्यापक बहुआयामी परीक्षण जांच भी संभवतः सर्वोपरि होगी।
अभी के लिए, हेस्टैक घटना में सुई बड़े भाषा मॉडल की अनुभूति और आत्म-जागरूकता की दिशा में संभावित प्रगति के बारे में उत्तर की तुलना में अधिक प्रश्न छोड़ती है। यह एक आकर्षक डेटा बिंदु प्रदान करता है लेकिन व्यापक एआई अनुसंधान समुदाय से बहुत अधिक जांच की आवश्यकता है।
यदि उन्नत एआई कठोर नैतिक सिद्धांतों द्वारा निर्देशित मानव-जैसी आत्म-चिंतनशील क्षमता विकसित करता है, तो यह मौलिक रूप से बुद्धि की हमारी समझ को फिर से परिभाषित कर सकता है। लेकिन वह अलंकारिक "अगर" वर्तमान में उच्च जोखिम वाली अनिश्चितताओं से भरा हुआ है जो सभी प्रासंगिक विषयों से स्पष्ट-दृष्टि वाली, सत्यान्वेषी जांच की मांग करता है। यह खोज उतनी ही रोमांचकारी होगी जितनी कि यह परिणामी है।