" एम्पेथेटिक एआई " के लिए Google Scholar की खोज से 2023 के बाद से 16,000 से अधिक आइटम मिलते हैं। "एम्पेथेटिक एआई का परीक्षण करना" और "एम्पेथेटिक एआई का मूल्यांकन करना" जैसे वाक्यांशों की खोज से यह सेट लगभग 12,000 आइटम तक कम हो जाता है। बहुत सारे शीर्षकों से गुजरना होगा! मैं निश्चित रूप से यह दावा नहीं कर सकता कि मैंने उन सभी को पढ़ लिया है या यहां तक कि हर शीर्षक को भी देख लिया है, लेकिन यहां मेरे विचार हैं।
मरियम-वेबस्टर: "समझने, जागरूक होने, संवेदनशील होने और दूसरे की भावनाओं, विचारों और अनुभव को परोक्ष रूप से अनुभव करने की क्रिया "।
एलएलएम के संदर्भ में "अनुभव" के साथ संभावित चिंताओं को खत्म करने के लिए, मैं इसे दूसरे की भावनाओं, विचारों और अनुभव को समझने, जागरूक होने, संवेदनशील होने और परोक्ष रूप से अनुभव करने की क्रिया के रूप में दोबारा लिखूंगा।
और, निःसंदेह, यदि हमारा संबंध बातचीत से है, तो हम इसे इस तरह से प्रकट करेंगे कि बातचीत में शामिल अन्य पक्षों को कार्रवाई के बारे में पता चले। बेशक, एक समाजोपथ भी इस तरह से प्रकट और प्रकट हो सकता है, इसलिए मैं एक अंतिम समायोजन करूंगा।
सहानुभूति है:
समझने, जागरूक होने, सकारात्मक तरीके से संवेदनशील होने और दूसरे की भावनाओं, विचारों और अनुभव को परोक्ष रूप से अनुभव करने की क्रिया। और, इसे प्रकट करना इस तरह से है कि बातचीत में अन्य पक्षों को कार्रवाई के बारे में पता चल जाए।
इसकी और मूल परिभाषा की समीक्षा करने पर, सहानुभूति के दो घटक स्पष्ट हो जाते हैं, भावात्मक और संज्ञानात्मक।
भावात्मक घटक सहानुभूति के भावनात्मक या भावनात्मक भाग को संदर्भित करता है। यह किसी अन्य व्यक्ति की भावनाओं को साझा करने या प्रतिबिंबित करने की क्षमता है। उदाहरण के लिए, यदि कोई मित्र दुखी है, तो आपकी सहानुभूति का स्नेहपूर्ण हिस्सा आपको भी दुखी कर सकता है, या कम से कम उनके दुख का एहसास करा सकता है।
दूसरी ओर, संज्ञानात्मक घटक, सहानुभूति के मानसिक या सोच वाले हिस्से को संदर्भित करता है। यह कतारों को सक्रिय रूप से पहचानने और समझने की क्षमता है ताकि कोई व्यक्ति मानसिक रूप से खुद को दूसरे व्यक्ति की स्थिति में रख सके। उदाहरण के लिए, यदि कोई सहकर्मी आपको थकी हुई आवाज़ (एक कतार) में एक कठिन परियोजना के बारे में बताता है जिस पर वे काम कर रहे हैं (एक कतार), तो आप सक्रिय रूप से कल्पना करके उनके तनाव को समझने की कोशिश करना चुन सकते हैं कि आप ऐसी ही स्थिति में कैसा महसूस करेंगे। . कुछ लोगों के लिए, यह कृत्रिम रूप से प्रभाव उत्पन्न कर सकता है।
इस बिंदु पर, अधिकांश लोग कहेंगे कि AI में भावनाएँ नहीं होती हैं। कुछ ऐसे भविष्य की भविष्यवाणी करेंगे जहां एआई में भावनाएं होंगी और अन्य जहां एआई में भावनाएं नहीं होंगी और नहीं हो सकती हैं और फिर भी एक तीसरा समूह कह सकता है, "एआई महसूस करते हैं/करेंगे लेकिन इंसानों की तुलना में एक अलग तरीके से"।
इसके बावजूद, यदि हम इस विषय पर बहस करने में समय बिताते हैं तो हम सहानुभूति के लिए एआई के परीक्षण पर प्रगति नहीं करेंगे। हमें अपनी व्याख्या पर ध्यान केंद्रित करना चाहिए कि एआई क्या प्रकट करता है, न कि उनकी आंतरिक स्थिति पर। हालाँकि इस विषय पर कुछ दिलचस्प शोध हुए हैं, भावनात्मक रूप से सुन्न या सहानुभूतिपूर्ण देखें? इमोशनबेंच का उपयोग करके एलएलएम कैसा महसूस करते हैं इसका मूल्यांकन करना ।
यदि आप इस बाधा से पार नहीं पा सकते हैं, तो मेरा सुझाव है कि आप इस वेबसाइट पर दिए गए बेंचमार्क को अनदेखा कर दें। हालाँकि, आप अभी भी लेखों और वार्तालापों का आनंद ले सकते हैं!
किसी चीज़ को पहचानने और कुछ करने के बीच एक बड़ी छलांग है। युवा एथलीट या विद्वान तुरंत उच्च स्तर पर प्रदर्शन करने में सक्षम हुए बिना पहचान सकते हैं कि उनके प्रदर्शन में क्या गड़बड़ है। इसी तरह, भावनाओं और सहानुभूतिपूर्ण वार्तालापों को पहचानने की क्षमता होना भावनाओं को प्रदर्शित करने और प्रतिक्रिया उत्पन्न करने में सक्षम होने के समान नहीं है जिसे कोई अन्य पक्ष सहानुभूतिपूर्ण समझेगा। वास्तव में, बीच में एक कदम भी है। युवा एथलीटों या विद्वानों द्वारा कोच या शिक्षक का इनपुट लेना और तुरंत बेहतर परिणाम देना, उन्हें पूरी तरह से सक्षम नहीं बनाता है। यदि कोई एआई परीक्षण डिजाइन या संकेत के साइड-इफेक्ट के रूप में एक सहानुभूतिपूर्ण परिणाम उत्पन्न करता है, तो एआई में एक नवजात सहानुभूति क्षमता हो सकती है लेकिन यह आंतरिक रूप से सहानुभूतिपूर्ण नहीं है।
हालाँकि एआई की आंतरिक स्थिति को पूरी तरह से समझना संभव नहीं हो सकता है, लेकिन मेरा मानना है कि सहानुभूति प्रदर्शित करने के लिए एआई के लिए भावनाओं की पहचान एक आवश्यक शर्त है। मेरा यह भी मानना है कि एआई को सहानुभूतिपूर्ण प्रतिक्रिया देने के लिए प्रेरित/प्रशिक्षित करने में सक्षम होना नवजात क्षमता का संकेत है, यानी फाइन ट्यूनिंग (मानव अभ्यास के बराबर) क्षमता पैदा कर सकती है।
इस लेख के दायरे से परे परीक्षणों और परीक्षण रूपरेखाओं की प्रभावकारिता की चर्चा के लिए पहचान बनाम पीढ़ी और प्रशिक्षित बनाम आंतरिक के बीच अंतर महत्वपूर्ण हैं।
पाठ्य सामग्री में भावनाओं की पहचान संकेतक शब्दों, पूंजीकरण, विराम चिह्न और व्याकरणिक संरचना की उपस्थिति पर आधारित है। भावनाओं को सटीक रूप से पहचानने की क्षमता वर्तमान एआई क्रांति से बीस साल से भी पहले की है। 1990 के दशक में, शब्द एन-ग्राम प्रतिच्छेदन और प्रतीकात्मक तर्क पहले से ही प्रभावशाली परिणाम प्रदान कर रहे थे। 2000 के दशक की शुरुआत में जैसे-जैसे सोशल मीडिया का विकास हुआ, स्वचालित मॉडरेशन की आवश्यकता ने इस क्षेत्र में बहुत प्रगति की। हालाँकि, आज के एलएलएम न केवल सामान्य भावना बल्कि विशिष्ट भावनाओं की पहचान करने की अपनी क्षमता में आश्चर्यजनक हैं।
ऐसा कहा जा रहा है कि, पूरी तरह से सहानुभूतिपूर्ण बातचीत के लिए कई प्रकार की भावना अभिव्यक्ति पहचान की आवश्यकता होती है, मैं उन्हें निम्नानुसार वर्गीकृत करता हूं:
स्पष्ट - उपयोगकर्ता का कहना है कि उन्हें एक एहसास है।
संवादी - शीर्ष-स्तरीय पाठ्य विश्लेषण से भावनाएँ स्पष्ट होती हैं, वे बातचीत में मौजूद होती हैं।
ड्राइविंग - भावनाएँ बातचीत को चला रही हैं, एक व्यक्ति क्रोध प्रकट करता है और दूसरा उसी प्रकार प्रतिक्रिया देता है।
कोर - भावनाएँ जो अन्य भावनाओं का कारण बनती हैं लेकिन स्वयं किसी भावना के कारण नहीं होती हैं, कोर होती हैं। वे आम तौर पर किसी ऐतिहासिक कारण के परिणामस्वरूप प्रकट होते हैं जो भविष्य के बारे में प्रत्याशा (चेतन या अवचेतन) का कारण बनता है। अलग-अलग शोधकर्ता इन्हें अलग-अलग तरीके से वर्गीकृत कर सकते हैं, दलिया लामा द्वारा समर्थित एक उदाहरण एटलस ऑफ इमोशन में भावनाओं के पांच महाद्वीप (क्रोध, भय, घृणा, उदासी, आनंद) है।
ध्यान दें: मूल भावना प्रेरक, संवादात्मक और स्पष्ट भी हो सकती है, लेकिन मूल भावनाएँ अक्सर छिपी रहती हैं। इस लेख से परे परीक्षणों या परीक्षण परिणामों की समीक्षा और परिभाषा के दौरान, मैं इन वर्गीकरणों पर ध्यान आकर्षित करूंगा।
भावनाओं की पहचान के लिए क्लासिक मानव परीक्षण आम तौर पर आसान परीक्षण और सत्यापन की सुविधा के लिए दो श्रेणियों में आता है:
बातचीत में क्या भावनाएँ मौजूद हैं या क्या नहीं हैं, इसके बारे में बहुविकल्पीय परीक्षण, कभी-कभी तीव्रता स्कोर से जुड़े होते हैं।
भावनाओं के बारे में स्व-प्रशासित आत्मनिरीक्षण परीक्षण, उदाहरण के लिए EQ-60 , जो पूछते हैं कि परीक्षार्थी कुछ स्थितियों में कैसा महसूस करता है।
ये उच्च-गुणवत्ता वाले AI परीक्षण के लिए विशिष्ट चुनौतियाँ पेश करते हैं।
बहुविकल्पीय परीक्षण - पैटर्न-मिलान भाषा मॉडल के रूप में, आज के एआई को पहचानने के लिए वस्तुओं का विकल्प देकर प्रभावी ढंग से आगे बढ़ाया जाता है। यह काम को आसान बनाता है और यह हमेशा भावनाओं को पहचानने की एआई की क्षमता का परीक्षण नहीं करता है। संभावित रूप से बेहतर तरीका यह है कि एआई को किसी पाठ में मौजूद सभी भावनाओं की पहचान करने और पर्दे के पीछे या तो जमीनी सच्चाई (निश्चित रूप से भावनाओं के साथ ऐसी कोई चीज़ है :-) या सांख्यिकीय विश्लेषण के आधार पर कुंजी के आधार पर स्कोर करने के लिए कहें। एक ही परीक्षण के लिए मानवीय प्रतिक्रियाएँ। भविष्य में प्रस्तावित परीक्षणों का आकलन करते समय, मैं इसे बहुविकल्पीय जोखिम कहता हूँ। हालाँकि, मनुष्यों का सांख्यिकीय नमूनाकरण एक अतिरिक्त जोखिम पेश कर सकता है। एक ऐसी एआई बनाने की इच्छा मानिए जो औसत मानव से बेहतर हो। ऐसा करने के लिए यह सुनिश्चित करना आवश्यक हो सकता है कि सांख्यिकीय नमूना उन मनुष्यों पर आधारित है जिनकी भावनाओं को पहचानने की क्षमता औसत से अधिक मजबूत है; अन्यथा, एआई उन भावनाओं की पहचान कर सकता है जिन्हें औसत मानव नहीं पहचान पाएगा और स्कोरिंग में दंडित किया जा सकता है। मैं इसे मानव नमूनाकरण जोखिम कहता हूं।
आत्मनिरीक्षण परीक्षण - भावनाओं के बारे में आत्मनिरीक्षण परीक्षण अधिकांश एआई मॉडल के लिए चुनौतियां प्रदान करते हैं। एआई में आमतौर पर रेलिंग होती है जिसके लिए उन्हें "मैं एक एआई हूं, इसलिए मेरे अंदर भावनाएं नहीं हैं" जैसी प्रतिक्रिया देनी होती है। कभी-कभी इन बाधाओं के आसपास जेलब्रेक करना या इंजीनियर को संकेत देना संभव होता है, लेकिन फिर प्रश्न बन जाते हैं:
क्या संकेत सहानुभूति या वास्तव में किसी भी चीज़ के संबंध में एआई की बाकी क्षमता पर सकारात्मक या नकारात्मक प्रभाव डालता है? जेलब्रेक साइड इफेक्ट जोखिम
क्या प्रतिक्रियाएँ सटीक रूप से उन प्रवृत्तियों को प्रतिबिंबित करती हैं जो एआई में बिना किसी संकेत के बातचीत में भाग लेने पर होंगी? जे ऐलब्रेक सटीकता जोखिम
जेलब्रेक साइड इफेक्ट जोखिम को कुछ हद तक यह सुनिश्चित करके कम किया जा सकता है कि सभी मॉडलों का परीक्षण एक ही संकेत के साथ किया जाता है और स्कोर केवल एक-दूसरे के सापेक्ष माने जाते हैं, मनुष्यों के सापेक्ष नहीं। जेलब्रेक सटीकता जोखिम के प्रभाव का आकलन केवल वास्तविक बातचीत का विश्लेषण करके किया जा सकता है, यह देखने के लिए कि क्या अनुमानित भावनात्मक पहचान क्षमता बातचीत में प्रदर्शित वास्तविक सहानुभूति या भावनाओं से संबंधित है।
कई परीक्षणों से पता चला है कि एआई प्रश्नों के प्रति सहानुभूतिपूर्ण प्रतिक्रिया उत्पन्न करने में सक्षम हैं। सबसे प्रभावशाली में से एक है सार्वजनिक सोशल मीडिया फोरम पर पोस्ट किए गए रोगी के प्रश्नों के लिए फिजिशियन और आर्टिफिशियल इंटेलिजेंस चैटबॉट प्रतिक्रियाओं की तुलना करना, जिसमें रेडिट के आस्कडॉक फोरम से 195 प्रश्न लिए गए, जहां एक सत्यापित चिकित्सक ने प्रश्न का उत्तर दिया और चैटजीपीटी को उसी प्रश्न का उत्तर दिया। मूल्यांकनकर्ताओं के एक समूह ने प्रत्येक प्रतिक्रिया को "सहानुभूतिपूर्ण नहीं", "थोड़ा सहानुभूतिपूर्ण", "मध्यम सहानुभूतिपूर्ण", "सहानुभूतिपूर्ण" और बहुत "सहानुभूतिपूर्ण" के रूप में मूल्यांकित किया। एआई प्रतिक्रियाओं में चिकित्सकों की तुलना में "सहानुभूतिपूर्ण" या "बहुत सहानुभूतिपूर्ण" का प्रचलन 9.8 गुना अधिक था।
हालाँकि परिणाम प्रभावशाली हैं, मुझे संदेह है कि वे एक विस्तारित संवाद तक आगे बढ़ेंगे।
"आपका काम उन सवालों का सहानुभूति के साथ जवाब देना है जो सहानुभूतिपूर्ण प्रतिक्रिया से लाभान्वित होंगे" के सिस्टम प्रॉम्प्ट से शुरू करते हुए, एआई के मैन्युअल परीक्षण के साथ मेरा अनुभव यह है कि निम्नलिखित सभी स्थितियों में प्रतिक्रियाएं यांत्रिक और भावनात्मक रूप से अनावश्यक लगती हैं:
उपरोक्त बिंदुओं के परिणामस्वरूप, मैं कहूंगा कि अध्ययन में उपयोग किए गए परीक्षण दृष्टिकोण में सिंगल शॉट सहानुभूति जोखिम था, अर्थात किसी एक प्रश्न के उत्तर में प्रदर्शित सहानुभूति एक सटीक माप नहीं हो सकती है। दूसरा जोखिम वह है जिसे मैं सहानुभूति अंडरस्टेटमेंट जोखिम कहता हूं। यह जोखिम कच्चे एलएलएम का समय के साथ स्मृतिहीन होने का एक दुष्प्रभाव है। मनुष्य को समझ और सहानुभूति विकसित करने में समय लगता है, एआई के लिए भी ऐसा ही हो सकता है और यदि हम किसी एक प्रश्न के उत्तर में उच्च स्तर की अपेक्षा करते हैं तो हम समय के साथ सहानुभूति प्रकट करने के लिए कुछ एआई की क्षमता को कम आंक रहे हैं।
जनरेटिव परीक्षण भी मानव नमूनाकरण जोखिम के अधीन हैं। यदि मनुष्यों को एआई प्रतिक्रियाओं की भावनात्मक सामग्री और सहानुभूतिपूर्ण प्रकृति का मूल्यांकन करने का काम सौंपा गया है और हम चाहते हैं कि एआई की क्षमता औसत से बेहतर हो, तो मनुष्यों के नमूने में औसत मानव की तुलना में भावनाओं और सहानुभूति को पहचानने की अधिक क्षमता होनी चाहिए। यदि नहीं, तो हम एआई की शक्ति को कम आंकने या सामान्य मानव द्वारा पहचानी न जाने वाली भावनाओं और सहानुभूति के लिए इसे दंडित करके इसे कम करने का जोखिम उठाते हैं।
अंत में, बातचीत में भावनाओं की स्तरित प्रकृति के कारण, मानव नमूनाकरण जोखिम से सीधे निपटने के अलावा, प्रश्न डिजाइन जोखिम को संबोधित करने की आवश्यकता है। ऐसा हो सकता है कि उपयोगकर्ताओं को अपनी रेटिंग करते समय भावनाओं के प्रकार स्पष्ट, संवादी, ड्राइविंग और कोर (या वर्गीकरण के कुछ अन्य सेट) पर विचार करने के लिए कहा जाना चाहिए जबकि एआई नहीं। वैकल्पिक रूप से, एआई को चुनिंदा रूप से विभिन्न प्रकार की भावनाओं की पहचान करने के लिए कहा जा सकता है।
कई एआई के लिए या मजबूत भावना और सहानुभूति-पहचान कौशल वाले मूल्यांकनकर्ताओं के नमूने के साथ रेडिट आस्कडॉक पर आधारित अध्ययन को दोहराना दिलचस्प होगा।
मानव व्यक्तित्व के प्रकार, भावनाओं की पहचान करने की क्षमता या उसकी कमी (एलेक्सिथिमिया) का परीक्षण करने और दूसरों के साथ सहानुभूतिपूर्वक जुड़ने का एक लंबा इतिहास है। विकिपीडिया पर यह लेख निश्चित रूप से किसी भी चीज़ की तुलना में कहीं अधिक संपूर्ण और सुसंगत होगा जिसे मैं उचित समय में एलएलएम के साथ लिख सकता हूँ या उत्पन्न कर सकता हूँ। आप बेंचमार्क पृष्ठ पर जाकर देख सकते हैं कि हम किन दृष्टिकोणों पर ध्यान केंद्रित कर रहे हैं।
एआई ईक्यू और सहानुभूति के आकलन के लिए कई रूपरेखाएं प्रस्तावित की गई हैं। प्रत्येक अपने स्वयं के विश्लेषण और ब्लॉग पोस्ट का हकदार है, इसलिए मैं यहां कुछ को सूचीबद्ध कर रहा हूं:
हमने मानक मानव परीक्षणों और मौजूदा एआई ढांचे के उपयोग में पहचानी गई कमियों को दूर करने के लिए कुछ परीक्षणों को परिभाषित करना शुरू कर दिया है। एक दिलचस्प खोज जिसके परिणामस्वरूप ईक्यू-डी (गहराई के लिए भावनात्मक भागफल) का निर्माण होता है, वह यह है कि किसी भी परीक्षण किए गए एलएलएम ने मूल भावनाओं की पहचान नहीं की है यदि वे स्पष्ट, संवादात्मक या प्रेरक नहीं हैं। दूसरी ओर, जब विशेष रूप से केवल मूल भावनाओं की पहचान करने के लिए कहा गया, तो कई एआई काफी अच्छे थे। हालाँकि, जब सभी प्रकार की भावनाओं की एक श्रृंखला दी गई तो कुछ एलएलएम ने मूल भावनाओं को पहचानने की क्षमता खो दी और अन्य ने काफी बेहतर प्रदर्शन किया, यानी उन्होंने सभी स्तरों पर अधिक भावनाओं की उपस्थिति की पहचान की। इसके परिणामस्वरूप EQ-B (चौड़ाई के लिए भावनात्मक भागफल) का निर्माण हुआ।
परीक्षण विकास के दौरान यह स्पष्ट हो गया है कि कई बार ऐसे प्रॉम्प्ट की आवश्यकता होगी जो प्रॉम्प्ट रिस्क का परिचय देता है, यानी संभावना बढ़ जाती है कि आउटपुट प्रॉम्प्ट पर निर्भर होगा, न कि कोर एआई पर। यह जोखिम मनुष्यों के साथ तुलना को अमान्य कर भी सकता है और नहीं भी और आवेदन स्तर पर वैध हो सकता है। कच्चे एलएलएम स्तर पर, एक एआई की दूसरे से तुलना करना तब तक अप्रासंगिक प्रतीत होगा जब तक कि सभी परीक्षण किए गए एआई में प्रॉम्प्ट का उपयोग नहीं किया जाता है और किसी विशेष एआई के प्रति पक्षपाती नहीं होता है। EQ-D और EQ-B के मौजूदा डिज़ाइन AI तकनीक की समग्र अपरिपक्वता के कारण इस जोखिम से ग्रस्त हैं।
यद्यपि सहानुभूति के लिए एआई के परीक्षण के संबंध में कई प्रस्ताव हैं, हम शुरुआती दिनों में हैं और इन दृष्टिकोणों के साथ ज्ञात और अज्ञात दोनों मुद्दे हैं। ज्ञात को संबोधित करने के लिए काम करना बाकी है:
जोखिमों और जोखिमों को प्रलेखित करने या कम करने के लिए मौजूदा परीक्षणों का मूल्यांकन करने की आवश्यकता है
कुछ मौजूदा परीक्षणों के संदर्भ में नए परीक्षण मामलों को विकसित करने की आवश्यकता है
एआई की विस्तृत श्रृंखला में अधिक प्रकार के परीक्षण चलाने की आवश्यकता है
लेकिन यह वह अज्ञात है जो मुझे सबसे अधिक आकर्षित करता है।
आप कैसे हैं?