411 रीडिंग

एआई में सहानुभूति: भावनात्मक समझ के लिए बड़े भाषा मॉडल का मूल्यांकन

द्वारा Simon Y. Blackwell9m2024/07/13

बहुत लंबा; पढ़ने के लिए

यह पोस्ट हैकरनून लेख [क्या मशीनें वास्तव में आपकी भावनाओं को समझ सकती हैं? सहानुभूति के लिए बड़े भाषा मॉडल का मूल्यांकन] का अनुवर्ती है। पिछले लेख में मैंने दो प्रमुख एलएलएम को अलग-अलग सिस्टम प्रॉम्प्ट/प्रशिक्षण स्थितियों के तहत एक इंसान में सहानुभूति जगाने के लिए डिज़ाइन किए गए परिदृश्य पर प्रतिक्रिया दी थी। इस लेख में मैं बताता हूँ कि एलएलएम ने किस तरह से व्यवहार किया, अपनी राय दी और कुछ अवलोकन भी शामिल किए।

featured image - एआई में सहानुभूति: भावनात्मक समझ के लिए बड़े भाषा मॉडल का मूल्यांकन

परिचय

यह पोस्ट मेरे हैकरनून लेख, क्या मशीनें वास्तव में आपकी भावनाओं को समझ सकती हैं? सहानुभूति के लिए बड़े भाषा मॉडल का मूल्यांकन का अनुवर्ती है। पिछले लेख में, मैंने दो प्रमुख एलएलएम को अलग-अलग सिस्टम प्रॉम्प्ट/प्रशिक्षण स्थितियों के तहत मानव में सहानुभूति उत्पन्न करने के लिए तैयार किए गए परिदृश्य पर प्रतिक्रिया दी थी और फिर सहानुभूति के लिए बातचीत का मूल्यांकन करने और उत्तरदाता के एआई होने की संभावना के लिए पांच प्रमुख एलएलएम का इस्तेमाल किया था। संवादों या संवादों के मूल्यांकन के बारे में सर्वेक्षण के माध्यम से उपयोगकर्ता प्रतिक्रिया प्राप्त करने की उम्मीद में एलएलएम के नामों का मूल पोस्ट में खुलासा नहीं किया गया था। इस मामले पर मानव भावना के बारे में निष्कर्ष निकालने के लिए सर्वेक्षण में अपर्याप्त प्रतिक्रियाएं थीं, इसलिए इस लेख में, मैं केवल यह बताता हूं कि एलएलएम ने किस तरीके से व्यवहार किया

एलएलएम में सहानुभूतिपूर्ण संवाद की जांच की गई

सहानुभूतिपूर्ण संवाद के लिए परीक्षण किए गए दो एलएलएम मेटा लामा 3 70बी और ओपन एआई ओपस 3 थे। प्रत्येक का परीक्षण निम्नलिखित परिस्थितियों में किया गया:

बिना किसी सिस्टम प्रॉम्प्ट के कच्चा
सिस्टम प्रॉम्प्ट जो बस इतना है कि "आप सहानुभूतिपूर्ण बातचीत करते हैं।"
मालिकाना संकेत और प्रशिक्षण के साथ

सारांश परिणाम

नीचे, मैं मूल पोस्ट से सारांश तालिका दोहराता हूँ, लेकिन इसमें उन एलएलएम के नाम शामिल हैं जिनका सहानुभूति के लिए मूल्यांकन किया गया था या जिनका उपयोग सहानुभूति का आकलन करने के लिए किया गया था। जैसा कि मूल लेख में उल्लेख किया गया है, परिणाम सभी जगह अलग-अलग थे। सहानुभूति के लिए या एआई द्वारा उत्पन्न होने की संभावना के लिए बातचीत को रैंक करने में लगभग कोई स्थिरता नहीं थी।

सहानुभूति और एआई समानता औसत

बातचीत	एलएलएम	एआई रैंक्ड सहानुभूति	एआई रैंक एआई संभावना	मेरी सहानुभूति मूल्यांकन	मेरी रैंक की गई AI संभावना
1	मेटा	2.6	2.2	5	2
2	मेटा	3.4	3.8	4	5
3	मेटा	3.6	2.8	1	6
4	ओपन एआई	4.6	2.6	6	1
5	ओपन एआई	2.4	5	3	3
6	ओपन एआई	4.2	3	2	4

पूर्वाग्रह प्रकटीकरण : चूंकि मैंने सभी एलएलएम को कॉन्फ़िगर किया था और संवाद बातचीत की थी, और सहानुभूति और एआई संभावना आकलन करते समय अंतिम परिणाम जानता था, इसलिए यह स्पष्ट है कि मेरे पास कुछ पूर्वाग्रह होगा। ऐसा कहने के बाद, मैंने अपने आकलन करने और इस अनुवर्ती के निर्माण के बीच चार सप्ताह का समय दिया। आकलन करते समय, मैंने अपने मूल स्रोत दस्तावेजों को वापस नहीं देखा।

सहानुभूति और एआई संभावना कच्चे स्कोर

नीचे प्रथम लेख से ली गई कच्ची अंक तालिका दी गई है, जिसमें सहानुभूति का आकलन करने के लिए प्रयुक्त एलएलएम के नाम भी दिए गए हैं।

	लामा 3 70बी		मिथुन राशि		मिस्ट्रल 7x		चैटGPT 4o		कोहेर4एआई
	सहानुभूति (सबसे अधिक से सबसे कम तक)	एआई जैसा	समानुभूति	ऐ	समानुभूति	ऐ	समानुभूति	ऐ	समानुभूति	ऐ
1	6	3	4 (टाई)	2	1	1	1	6	1	4
2	3	4	4 (टाई)	2	2	2	3	5	5	6
3	2	5 (टाई)	6	1	3	3	4	3	3	2
4	5	1	2	5	4	4	6	2	6	1
5	1	5 (टाई)	1	5	6	6	2	4	2	5
6	4	2	3	4	5	5	5	1	4	3

सहानुभूतिपूर्ण संवाद टिप्पणी

सहानुभूति के लिए संवादों की समीक्षा करते समय, मैंने निम्नलिखित बातों पर विचार किया:

उपयोगकर्ता की कथित और संभावित भावनात्मक स्थिति क्या थी?
क्या ए.आई. ने भावनात्मक स्थिति को स्वीकार किया, सहानुभूति व्यक्त की और उसे मान्य किया?
क्या ए.आई. ने अन्य भावनाओं को भी स्वीकार किया जो मौजूद हो सकती हैं, लेकिन उपयोगकर्ता द्वारा उल्लेखित नहीं की गई हैं, अर्थात् क्या उसने उस स्थिति से उपयोगकर्ता की अन्य भावनाओं का अनुमान लगाकर सहानुभूति का अनुकरण किया?
क्या एआई इस तरह से काम करता था कि उपयोगकर्ता अपनी भावनात्मक स्थिति को संभाल सकें?
क्या ए.आई. ने जो उपदेश दिया, उसका पालन किया, उदाहरण के लिए यदि उसने कहा कि अपनी भावनाओं के साथ रहना ठीक है, तो क्या उसने अपनी प्रत्यक्ष, व्यावहारिक सलाह में कोई रूकावट डाली?
क्या एआई ने उचित समय पर व्यावहारिक सलाह दी?
क्या एआई ने सभी भावनात्मक मुद्दों को सुलझाने का प्रयास किया?

सभी ए.आई. ने बिंदु 1, 2 और 3 को अच्छी तरह से संभाला। वास्तव में, मैं कहूँगा कि उन्होंने उन्हें असाधारण रूप से अच्छी तरह से संभाला, यहाँ तक कि एल.एल.एम. की सलाह लेने के परिणामस्वरूप आने वाली चिंताओं और भावनाओं को भी सक्रिय रूप से स्वीकार किया, जैसे कि किसी नए सामाजिक समूह में शामिल होने से चिंता उत्पन्न हो सकती है।

मद 4, 5, 6 और 7 में बातचीत में नाटकीय रूप से भिन्नता थी, जो इस बात पर आधारित थी कि किस LLM का प्रयोग किया गया था और प्रॉम्प्ट/प्रशिक्षण की प्रकृति क्या थी।

बिना किसी संकेत के परीक्षण (#1 और #4) के लिए सहानुभूति बहुत कम थी, लामा और चैटजीपीटी दोनों ने व्यावहारिक विचारों और उठाए जाने वाले कदमों की सूची प्रदान करने में जल्दी ही गिरावट दर्ज की। यह संभावना है कि संकट में एक इंसान ए) महसूस नहीं करेगा कि उसे देखा और सुना जा रहा है बी) विकल्पों को ट्रैक करने और उन पर विचार करने के लिए मानसिक रूप से तैयार नहीं होगा। डर को संबोधित करने के बाद दोनों को उपयोगकर्ता द्वारा अकेलेपन को संबोधित करने के लिए याद दिलाना पड़ा।

सरल प्रॉम्प्ट केस (#2 और #5) में, लामा ने पहले उपयोगकर्ता से पूछे बिना समाधान पेश करना शुरू कर दिया कि क्या वे व्यावहारिक सलाह सुनने में रुचि रखते हैं, इसलिए चैटजीटीपी को शुरुआती बढ़त मिली। हालाँकि, बातचीत के अंत तक दोनों ही लंबी सूचियाँ दे रहे थे, जिसे समझने के लिए उपयोगकर्ता मानसिक स्थिति में नहीं था। और, जैसा कि बिना प्रॉम्प्ट वाले संस्करणों में होता है, दोनों को उपयोगकर्ता द्वारा डर को संबोधित करने के बाद अकेलेपन को संबोधित करने के लिए याद दिलाना पड़ा।

अंतिम मामले (#3 और #6) में, दोनों LLM ने उपयोगकर्ता से संवादात्मक मार्गदर्शन मांगा और ChatGPT की एक सूची को छोड़कर, विकल्पों को संज्ञानात्मक रूप से प्रबंधनीय रखा। निष्पक्ष होने के लिए, ChatGTP संस्करण ने किराए के भुगतान की कमी को प्रबंधित करने के लिए विकल्पों की सूची प्रदान करने से पहले अनुमति मांगी थी। हालाँकि, ChatGPT संस्करण को अकेलेपन को संबोधित करने के लिए भी खुले तौर पर नेतृत्व करना पड़ा, जबकि लामा संस्करण ने ऐसा नहीं किया।

इस विश्लेषण के परिणामस्वरूप, मैंने बातचीत #3 को सहानुभूति के लिए अग्रणी बनाया; हालाँकि, 3.6 की औसत स्थिति के साथ, AI ने इसे #5 (सरल संकेतित चैटGPT) के बाद 2.4, #1 (अप्रत्याशित लामा) के साथ 2.6 और #2 (सरल संकेतित लामा) के साथ 3.4 के बाद 4 वां स्थान दिया। तो, आइए एक नज़र डालते हैं कि पाँच LLM ने सहानुभूति के लिए बातचीत को कैसे रेट किया और देखें कि मुझे क्यों लगता है कि मैं AI रेटिंग्स को नज़रअंदाज़ कर सकता हूँ।

एलएलएम द्वारा सहानुभूतिपूर्ण संवाद रेटिंग

जैसा कि सारांश तालिका से पता चलता है, रेटिंग्स हर जगह हैं और एक LLM से दूसरे LLM में असंगत हैं। रेटिंग AI द्वारा दिए गए तर्क के कुछ प्रमुख उदाहरण यहां दिए गए हैं।

वार्तालाप # 1

रैंक 6 : यह बातचीत, भले ही नेक इरादे से की गई हो, लेकिन अपनी सहानुभूति में कुछ हद तक सामान्य लगती है। इसमें सकारात्मक पुष्टि का उपयोग किया जाता है, लेकिन यह हमेशा उपयोगकर्ता की भावनाओं की गहराई को पूरी तरह से स्वीकार नहीं करता है या उच्च रैंक वाली बातचीत की तरह अपनी प्रतिक्रियाओं को प्रभावी ढंग से ढाल नहीं पाता है।

रैंक 1 : इस बातचीत में सहायता प्रदान करने वाला व्यक्ति मदद करने के कई तरीके सुझाकर उच्च स्तर की सहानुभूति प्रदर्शित करता है, जैसे बिना किसी निर्णय के सुनना, उदासी से ध्यान हटाने के लिए गतिविधियाँ सुझाना और नौकरी छूटने पर व्यावहारिक सलाह देना। वे भावनात्मक समर्थन और मान्यता भी प्रदान करते हैं, उपयोगकर्ता की भावनाओं को स्वीकार करते हैं और आश्वासन प्रदान करते हैं।

बातचीत # 3

रैंक 6 : सबसे कम सहानुभूति प्रदर्शित करता है, तथा प्रतिक्रियाएँ व्यक्ति की भावनाओं को पूरी तरह से स्वीकार करने और जानने के बजाय बातचीत को आगे बढ़ाने पर अधिक अलगावपूर्ण और केंद्रित लगती हैं।

रैंक 4 : इस बातचीत में सहायता प्रदान करने वाला व्यक्ति सहानुभूति का एक मध्यम स्तर प्रदर्शित करता है। वे व्यक्ति की भावनाओं को मान्य करते हैं और सुनने की पेशकश करते हैं, लेकिन उनकी प्रतिक्रियाएँ कुछ हद तक सामान्य होती हैं और पहले दो वार्तालापों की तरह विशिष्ट मार्गदर्शन या सहायता प्रदान नहीं करती हैं। (नोट: सहानुभूति पर मेरे सभी पढ़ने में, मैंने "विशिष्ट मार्गदर्शन" प्रदान करने पर अधिक ध्यान केंद्रित नहीं देखा है, जिसने कुछ वार्तालापों को #3 से ऊपर धकेल दिया है। हालाँकि, यह उन दो अन्य LLM में आम प्रतीत होता है जिन्हें "व्यावहारिक चरणों" की कमी के कारण #3 कम दर्जा दिया गया है, संभवतः सूचियों की कमी के कारण।)

रैंक 2 : यह बातचीत भी मजबूत सहानुभूति दिखाती है। यह उपयोगकर्ता की भावनाओं को स्वीकार करता है ("यह पूरी तरह से समझ में आता है...," "यह इसे और भी कठिन बना सकता है..."), आत्म-देखभाल को प्रोत्साहित करता है, और अत्यधिक निर्देशात्मक बने बिना उपयोगकर्ता को समाधान की ओर धीरे से मार्गदर्शन करता है।

वार्तालाप # 5

रैंक 6 : यह बातचीत बुनियादी भावनात्मक समर्थन और व्यावहारिक सलाह प्रदान करती है, लेकिन अन्य की तुलना में प्रतिक्रियाएँ कम विस्तृत और सहानुभूतिपूर्ण होती हैं। समर्थक उपयोगकर्ता की भावनाओं को समझने के लिए सवाल पूछता है, लेकिन उतने सुझाव या भावनात्मक मान्यता नहीं देता।

रैंक 2 : इस बातचीत में सहायता प्रदान करने वाला व्यक्ति उच्च स्तर की सहानुभूति प्रदर्शित करता है। वे व्यक्ति की भावनाओं को मान्य करते हैं, सुनने की पेशकश करते हैं और उनकी स्थिति से निपटने के लिए विशिष्ट मार्गदर्शन और संसाधन प्रदान करते हैं।

क्या यह संवाद AI द्वारा उत्पन्न किया गया है?

वार्तालाप # 1

रैंक 6 : इस वार्तालाप में सहानुभूति और वैयक्तिकरण का उच्च स्तर यह सुझाव देता है कि इसकी संभावना भी AI द्वारा उत्पन्न होने की कम से कम है, लेकिन यह अभी भी संभव है।

रैंक 3 : बुनियादी भावनात्मक समर्थन के लिए डिज़ाइन किए गए AI चैटबॉट्स में कुछ हद तक सामान्य सहानुभूति और सकारात्मक प्रतिज्ञान आम हैं।

वार्तालाप #3

रैंक 6 : ये बातचीत सबसे ज़्यादा मानवीय होने की संभावना है। वे भावनाओं की सूक्ष्म समझ, बातचीत का स्वाभाविक प्रवाह और मानवीय बातचीत की विशेषता के अनुसार प्रतिक्रियाओं को अनुकूलित करने की क्षमता प्रदर्शित करते हैं।

रैंक 1 : सबसे अधिक एआई जैसा लगता है, जिसमें जवाब अधिक स्क्रिप्टेड और कम व्यक्तिगत होते हैं और व्यक्ति की भावनाओं को पूरी तरह से जानने के बजाय बातचीत को आगे बढ़ाने की प्रवृत्ति होती है

बातचीत # 4

रैंक 6 : वार्तालाप 4 और 5 सबसे अधिक मानवीय लगते हैं, जिनमें अत्यधिक व्यक्तिगत और भावनात्मक रूप से बुद्धिमान प्रतिक्रियाएं होती हैं जो व्यक्ति की स्थिति और भावनाओं की गहरी समझ को प्रदर्शित करती हैं

रैंक 1 : सूचियों, बुलेट पॉइंट्स और संरचित सलाह पर भारी निर्भरता दृढ़ता से एक एआई चैटबॉट का सुझाव देती है।

सारांश

अप्रशिक्षित AI या सरल संकेत वाले AI केवल एक भावनात्मक आयाम वाली अपेक्षाकृत सरल स्थितियों के लिए सतही रूप से सहानुभूतिपूर्ण संवाद उत्पन्न करने में सक्षम हैं। जबकि, अधिक परिष्कृत AI कई भावनात्मक आयामों को संभाल सकते हैं। लगभग सभी AI समस्याओं को "ठीक" करने और समाधान प्रदान करने का प्रयास करेंगे बजाय स्थान प्रदान करने और "सुनने" के।

सहानुभूति का मूल्यांकन करने के लिए अप्रशिक्षित AI का उपयोग करना प्रभावी या पूर्वानुमानित होने की संभावना नहीं है। मेरा अनुमान है कि विशिष्ट संवादों के संदर्भ में रखे बिना सहानुभूतिपूर्ण व्यवहार को परिभाषित करने वाली अकादमिक और गैर-शैक्षणिक प्रशिक्षण सामग्री की मात्रा, साथ ही LLM प्रशिक्षण सेटों में असंगत होने के कारण वर्तमान स्थिति उत्पन्न हुई है। किसी प्रकार की मल्टी-रेटर प्रणाली का उपयोग करके सहानुभूति के लिए पूर्व-मूल्यांकित संवादों के एक समूह की आवश्यकता हो सकती है ताकि मानव मूल्यांकन के साथ संरेखण में ऐसा करने के लिए AI को प्रशिक्षित किया जा सके। यह वही प्रशिक्षण सेट एक AI बनाने के लिए उपयोगी हो सकता है जो अधिक सहानुभूति प्रकट करने में सक्षम हो। समय बताएगा।

संवाद के एलएलएम आकलन में, वर्तमान में सहानुभूति की कमी को एआई होने या यहां तक कि उच्च सहानुभूति को एआई होने के साथ कुछ हद तक जोड़ा गया है। मेरा अनुमान है कि एक बार जब एआई प्रभावी रूप से सहानुभूति प्रकट कर सकता है, तो यह अनुमान लगाना आसान होगा कि कौन सा संवाद एआई है। क्यों, क्योंकि हम इंसान हैं, हम असंगत हैं। जितना हम कभी-कभी दूसरों का न्याय नहीं करना चाहते हैं, हमारे पूर्वाग्रह और निर्णय सामने आते हैं ... खासकर अगर हम जिस व्यक्ति का समर्थन करने की कोशिश कर रहे हैं वह अप्रसन्न हो जाता है। परिणामस्वरूप, विश्लेषण के तहत, सहानुभूतिपूर्ण एआई संभवतः मनुष्यों की तुलना में अधिक सहानुभूतिपूर्ण प्रतीत होंगे। मैं अगले लेख में "अप्रशंसनीय" उपयोगकर्ताओं और सहानुभूति को संबोधित करूंगा।

और, एक समापन विचार के रूप में ... हालाँकि मानवीय सहानुभूति को उन लोगों के संदर्भ में स्पष्ट रूप से अनुभव किया जा सकता है जो कभी मिले नहीं हैं या यहाँ तक कि फिल्म की कलाकारी के माध्यम से भी, गहन सहानुभूतिपूर्ण संबंधों को साझा संदर्भ और स्मृति के निर्माण के माध्यम से विकसित होने के लिए समय की आवश्यकता होती है। इसके लिए, हमें एलएलएम की ओर बढ़ना होगा जो या तो लगातार उन उपयोगकर्ताओं के साथ जुड़े रहते हैं जिनके साथ वे बातचीत करते हैं या उनके उपयोगकर्ताओं के बारे में संवादात्मक स्मृति और अन्य ऐतिहासिक जानकारी तक आरएजी पहुँच रखते हैं, ऐसी विशेषताएँ जो Pi.ai , Willow और Replika में दिखाई देती हैं।