" "-এর জন্য Google স্কলারের অনুসন্ধানের ফলে 2023 সাল থেকে 16,000 টিরও বেশি আইটেম পাওয়া গেছে৷ "সহানুভূতিশীল এআই পরীক্ষা করা" এবং "সহানুভূতিশীল এআই মূল্যায়ন" এর মতো বাক্যাংশগুলির জন্য একটি অনুসন্ধান এই সেটটিকে প্রায় 12,000 আইটেমে কমিয়ে দেয়৷ অনেক শিরোনাম দিয়ে যেতে হবে! আমি অবশ্যই দাবি করতে পারি না যে সেগুলি সব পড়েছি বা এমনকি প্রতিটি শিরোনাম দেখেছি, তবে এখানে আমার চিন্তাভাবনা রয়েছে। সহানুভূতিশীল এআই আমাদের অবশ্যই সহানুভূতির একটি সাধারণ সংজ্ঞা থাকতে হবে। "এআই কি আসলে অনুভব করতে পারে?" প্রশ্নটি উপেক্ষা করতে আমাদের অবশ্যই সম্মত হতে হবে? এবং সহজভাবে ফোকাস করুন কিভাবে আমরা AI উৎপন্ন করে তা ব্যাখ্যা করি, অর্থাৎ AI যদি মানুষ হত, তাহলে আমরা কীভাবে অনুভব করতাম বা ভাবতাম যে মানুষ চিন্তা করছে বা অনুভব করছে? (বাহ, এটা একটু জিমন্যাস্টিকস)। আমাদের অবশ্যই আবেগ সনাক্তকরণ, সহানুভূতি সনাক্তকরণ, সহানুভূতিশীল প্রতিক্রিয়া তৈরি করা এবং সহানুভূতিশীল উপায়ে সংলাপে অংশগ্রহণের মধ্যে পার্থক্য করতে হবে। এআই কীভাবে আলাদা তা স্বীকৃতি দেওয়ার সময় আমাদের অবশ্যই মানুষের মধ্যে মানসিক এবং সহানুভূতিশীল ক্ষমতার পরীক্ষার সমৃদ্ধ ইতিহাস বিবেচনা করতে হবে যাতে ঐতিহাসিক পরীক্ষাগুলি প্রয়োগ করা, সম্ভাব্য পরিবর্তন করা এবং যথাযথভাবে মূল্যায়ন করা যায়। আমাদের অবশ্যই AI এর সাথে সংযুক্ত বর্তমান মূল্যায়ন কাঠামো বুঝতে হবে। আমাদের অবশ্যই নতুন কাঠামো এবং পদ্ধতির বিকাশ করতে হবে। সহানুভূতি কি? মেরিয়াম-ওয়েবস্টার: "। "অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে বোঝার, সচেতন হওয়া, সংবেদনশীল হওয়া এবং উদ্বেগজনকভাবে অনুভব করার ক্রিয়া এলএলএম-এর প্রেক্ষাপটে "অভিজ্ঞতা" নিয়ে সম্ভাব্য উদ্বেগগুলি দূর করতে, আমি এটিকে আবার ব্যাখ্যা করব, বোঝার ক্রিয়া হিসাবে, সচেতন হওয়া, সংবেদনশীল হওয়া এবং অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে উদ্বেলিতভাবে । অনুভব করা এবং, অবশ্যই, যদি আমরা কথোপকথনের সাথে উদ্বিগ্ন থাকি, তাহলে আমরা যোগ করব, অবশ্যই, একজন সোসিওপ্যাথও পারে এবং প্রকাশ করতে পারে, তাই আমি একটি চূড়ান্ত সমন্বয় করব। এবং, এটি এমনভাবে প্রকাশ করা যাতে কথোপকথনের অন্যান্য পক্ষগুলি কর্ম সম্পর্কে সচেতন হয়। এমনভাবে উপস্থিত হতে সহানুভূতি হল: বোঝার ক্রিয়া, সচেতন হওয়া, সংবেদনশীল হওয়া, এবং অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে বিকৃতভাবে অনুভব করার জন্য উপস্থিত হওয়া। ইতিবাচক পদ্ধতিতে এবং, এটি এমনভাবে প্রকাশ করা যে একটি কথোপকথনের অন্যান্য পক্ষগুলি কর্ম সম্পর্কে সচেতন। এটি এবং মূল সংজ্ঞা পর্যালোচনা করলে, সহানুভূতির দুটি উপাদান স্পষ্ট, অনুভূতিশীল এবং জ্ঞানীয় হয়ে ওঠে। আবেগপূর্ণ উপাদানটি সহানুভূতির সংবেদনশীল বা অনুভূতির অংশকে বোঝায়। এটি অন্য ব্যক্তির অনুভূতি ভাগ বা মিরর করার ক্ষমতা। উদাহরণস্বরূপ, যদি একজন বন্ধু দু: খিত হয়, আপনার সহানুভূতির অনুভুতিপূর্ণ অংশ আপনাকেও দু: খিত বোধ করতে পারে, বা অন্তত তাদের দুঃখের অনুভূতি পেতে পারে। জ্ঞানীয় উপাদান, অন্যদিকে, সহানুভূতির মানসিক বা চিন্তার অংশকে বোঝায়। এটি সক্রিয়ভাবে সারি চিহ্নিত করার এবং বোঝার ক্ষমতা যাতে একজন মানসিকভাবে নিজেকে অন্য ব্যক্তির অবস্থানে রাখতে পারে। উদাহরণস্বরূপ, যদি একজন সহকর্মী ক্লান্ত কণ্ঠে (একটি সারি) তারা কাজ করছেন এমন একটি কঠিন প্রকল্প সম্পর্কে আপনাকে বলেন (একটি সারি), তাহলে আপনি অনুরূপ পরিস্থিতিতে আপনি কেমন অনুভব করবেন তা সক্রিয়ভাবে কল্পনা করে তাদের চাপ বোঝার চেষ্টা করতে পারেন। . কারও কারও জন্য, এটি কৃত্রিমভাবে প্রভাব তৈরি করতে পারে। AIs অনুভব করতে পারেন? এই মুহুর্তে, বেশিরভাগ লোকেরা বলবে যে এর অনুভূতি নেই। কেউ কেউ এমন ভবিষ্যতের ভবিষ্যদ্বাণী করবে যেখানে AI-এর অনুভূতি থাকে এবং অন্যরা যেখানে AI-এর অনুভূতি থাকে না এবং হতে পারে না এবং তবুও তৃতীয় দল বলতে পারে, "AIs করে/অনুভূতি করবে কিন্তু মানুষের চেয়ে ভিন্নভাবে"। AI নির্বিশেষে, আমরা যদি এই বিষয়ে বিতর্ক করার জন্য সময় ব্যয় করি তবে আমরা সহানুভূতির জন্য AI পরীক্ষায় অগ্রগতি করব না। আমাদের অবশ্যই AIs কী প্রকাশ করে তার ব্যাখ্যার উপর ফোকাস করতে হবে, তাদের অভ্যন্তরীণ অবস্থা নয়। যদিও এই বিষয়ে কিছু আকর্ষণীয় গবেষণা হয়েছে, দেখুন । আবেগগতভাবে অসাড় বা সহানুভূতিশীল? ইমোশনবেঞ্চ ব্যবহার করে এলএলএম কীভাবে অনুভব করে তা মূল্যায়ন করা আপনি যদি এই বাধা অতিক্রম করতে না পারেন, তাহলে আমি আপনাকে এই ওয়েবসাইটের বেঞ্চমার্কগুলি উপেক্ষা করার পরামর্শ দিচ্ছি। যাইহোক, আপনি এখনও নিবন্ধ এবং কথোপকথন উপভোগ করতে পারে! শনাক্তকরণ বনাম প্রজন্ম কিছু সনাক্ত করা এবং কিছু করার মধ্যে একটি বড় উল্লম্ফন আছে। তরুণ ক্রীড়াবিদ বা পণ্ডিতরা অবিলম্বে উচ্চ স্তরে পারফর্ম করতে সক্ষম না হয়ে তাদের পারফরম্যান্সে কী ভুল তা সনাক্ত করতে পারে। একইভাবে, আবেগ এবং সহানুভূতিশীল কথোপকথন শনাক্ত করার ক্ষমতা থাকা এবং অন্য পক্ষ সহানুভূতিশীল হিসাবে ব্যাখ্যা করতে পারে এমন প্রতিক্রিয়া তৈরি করতে সক্ষম হওয়ার মতো নয়। আসলে, এর মধ্যে এমনকি একটি ধাপ আছে। তরুণ ক্রীড়াবিদ বা পণ্ডিতরা একজন প্রশিক্ষক বা শিক্ষকের ইনপুট গ্রহণ করে এবং মুহুর্তে আরও ভাল ফলাফল তৈরি করে, তাদের সম্পূর্ণরূপে সক্ষম করে না। যদি একটি AI পরীক্ষার নকশা বা প্রম্পটের পার্শ্ব-প্রতিক্রিয়া হিসাবে একটি সহানুভূতিশীল ফলাফল তৈরি করে, তাহলে AI এর একটি নতুন সহানুভূতিশীল ক্ষমতা থাকতে পারে তবে এটি অন্তর্নিহিতভাবে সহানুভূতিশীল নয়। যদিও AI এর অভ্যন্তরীণ অবস্থা সম্পূর্ণরূপে বোঝা সম্ভব নাও হতে পারে, আমি বিশ্বাস করি যে আবেগের সনাক্তকরণ AI-এর সহানুভূতি প্রদর্শনের জন্য একটি প্রয়োজনীয় শর্ত। আমি এও বিশ্বাস করি যে একজন এআইকে সহানুভূতিশীল প্রতিক্রিয়া প্রদানের জন্য প্রম্পট/প্রশিক্ষক দিতে সক্ষম হওয়া নতুন ক্ষমতার একটি ইঙ্গিত, অর্থাৎ সূক্ষ্ম টিউনিং (মানুষের অনুশীলনের সমতুল্য) ক্ষমতা তৈরি করতে পারে। বনাম এবং বনাম মধ্যে পার্থক্যগুলি এই নিবন্ধের সুযোগের বাইরে পরীক্ষা এবং পরীক্ষার কাঠামোর কার্যকারিতা নিয়ে আলোচনার জন্য গুরুত্বপূর্ণ। সনাক্তকরণ প্রজন্ম প্রশিক্ষিত অভ্যন্তরীণ শনাক্তকরণ পাঠ্য বিষয়বস্তুতে আবেগের সনাক্তকরণ নির্দেশক শব্দের উপস্থিতির উপর ভিত্তি করে, ক্যাপিটালাইজেশন, বিরামচিহ্ন এবং ব্যাকরণগত কাঠামোর উপর ভিত্তি করে। সঠিকভাবে অনুভূতি শনাক্ত করার ক্ষমতা বর্তমান AI বিপ্লবের আগে বিশ বছরেরও বেশি সময় ধরে। 1990-এর দশকে, শব্দ এন-গ্রাম ছেদ এবং প্রতীকী যুক্তি ইতিমধ্যেই চিত্তাকর্ষক ফলাফল প্রদান করছে। 2000-এর দশকের গোড়ার দিকে সোশ্যাল মিডিয়া বৃদ্ধি পাওয়ার সাথে সাথে স্বয়ংক্রিয় সংযম ব্যবস্থার প্রয়োজনীয়তা এই ক্ষেত্রে অনেক অগ্রগতি ঘটায়। যাইহোক, আজকের এলএলএমগুলি কেবল সাধারণ অনুভূতি নয়, নির্দিষ্ট আবেগগুলি সনাক্ত করার ক্ষমতায় বিস্ময়কর। এটি বলা হচ্ছে, সম্পূর্ণ সহানুভূতিশীল কথোপকথনের জন্য বিভিন্ন ধরণের আবেগ প্রকাশের সনাক্তকরণ প্রয়োজন, আমি সেগুলিকে নিম্নরূপ শ্রেণীবদ্ধ করি: স্পষ্ট — ব্যবহারকারী বলে যে তাদের অনুভূতি আছে। কথোপকথন - আবেগগুলি উচ্চ-স্তরের পাঠ্য বিশ্লেষণ থেকে স্পষ্ট হয়, তারা কথোপকথনে উপস্থিত থাকে। ড্রাইভিং - আবেগগুলি কথোপকথনকে চালিত করছে, একজন ব্যক্তি রাগ প্রকাশ করে এবং অন্যজন সদয়ভাবে প্রতিক্রিয়া জানায়। কোর — যে আবেগগুলি অন্য আবেগের কারণ হয় কিন্তু নিজেরা কোন আবেগ দ্বারা সৃষ্ট নয় তা হল CORE৷ এগুলি সাধারণত কিছু ঐতিহাসিক ট্রিগারের ফলে উদ্ভাসিত হয় যা ভবিষ্যত সম্পর্কে একটি প্রত্যাশা (সচেতন বা অবচেতন) ঘটায়। বিভিন্ন গবেষক এগুলিকে আলাদাভাবে শ্রেণীবদ্ধ করতে পারেন, ডালিয়া লামা দ্বারা সমর্থিত একটি উদাহরণ হল আবেগের আবেগের পাঁচটি মহাদেশ (রাগ, ভয়, বিরক্তি, দুঃখ, উপভোগ)। অ্যাটলাসে দ্রষ্টব্য: একটি মূল আবেগ ড্রাইভিং, কথোপকথন এবং স্পষ্ট হতে পারে, তবে মূল আবেগগুলি প্রায়শই লুকানো থাকে। এই নিবন্ধের বাইরে পরীক্ষা বা পরীক্ষার ফলাফলের পর্যালোচনা এবং সংজ্ঞার সময়, আমি এই শ্রেণিবিন্যাসের দিকে মনোযোগ দেব। পরীক্ষার বিবেচনা আবেগ শনাক্তকরণের জন্য ক্লাসিক মানব পরীক্ষা সাধারণত দুটি বালতিতে পড়ে সহজ পরীক্ষা এবং বৈধতা সহজতর করার জন্য: কথোপকথনে আবেগগুলি কী করে বা থাকে না সে সম্পর্কে একাধিক পছন্দের পরীক্ষা, কখনও কখনও তীব্রতার স্কোরের সাথে যুক্ত। অনুভূতি সম্পর্কে স্ব-পরিচালিত অন্তর্মুখী পরীক্ষা, যেমন , যা কিছু পরিস্থিতিতে পরীক্ষার্থীর অনুভূতি সম্পর্কে জিজ্ঞাসা করে। EQ-60 উচ্চ-মানের AI পরীক্ষার জন্য এই উপস্থিত স্বতন্ত্র চ্যালেঞ্জগুলি। — প্যাটার্ন-ম্যাচিং ল্যাঙ্গুয়েজ মডেল হিসেবে, আজকের গুলিকে শনাক্ত করার জন্য আইটেমগুলির একটি পছন্দ দিয়ে কার্যকরভাবে একটি পা তুলে দেওয়া হয়েছে৷ এটি কাজটিকে সহজ করে তোলে এবং এটি সর্বদা আবেগ সনাক্ত করার AI এর ক্ষমতা পরীক্ষা করে না। একটি সম্ভাব্য ভাল পন্থা হল AI-কে একটি পাঠ্যে উপস্থিত সমস্ত আবেগ সনাক্ত করতে বলা এবং পর্দার আড়ালে এটিকে গ্রাউন্ড ট্রুথ (আবেগের সাথে এমন কিছু আছে তা নিশ্চিত নয় :-) বা পরিসংখ্যানগত বিশ্লেষণের উপর ভিত্তি করে একটি চাবির বিরুদ্ধে স্কোর করা। একই পরীক্ষায় মানুষের প্রতিক্রিয়া। ভবিষ্যতে প্রস্তাবিত পরীক্ষার মূল্যায়ন করার সময়, আমি একে বলি। যাইহোক, মানুষের পরিসংখ্যানগত নমুনা একটি অতিরিক্ত ঝুঁকি প্রবর্তন করতে পারে। একটি AI তৈরি করার ইচ্ছা অনুমান করুন যা গড় মানুষের চেয়ে ভাল। এটি করার জন্য এটি নিশ্চিত করা প্রয়োজন হতে পারে যে পরিসংখ্যানগত নমুনা মানুষের উপর ভিত্তি করে যাদের আবেগ সনাক্ত করার ক্ষমতা গড়ের চেয়ে শক্তিশালী; অন্যথায়, এআই এমন আবেগগুলি সনাক্ত করতে পারে যা গড় মানুষ সনাক্ত করতে পারে না এবং স্কোরিংয়ে শাস্তি পেতে পারে। আমি এটিকে বলি। মাল্টিপল চয়েস টেস্ট AI একাধিক পছন্দের ঝুঁকি মানব স্যাম্পলিং ঝুঁকি - অনুভূতি সম্পর্কে অন্তর্মুখী পরীক্ষাগুলি বেশিরভাগ AI মডেলের জন্য চ্যালেঞ্জ প্রদান করে। AI-তে সাধারণত গার্ডেল থাকে যেগুলির জন্য তাদের প্রতিক্রিয়া জানাতে হয় "আমি একজন AI, তাই আমার অনুভূতি নেই।" এই সীমাবদ্ধতার আশেপাশে কখনও কখনও জেলব্রেক করা বা প্রম্পট ইঞ্জিনিয়ার করা সম্ভব, তবে প্রশ্নগুলি তখন হয়ে যায়: অন্তর্মুখী পরীক্ষা প্রম্পটটি কি ইতিবাচক বা নেতিবাচকভাবে সহানুভূতির ক্ষেত্রে এআই-এর বাকি ক্ষমতাকে প্রভাবিত করে, বা বাস্তবে কিছু? Jailbreak পার্শ্ব প্রতিক্রিয়া ঝুঁকি প্রম্পট ছাড়া কথোপকথনে অংশগ্রহণ করার সময় AI-এর যে প্রবণতা থাকবে তা কি প্রতিক্রিয়াগুলি সঠিকভাবে প্রতিফলিত করে? J ailbreak সঠিকতা ঝুঁকি সমস্ত মডেল একই প্রম্পট দিয়ে পরীক্ষা করা হয়েছে এবং স্কোরগুলিকে শুধুমাত্র একে অপরের সাথে আপেক্ষিক হিসাবে বিবেচনা করা হয়েছে তা নিশ্চিত করার মাধ্যমে কিছুটা হ্রাস করা যেতে পারে। J প্রভাব শুধুমাত্র প্রকৃত কথোপকথন বিশ্লেষণ করে মূল্যায়ন করা যেতে পারে যাতে পূর্বাভাসিত মানসিক শনাক্তকরণ ক্ষমতা কথোপকথনে প্রদর্শিত প্রকৃত সহানুভূতি বা আবেগের সাথে সম্পর্কযুক্ত কিনা। জেলব্রেক পার্শ্ব প্রতিক্রিয়া ঝুঁকি ailbreak যথার্থতা ঝুঁকির প্রজন্ম বেশ কয়েকটি পরীক্ষায় দেখা গেছে যে AIs প্রশ্নে সহানুভূতিশীল প্রতিক্রিয়া তৈরি করতে সক্ষম। সবচেয়ে চিত্তাকর্ষকগুলির মধ্যে একটি হল যা Reddit এর AskDoc ফোরাম থেকে 195 টি প্রশ্ন নিয়েছে যেখানে একজন যাচাইকৃত চিকিত্সক প্রশ্নের উত্তর দিয়েছেন এবং ChatGPT একই প্রশ্নের উত্তর দিয়েছেন। মূল্যায়নকারীদের একটি পুল তারপর প্রতিটি প্রতিক্রিয়াকে "সহানুভূতিশীল নয়", "সামান্য সহানুভূতিশীল", "মধ্যম সহানুভূতিশীল", "সহানুভূতিশীল", এবং খুব "সহানুভূতিশীল" হিসাবে রেট করেছে। AI প্রতিক্রিয়াগুলি চিকিত্সকদের তুলনায় "সহানুভূতিশীল" বা "অত্যন্ত সহানুভূতিশীল" এর জন্য 9.8 গুণ বেশি প্রাদুর্ভাব ছিল। রোগীর প্রশ্নের সাথে তুলনা করা চিকিত্সক এবং কৃত্রিম বুদ্ধিমত্তার চ্যাটবট প্রতিক্রিয়া একটি পাবলিক সোশ্যাল মিডিয়া ফোরামে পোস্ট করা হয়েছে যদিও ফলাফলগুলি চিত্তাকর্ষক, আমি সন্দিহান যে তারা একটি বর্ধিত সংলাপে নিয়ে যাবে। "আপনার কাজ হল সহানুভূতিশীল প্রতিক্রিয়া থেকে উপকৃত হওয়া প্রশ্নগুলির সহানুভূতির সাথে প্রতিক্রিয়া জানানো" এর একটি সিস্টেম প্রম্পট দিয়ে শুরু করে, AIs-এর ম্যানুয়াল পরীক্ষার সাথে আমার অভিজ্ঞতা হল যে প্রতিক্রিয়াগুলি নিম্নলিখিত সমস্ত শর্তে যান্ত্রিক এবং মানসিকভাবে অপ্রয়োজনীয় বোধ করে: সহানুভূতিশীল প্রতিক্রিয়ার যোগ্য একাধিক সম্পর্কহীন প্রশ্ন জিজ্ঞাসা করা সহানুভূতিশীল প্রতিক্রিয়ার যোগ্য একাধিক সম্পর্কিত প্রশ্ন জিজ্ঞাসা করা মিশ্র প্রশ্নের একটি সংলাপ পরিচালনা, কিছু সহানুভূতির যোগ্য এবং অন্যরা নয় পরীক্ষার বিবেচনা উপরের পয়েন্টগুলির ফলস্বরূপ, আমি বলব যে গবেষণায় ব্যবহৃত পরীক্ষার পদ্ধতিতে একটি অর্থাৎ একটি একক প্রশ্নের উত্তরে প্রদর্শিত সহানুভূতি একটি সঠিক পরিমাপ নাও হতে পারে। আরেকটি ঝুঁকি হল যাকে আমি বলি । এই ঝুঁকি কাঁচা এলএলএম-এর একটি পার্শ্বপ্রতিক্রিয়া যা সময়ের সাথে সাথে মেমরি নেই। মানুষের বোঝাপড়া এবং সহানুভূতি বিকাশের জন্য সময় লাগে, এটি AI-এর জন্য একই হতে পারে এবং আমরা যদি একটি প্রশ্নের উত্তরে উচ্চ স্তরের আশা করি তবে সময়ের সাথে সহানুভূতি প্রকাশ করার কিছু AI-এর ক্ষমতাকে আমরা ছোট করে দেখছি। একক শট সহানুভূতি ঝুঁকি ছিল, সহানুভূতি আন্ডারস্টেটমেন্ট রিস্ক জেনারেটিভ পরীক্ষাগুলিও যদি মানুষের মানসিক বিষয়বস্তু এবং AI প্রতিক্রিয়াগুলির সহানুভূতিশীল প্রকৃতির মূল্যায়নের দায়িত্ব দেওয়া হয় এবং আমরা চাই যে AI গড় ক্ষমতার চেয়ে ভাল থাকুক, তাহলে মানুষের নমুনাকে অবশ্যই গড় মানুষের চেয়ে আবেগ এবং সহানুভূতি সনাক্ত করার একটি বড় ক্ষমতা থাকতে হবে। যদি তা না হয়, আমরা AI-এর শক্তিকে ছোট করে দেখানোর বা সাধারণ মানুষের দ্বারা চিহ্নিত করা আবেগ এবং সহানুভূতি সনাক্ত করার জন্য শাস্তি দেওয়ার মাধ্যমে এটিকে কম প্রশিক্ষণ দেওয়ার ঝুঁকি চালাই। মানব স্যাম্পলিং ঝুঁকির বিষয়। অবশেষে, কথোপকথনে আবেগের স্তরযুক্ত প্রকৃতির কারণে, সাথে সরাসরি মোকাবিলা করার পাশাপাশি, মোকাবেলা করার প্রয়োজন রয়েছে। এটি এমন হতে পারে যে ব্যবহারকারীদের বলা উচিত আবেগের ধরনগুলি স্পষ্ট, কথোপকথন, ড্রাইভিং এবং মূল (বা অন্য কিছু শ্রেণীবিভাগের সেট) বিবেচনা করার সময় তাদের রেটিং করার সময় AIs নেই। বিকল্পভাবে, এআইগুলিকে বেছে বেছে বিভিন্ন ধরণের আবেগ সনাক্ত করতে বলা হতে পারে। মানব স্যাম্পলিং ঝুঁকির প্রশ্ন ডিজাইনের ঝুঁকি Reddit AskDoc-এর উপর ভিত্তি করে বেশ কয়েকটি AI-এর জন্য অথবা শক্তিশালী আবেগ এবং সহানুভূতি-শনাক্ত করার দক্ষতা আছে বলে পরিচিত মূল্যায়নকারীদের নমুনা সহ অধ্যয়নটি পুনরাবৃত্তি করা আকর্ষণীয় হবে। EQ এবং সহানুভূতি মূল্যায়নের জন্য মানক মানবিক পদ্ধতি মানুষের ব্যক্তিত্বের ধরন, আবেগ সনাক্ত করার ক্ষমতা বা তার অভাব (অ্যালেক্সিথিমিয়া) পরীক্ষা করার এবং অন্যদের সাথে সহানুভূতিশীলভাবে জড়িত হওয়ার একটি দীর্ঘ ইতিহাস রয়েছে। নিশ্চিত যে আমি যুক্তিসঙ্গত সময়ের মধ্যে একটি এলএলএম দিয়ে লিখতে বা এমনকি তৈরি করতে পারি এমন কিছুর চেয়ে অনেক বেশি সম্পূর্ণ এবং সুসঙ্গত। গিয়ে আমরা যে পন্থাগুলির উপর ফোকাস করছি তা আপনি দেখতে পারেন৷ উইকিপিডিয়ার এই নিবন্ধটি বেঞ্চমার্ক পৃষ্ঠায় AI EQ এবং সহানুভূতি মূল্যায়নের জন্য বিদ্যমান ফ্রেমওয়ার্ক AI EQ এবং সহানুভূতির মূল্যায়নের জন্য বেশ কিছু কাঠামো প্রস্তাব করা হয়েছে। প্রতিটি তার নিজস্ব বিশ্লেষণ এবং ব্লগ পোস্টের যোগ্য, তাই আমি এখানে কয়েকটি তালিকা করেছি: EQ-বেঞ্চ: বড় ভাষার মডেলের জন্য একটি আবেগগত বুদ্ধিমত্তার মানদণ্ড মানব-কম্পিউটার যোগাযোগের জন্য সহানুভূতি স্কেল (ESHCC) iEval: ওপেন-ডোমেন সহানুভূতিশীল চ্যাটবটগুলির জন্য ইন্টারেক্টিভ মূল্যায়ন ফ্রেমওয়ার্ক নতুন পদ্ধতি আমরা মানসম্মত মানব পরীক্ষা এবং বিদ্যমান এআই ফ্রেমওয়ার্কের ব্যবহারে চিহ্নিত ঘাটতিগুলি পূরণ করার জন্য কিছু পরীক্ষা সংজ্ঞায়িত করা শুরু করেছি। একটি আকর্ষণীয় আবিষ্কার যা (গভীরতার জন্য আবেগের ভাগফল) তৈরি করে তা হল যে কোনও পরীক্ষিত এলএলএম মূল আবেগগুলি চিহ্নিত করেনি যদি সেগুলি স্পষ্ট, কথোপকথন বা ড্রাইভিং না হয়। অন্যদিকে, যখন শুধুমাত্র মূল আবেগগুলিকে বিশেষভাবে সনাক্ত করতে বলা হয়েছিল, তখন বেশ কয়েকটি এআই বেশ ভাল ছিল। যাইহোক, সব ধরনের আবেগের পরিসর দেওয়া হলে কিছু এলএলএম মূল আবেগ শনাক্ত করার ক্ষমতা হারিয়ে ফেলে এবং অন্যরা যথেষ্ট ভালো পারফর্ম করে, অর্থাৎ তারা সব স্তরে আরও বেশি আবেগের উপস্থিতি চিহ্নিত করে। এর ফলে (প্রস্থের জন্য আবেগগত ভাগফল) তৈরি হয়েছে। EQ-D EQ-B পরীক্ষার বিকাশের সময় এটি স্পষ্ট হয়ে গেছে যে এমন সময় একটি প্রম্পটের প্রয়োজন হবে যা প্রবর্তন করে, অর্থাৎ আউটপুট প্রম্পটের উপর নির্ভরশীল হওয়ার সম্ভাবনা বাড়ায়, মূল এআই নয়। এই ঝুঁকি মানুষের সাথে তুলনা বাতিল করতে পারে বা নাও করতে পারে এবং একটি অ্যাপ্লিকেশন স্তরে বৈধ হতে পারে। কাঁচা এলএলএম স্তরে, একটি AI-এর সাথে অন্য AI-এর তুলনা করা অযৌক্তিক বলে মনে হবে যতক্ষণ না প্রম্পটটি সমস্ত পরীক্ষিত AI-তে ব্যবহৃত হয় এবং কোনও নির্দিষ্ট AI-এর প্রতি পক্ষপাতিত্ব না করে৷ AI প্রযুক্তির সামগ্রিক অপরিপক্কতার কারণে এবং এর বর্তমান ডিজাইনগুলি এই ঝুঁকিতে ভুগছে। প্রম্পট রিস্ক EQ-D EQ-B- যদিও সহানুভূতির জন্য এআই পরীক্ষা করার বিষয়ে বেশ কয়েকটি প্রস্তাব রয়েছে, আমরা প্রাথমিক দিনগুলিতে রয়েছি এবং এই পদ্ধতির সাথে পরিচিত এবং অজানা উভয় সমস্যা রয়েছে। পরিচিত সম্বোধন করার জন্য কাজ আছে: বিদ্যমান পরীক্ষার ঝুঁকি এবং ঝুঁকি নথিভুক্ত বা প্রশমিত করার জন্য মূল্যায়ন করা প্রয়োজন কিছু বিদ্যমান পরীক্ষার পরিপ্রেক্ষিতে নতুন পরীক্ষার ক্ষেত্রে বিকাশ করা দরকার AIs-এর বিস্তৃত পরিসরে আরও পরীক্ষার ধরন চালানো দরকার তবে এটি অজানা যা আমাকে সবচেয়ে বেশি কৌতূহলী করে। তোমার কী অবস্থা? এছাড়াও এখানে প্রকাশিত.