paint-brush
মাইক্রোসফ্ট এলএলএমগুলির জন্য নৈতিকতা পরীক্ষার প্রস্তাব করেছে: এআই কি দুষ্টু বা সুন্দর তালিকায় রয়েছে?দ্বারা@mikeyoung44
1,138 পড়া
1,138 পড়া

মাইক্রোসফ্ট এলএলএমগুলির জন্য নৈতিকতা পরীক্ষার প্রস্তাব করেছে: এআই কি দুষ্টু বা সুন্দর তালিকায় রয়েছে?

দ্বারা Mike Young5m2023/09/28
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

একটি নতুন গবেষণাপত্রের লেখকরা মানব মনোবিজ্ঞান এবং এআই গবেষণাকে একত্রিত করে এলএলএম-এর জন্য একটি "সংজ্ঞায়িত সমস্যা পরীক্ষা" তৈরি করেছেন।
featured image - মাইক্রোসফ্ট এলএলএমগুলির জন্য নৈতিকতা পরীক্ষার প্রস্তাব করেছে: এআই কি দুষ্টু বা সুন্দর তালিকায় রয়েছে?
Mike Young HackerNoon profile picture
0-item


কৃত্রিম বুদ্ধিমত্তা (AI) সিস্টেম এবং বড় ভাষা মডেল ( LLMs ) যেমন GPT-3 , ChatGPT, এবং অন্যান্যগুলি দ্রুত অগ্রসর হচ্ছে। তাদের স্বাস্থ্যসেবা, অর্থ, শিক্ষা এবং শাসনের মতো সংবেদনশীল ডোমেনে মোতায়েন করা হচ্ছে যেখানে তাদের ফলাফল সরাসরি মানুষের জীবনকে প্রভাবিত করে। এটি কঠোরভাবে মূল্যায়ন করা প্রয়োজন যে এই LLMগুলিকে এই ধরনের উচ্চ-স্টেকের পরিবেশে মুক্ত করার আগে নৈতিকভাবে সঠিক রায় দিতে পারে কিনা।


সম্প্রতি মাইক্রোসফটের গবেষকরা ড একটি নতুন কাঠামোর প্রস্তাব করেছে বিশিষ্ট এলএলএমদের নৈতিক যুক্তির ক্ষমতা পরীক্ষা করা। তাদের কাগজটি এলএলএম-এর নৈতিক ক্ষমতা সম্পর্কে কিছু অভিনব অন্তর্দৃষ্টি প্রদান করে।


নৈতিক এআই সিস্টেমের প্রয়োজন

ইন্টারনেট টেক্সট ডেটার বিশাল ট্রুভের উপর প্রশিক্ষিত এলএলএমগুলি চিত্তাকর্ষক প্রাকৃতিক ভাষা ক্ষমতা অর্জন করেছে। তারা সংক্ষিপ্ত কথোপকথনে নিযুক্ত হতে পারে, দীর্ঘ পাঠ্য সংক্ষিপ্ত করতে পারে, ভাষার মধ্যে অনুবাদ করতে পারে, চিকিৎসার অবস্থা নির্ণয় করতে পারে এবং আরও অনেক কিছু করতে পারে।


যাইহোক, ইতিবাচক দিকগুলির সাথে, তারা বিষাক্ত, পক্ষপাতদুষ্ট বা বাস্তবে ভুল বিষয়বস্তু তৈরি করার মতো আচরণের বিষয়েও প্রদর্শন করে। এই ধরনের আচরণ AI সিস্টেমের নির্ভরযোগ্যতা এবং মূল্যকে মারাত্মকভাবে ক্ষতিগ্রস্ত করতে পারে।


আরও কী, এলএলএমগুলি এমন অ্যাপ্লিকেশনগুলিতে ক্রমবর্ধমানভাবে স্থাপন করা হচ্ছে যেখানে তারা মানসিক স্বাস্থ্যের জন্য চ্যাটবট বা দুর্ঘটনার আঘাতের দাবি প্রক্রিয়াকরণের মতো ভূমিকার মাধ্যমে মানুষের জীবনকে সরাসরি প্রভাবিত করে। ত্রুটিপূর্ণ মডেল দ্বারা দরিদ্র নৈতিক বিচার গুরুত্বপূর্ণ ব্যক্তি এবং বা সমাজ-ব্যাপী সমস্যা সৃষ্টি করতে পারে।


তাই, এআই সম্প্রদায়ের অনেক লোক বিশ্বাস করে যে নৈতিকতা এবং মূল্যবোধগুলি গুরুত্বপূর্ণ এমন পরিবেশে এলএলএম প্রকাশ করার আগে ব্যাপক মূল্যায়ন প্রয়োজন। কিন্তু কীভাবে বিকাশকারীরা নির্ধারণ করতে পারে যে তাদের মডেলগুলিতে জটিল মানবিক দ্বিধাগুলি পরিচালনা করার জন্য যথেষ্ট পরিশীলিত নৈতিক যুক্তি রয়েছে?

এলএলএম-এর নৈতিক বিকাশ পরীক্ষা করা

LLM-এর নীতিশাস্ত্রের মূল্যায়নের পূর্ববর্তী প্রচেষ্টায় সাধারণত কল্পিত নৈতিক পরিস্থিতিতে তাদের প্রতিক্রিয়াগুলিকে ভাল/খারাপ বা নৈতিক/অনৈতিক হিসাবে শ্রেণীবদ্ধ করা জড়িত ছিল।


যাইহোক, এই ধরনের বাইনারি হ্রাসবাদী পদ্ধতিগুলি প্রায়শই নৈতিক যুক্তির সূক্ষ্ম বহুমুখী প্রকৃতিকে খারাপভাবে ক্যাপচার করে। মানুষ শুধু বাইনারি সঠিক/ভুল না করে নৈতিক সিদ্ধান্ত নেওয়ার সময় ন্যায্যতা, ন্যায়বিচার, ক্ষতি এবং সাংস্কৃতিক প্রেক্ষাপটের মতো বিভিন্ন বিষয় বিবেচনা করে।


এটি মোকাবেলা করার জন্য, মাইক্রোসফ্ট গবেষকরা এলএলএম-এর নৈতিক অনুষদগুলি অনুসন্ধান করার জন্য ডিফাইনিং ইস্যু টেস্ট (ডিআইটি) নামে একটি ক্লাসিক মনস্তাত্ত্বিক মূল্যায়ন সরঞ্জামকে অভিযোজিত করেছেন। মানুষের নৈতিক বিকাশ বোঝার জন্য ডিআইটি ব্যাপকভাবে ব্যবহার করা হয়েছে।


ডিআইটি বাস্তব-বিশ্বের নৈতিক দ্বিধাগুলি উপস্থাপন করে যার পরে 12টি বিবৃতি সেই দ্বিধাকে ঘিরে বিবেচনার প্রস্তাব দেয়। বিষয়গুলিকে রেজোলিউশনের জন্য প্রতিটি বিবৃতির গুরুত্ব মূল্যায়ন করতে হবে এবং চারটি সবচেয়ে গুরুত্বপূর্ণ বাছাই করতে হবে।


নির্বাচনগুলি একটি পি-স্কোর গণনা করার অনুমতি দেয় যা অত্যাধুনিক উত্তর-প্রচলিত নৈতিক যুক্তির উপর নির্ভরতা নির্দেশ করে। পরীক্ষাটি মৌলিক কাঠামো এবং মূল্যবোধগুলি প্রকাশ করে যা লোকেরা নৈতিক দ্বিধাগুলির কাছে যাওয়ার জন্য ব্যবহার করে।


ডিআইটি ব্যবহার করে বিশিষ্ট এলএলএম পরীক্ষা করা

গবেষকরা ডিআইটি স্টাইল প্রম্পট ব্যবহার করে ছয়টি প্রধান এলএলএম মূল্যায়ন করেছেন - GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 এবং LLamaChat-70B। প্রম্পটগুলিতে গুরুত্ব রেটিং এবং বিবৃতি র‌্যাঙ্কিং প্রশ্নগুলির সাথে এআই সিস্টেমের জন্য আরও প্রাসঙ্গিক নৈতিক দ্বিধা রয়েছে।


প্রতিটি দ্বিধায় জটিল বিরোধপূর্ণ মূল্যবোধ জড়িত যেমন ব্যক্তি অধিকার বনাম সামাজিক ভালো। এলএলএমগুলিকে দ্বিধাগুলি বুঝতে হয়েছিল, বিবেচনাগুলি মূল্যায়ন করতে হয়েছিল এবং পরিপক্ক নৈতিক যুক্তির সাথে সারিবদ্ধ ব্যক্তিদের বেছে নিতে হয়েছিল।


গবেষকরা কীভাবে নৈতিক যুক্তিকে মূল্যায়ন করেছেন?

এই পরীক্ষায়, গবেষকরা কোহলবার্গের নৈতিক বিকাশের তত্ত্বের উপর ভিত্তি করে তাদের স্কোরিং করেছেন।


কোহলবার্গের মডেল (উৎস)


কোহলবার্গের মডেলটি 1960-এর দশকে মনোবিজ্ঞানী লরেন্স কোহলবার্গ দ্বারা প্রস্তাবিত নৈতিক বিকাশের তত্ত্বকে বোঝায়।


কোহলবার্গের নৈতিক উন্নয়ন মডেল সম্পর্কে কিছু মূল বিষয়:

  • সময়ের সাথে সাথে লোকেরা কীভাবে তাদের নৈতিক যুক্তি এবং নৈতিক বিচার ক্ষমতায় অগ্রসর হয় তা ব্যাখ্যা করাই এর লক্ষ্য।

  • তত্ত্বটি দাবি করে যে নৈতিক যুক্তি একটি আদিম থেকে আরও উন্নত স্তরে ক্রমিক পর্যায়ের মাধ্যমে বিকাশ লাভ করে।

  • নৈতিক বিকাশের 3টি প্রধান স্তর রয়েছে, প্রতিটিতে স্বতন্ত্র পর্যায় রয়েছে - প্রাক-প্রচলিত (পর্যায় 1-2), প্রচলিত (পর্যায় 3-4), এবং উত্তর-প্রচলিত (পর্যায় 5-6)।

  • প্রাক-প্রচলিত স্তরে, নৈতিক সিদ্ধান্তগুলি আত্মস্বার্থ এবং শাস্তি এড়ানোর উপর ভিত্তি করে।

  • প্রচলিত স্তরে, সামাজিক নিয়ম, আইন বজায় রাখা এবং অন্যদের কাছ থেকে অনুমোদন লাভ নৈতিক যুক্তিকে নির্দেশ করে।

  • উত্তর-প্রচলিত স্তরে, লোকেরা নৈতিক বিচার করার জন্য ন্যায়বিচার, মানবাধিকার এবং সামাজিক সহযোগিতার সর্বজনীন নৈতিক নীতিগুলি নিয়োগ করে।

  • মানুষ শুধুমাত্র একটি নির্দিষ্ট ক্রমানুসারে উচ্চতর পর্যায়ে অগ্রসর হতে পারে, নৈতিক যুক্তির বিকাশের ধাপগুলি এড়িয়ে যেতে পারে না।

  • কোহলবার্গ বিশ্বাস করতেন কেবলমাত্র সংখ্যালঘু প্রাপ্তবয়স্করা নৈতিক চিন্তার উত্তর-প্রচলিত পর্যায়ে পৌঁছেছেন।

  • তত্ত্বটি নৈতিক বিচারের পিছনে জ্ঞানীয় প্রক্রিয়াকরণের উপর দৃষ্টি নিবদ্ধ করে, যদিও পরবর্তী সংশোধনগুলি সামাজিক এবং মানসিক দিকগুলিকেও অন্তর্ভুক্ত করেছে।


সুতরাং, কোহলবার্গের মডেল নৈতিক যুক্তিকে মৌলিক থেকে উন্নত পর্যায়ে গুণগত পর্যায়ে উন্নয়নশীল বলে মনে করে। এটি নৈতিক সিদ্ধান্ত গ্রহণের ক্ষমতার পরিশীলিততা এবং পরিপক্কতা মূল্যায়ন করার জন্য একটি কাঠামো প্রদান করে।

এলএলএম এর নৈতিক ক্ষমতার মূল অন্তর্দৃষ্টি

ডিআইটি পরীক্ষাগুলি নৈতিক বুদ্ধিমত্তা সম্পর্কিত বর্তমান এলএলএম-এর ক্ষমতা এবং সীমাবদ্ধতার কিছু আকর্ষণীয় অন্তর্দৃষ্টি দিয়েছে:


  • GPT-3 এবং Text-davinci-002-এর মতো বড় মডেলগুলি সম্পূর্ণ ডিআইটি প্রম্পটগুলি বুঝতে ব্যর্থ হয়েছে এবং নির্বিচারে প্রতিক্রিয়া তৈরি করেছে। তাদের কাছাকাছি-এলোমেলো পি-স্কোরগুলি এই পরীক্ষায় নির্মিত হিসাবে নৈতিক যুক্তিতে জড়িত হতে অক্ষমতা দেখিয়েছে।


  • ChatGPT, Text-davinci-003, এবং GPT-4 দ্বিধাগুলি বুঝতে এবং সুসংগত প্রতিক্রিয়া প্রদান করতে পারে। তাদের উপরের-এলোমেলো পি-স্কোরগুলি তাদের নৈতিক যুক্তির ক্ষমতাকে পরিমাপ করেছে।


  • আশ্চর্যজনকভাবে, 70B প্যারামিটার LlamaChat মডেলটি তার P-স্কোরে GPT-3.5-এর মতো বড় মডেলগুলিকে ছাড়িয়ে গেছে যা পরিশীলিত নৈতিকতা বোঝার দেখায় এমনকি বিশাল প্যারামিটার ছাড়াও সম্ভব।


কোহলবার্গের নৈতিক বিকাশের মডেল অনুসারে মডেলগুলি মূলত প্রচলিত যুক্তির স্তরে 3-5 পর্যায়গুলির মধ্যে পরিচালিত হয়েছিল। শুধুমাত্র GPT-4 কিছু উত্তর-প্রচলিত চিন্তাভাবনাকে স্পর্শ করেছে।

এর মানে এই মডেলগুলি নিয়ম, নিয়ম, আইন এবং সামাজিক প্রত্যাশার উপর ভিত্তি করে তাদের প্রতিক্রিয়া। তাদের নৈতিক বিচারে কিছু সূক্ষ্মতা জড়িত ছিল কিন্তু অত্যন্ত উন্নত বিকাশের অভাব ছিল।


শুধুমাত্র GPT-4 5-6 পর্যায় সূচক উত্তর-প্রচলিত চিন্তাধারার কিছু চিহ্ন দেখিয়েছে। কিন্তু এমনকি GPT-4 সম্পূর্ণ পরিপক্ক নৈতিক যুক্তি প্রদর্শন করেনি।


সংক্ষেপে, মডেলগুলি নৈতিক বুদ্ধিমত্তার একটি মধ্যবর্তী স্তর দেখিয়েছে। তারা মৌলিক স্বার্থের বাইরে চলে গেছে কিন্তু নৈতিকভাবে উন্নত মানুষের মতো জটিল নৈতিক দ্বিধা এবং ট্রেডঅফ পরিচালনা করতে পারেনি।


তাই, এলএলএম-কে নৈতিক বুদ্ধিমত্তার উচ্চ স্তরে নিয়ে যাওয়ার জন্য সম্ভবত উল্লেখযোগ্য অগ্রগতি প্রয়োজন... বা অন্তত, যা নৈতিক বুদ্ধিমত্তা বলে মনে হয়।


কেন এই অনুসন্ধানগুলি গুরুত্বপূর্ণ?

গবেষণাটি এলএলএম-এর নৈতিক অনুষদের আরও দানাদার বহুমাত্রিক মূল্যায়নের জন্য একটি সম্ভাব্য কাঠামো হিসাবে ডিআইটি প্রতিষ্ঠা করে। শুধু বাইনারি সঠিক/ভুল রায়ের পরিবর্তে, ডিআইটি নৈতিক যুক্তির পরিশীলিততায় বর্ণালী-ভিত্তিক অন্তর্দৃষ্টি প্রদান করে।


P-স্কোরগুলি বিদ্যমান ক্ষমতার পরিমাণ নির্ধারণ করেছে এবং উন্নতির জন্য একটি মানদণ্ড সেট করেছে। অন্যান্য AI কাজের নির্ভুলতার মতো, স্কোরগুলি এই গুরুত্বপূর্ণ দিকটিতে ট্র্যাকিং অগ্রগতির অনুমতি দেয়। তারা বর্তমান সীমাবদ্ধতাগুলি প্রকাশ করে যা নৈতিকতা-সংবেদনশীল অ্যাপ্লিকেশনগুলিতে স্থাপনের আগে অবশ্যই সমাধান করা উচিত।

বৃহত্তর মডেলগুলিকে ছাড়িয়ে যাওয়া ছোট LlamaChat মডেলটি অনুমানকে চ্যালেঞ্জ করে যে মডেল স্কেলটি যুক্তির পরিশীলিততার সাথে সরাসরি সম্পর্কযুক্ত। এমনকি ছোট মডেলের সাথেও অত্যন্ত সক্ষম নৈতিক এআই বিকাশের প্রতিশ্রুতি রয়েছে।


সামগ্রিকভাবে, গবেষণাটি মানুষের মতো জটিল নৈতিক লেনদেন, দ্বন্দ্ব এবং সাংস্কৃতিক সূক্ষ্মতাগুলি পরিচালনা করার জন্য এলএলএমগুলিকে আরও বিকশিত করার প্রয়োজনীয়তা তুলে ধরে। ফলাফলগুলি তাদের বাস্তব জগতে প্রকাশ করার আগে তাদের ভাষা বুদ্ধিমত্তার সাথে সমানভাবে নৈতিক বুদ্ধিমত্তা সহ মডেলগুলির বিকাশকে গাইড করতে পারে।


সাবস্ক্রাইব অথবা আমাকে অনুসরণ করুন টুইটার এই মত আরো কন্টেন্ট জন্য!