paint-brush
মতামতকে নীতিতে রূপান্তর করে ইন্টারেক্টিভভাবে বড় ভাষার মডেলের সমালোচনা করাদ্বারা@feedbackloop
749 পড়া
749 পড়া

মতামতকে নীতিতে রূপান্তর করে ইন্টারেক্টিভভাবে বড় ভাষার মডেলের সমালোচনা করা

দ্বারা The FeedbackLoop: #1 in PM Education6m2024/01/23
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ConstitutionMaker আবিষ্কার করুন, একটি বিপ্লবী টুল যা ব্যবহারকারীর প্রতিক্রিয়াকে চ্যাটবট কাস্টমাইজেশনের নীতিতে রূপান্তর করে। এর অনন্য বৈশিষ্ট্যগুলি অন্বেষণ করুন — প্রশংসা, সমালোচনা এবং পুনর্লিখন — এবং বড় ভাষা মডেল আউটপুটগুলিকে পরিমার্জিত করার উপর তাদের প্রভাব৷ একটি ব্যবহারকারী অধ্যয়ন ConstitutionMaker এর সুবিধাগুলিকে হাইলাইট করে, ব্যবহারকারীদের আরও নির্দেশিত এবং দক্ষ প্রক্রিয়া প্রদান করে। কাঙ্খিত নীতিগুলির শ্রেণীবিভাগ উন্মোচন করুন, মানব-কেন্দ্রিক এআই এবং LLM-এর জন্য ইন্টারেক্টিভ সমালোচনার জন্য ভবিষ্যতের সরঞ্জামগুলির জন্য পথ প্রশস্ত করুন।
featured image - মতামতকে নীতিতে রূপান্তর করে ইন্টারেক্টিভভাবে বড় ভাষার মডেলের সমালোচনা করা
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

লেখক:

(1) Savvas Petridis, Google Research, New York, New York, USA;

(2) Ben Wedin, Google Research, Cambridge, Massachusetts, USA;

(3) জেমস ওয়েক্সলার, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র;

(4) Aaron Donsbach, Google Research, Seattle, Washington, USA;

(5) মহিমা পুষ্কর্ণ, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র;

(6) নিতেশ গোয়াল, গুগল রিসার্চ, নিউ ইয়র্ক, নিউ ইয়র্ক, মার্কিন যুক্তরাষ্ট্র;

(7) Carrie J. Cai, Google Research, Mountain View, California, USA;

(8) মাইকেল টেরি, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

গঠনমূলক অধ্যয়ন

সংবিধান প্রণেতা

বাস্তবায়ন

ব্যবহারকারী অধ্যয়ন

ফাইন্ডিংস

আলোচনা

উপসংহার এবং রেফারেন্স


চিত্র 1: সংবিধান নির্মাতার ইন্টারফেস। প্রথমে, ব্যবহারকারীরা যে চ্যাটবট তৈরি করতে চান তার নাম এবং বর্ণনা করুন (A)। ConstitutionMaker একটি ডায়ালগ প্রম্পট তৈরি করে এবং ব্যবহারকারীরা তখনই এই চ্যাটবট (B) এর সাথে একটি কথোপকথন শুরু করতে পারে। প্রতিটি কথোপকথনের মোড়ে, ব্যবহারকারীদের চ্যাটবট দ্বারা তিনটি প্রার্থীর প্রতিক্রিয়া উপস্থাপন করা হয় এবং প্রতিটির জন্য, প্রতিক্রিয়া প্রদানের তিনটি উপায়: (1) প্রশংসা, (2) সমালোচনা এবং (3) পুনর্লিখন৷ প্রতিটি প্রতিক্রিয়া পদ্ধতি একটি নীতি প্রকাশ করে, যা সংবিধানে (C) যোগ করা হয়। নীতি হল নিয়ম যা সংলাপ প্রম্পটে যুক্ত করা হয়। একটি আউটপুট (D) কে প্রশংসা করা মানে ইতিবাচক প্রতিক্রিয়া প্রদান করা, হয় তিনটি উত্পন্ন ইতিবাচক যুক্তির মধ্যে একটি নির্বাচন করে বা কাস্টম ইতিবাচক প্রতিক্রিয়া লেখার মাধ্যমে। সমালোচনা করা (F) একই কিন্তু নেতিবাচক প্রতিক্রিয়া প্রদান করে। এবং পরিশেষে, পুনর্লিখন (G) একটি নীতি তৈরি করার জন্য প্রতিক্রিয়া সংশোধন করে।


বিমূর্ত

লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) প্রম্পটিং হল ব্যবহারকারীদের নিজস্ব চ্যাটবট তৈরি এবং কাস্টমাইজ করার জন্য একটি প্রতিশ্রুতিশীল নতুন পদ্ধতি। যাইহোক, চ্যাটবটের আউটপুট পরিচালনার জন্য বর্তমান পদ্ধতি, যেমন প্রম্পট ইঞ্জিনিয়ারিং এবং ফাইন-টিউনিং, ব্যবহারকারীদের মডেলের আউটপুটগুলিতে তাদের স্বাভাবিক প্রতিক্রিয়াকে প্রম্পট বা মডেলের পরিবর্তনে রূপান্তর করতে সহায়তা করে না। এই কাজে, আমরা কীভাবে ব্যবহারকারীদের তাদের প্রতিক্রিয়ার মাধ্যমে মডেলের আউটপুটগুলিকে ইন্টারেক্টিভভাবে পরিমার্জিত করতে সক্ষম করতে পারি, তাদের মতামতকে নীতির একটি সেটে (অর্থাৎ একটি সংবিধান) রূপান্তর করতে সহায়তা করে যা মডেলের আচরণকে নির্দেশ করে। একটি গঠনমূলক অধ্যয়ন থেকে, আমরা (1) খুঁজে পেয়েছি যে ব্যবহারকারীদের তাদের মতামতকে চ্যাটবটের নীতিতে রূপান্তর করার জন্য সমর্থন প্রয়োজন এবং (2) ব্যবহারকারীদের পছন্দসই বিভিন্ন নীতির ধরনগুলিকে শ্রেণীবদ্ধ করা হয়েছে। এই ফলাফলগুলির দ্বারা অনুপ্রাণিত হয়ে, আমরা LLM-ভিত্তিক চ্যাটবটগুলিকে চালিত করার জন্য ব্যবহারকারীর প্রতিক্রিয়াকে নীতিতে রূপান্তর করার জন্য একটি ইন্টারেক্টিভ টুল ConstitutionMaker তৈরি করেছি। ConstitutionMaker এর সাথে, ব্যবহারকারীরা স্বাভাবিক ভাষায় ইতিবাচক বা নেতিবাচক প্রতিক্রিয়া প্রদান করতে পারেন, স্বয়ংক্রিয়ভাবে তৈরি প্রতিক্রিয়া নির্বাচন করতে পারেন, অথবা চ্যাটবটের প্রতিক্রিয়া পুনরায় লিখতে পারেন; প্রতিক্রিয়ার প্রতিটি মোড স্বয়ংক্রিয়ভাবে একটি নীতি তৈরি করে যা চ্যাটবটের প্রম্পটে ঢোকানো হয়। 14 জন অংশগ্রহণকারীর সাথে একটি ব্যবহারকারীর গবেষণায়, আমরা সংবিধান মেকারকে একটি সংশোধিত সংস্করণের সাথে তুলনা করি, যেখানে ব্যবহারকারীরা তাদের নিজস্ব নীতিগুলি লেখেন। ConstitutionMaker-এর সাথে, অংশগ্রহণকারীরা অনুভব করেছিলেন যে তাদের নীতিগুলি চ্যাটবটকে আরও ভালভাবে গাইড করতে পারে, তারা আরও সহজে তাদের প্রতিক্রিয়াকে নীতিতে রূপান্তর করতে পারে এবং তারা কম মানসিক চাহিদা সহ নীতিগুলি আরও দক্ষতার সাথে লিখতে পারে। ConstitutionMaker ব্যবহারকারীদের চ্যাটবট উন্নত করার উপায়গুলি চিহ্নিত করতে, মডেলের প্রতি তাদের স্বজ্ঞাত প্রতিক্রিয়াগুলিকে প্রতিক্রিয়ায় রূপান্তর করতে এবং এই প্রতিক্রিয়াটিকে নির্দিষ্ট এবং স্পষ্ট নীতিতে রূপান্তর করতে সাহায্য করেছে৷ একসাথে, এই ফলাফলগুলি ভবিষ্যতের সরঞ্জামগুলিকে অবহিত করে যা LLM আউটপুটগুলির ইন্টারেক্টিভ সমালোচনাকে সমর্থন করে।

সিসিএস ধারণা

• মানব-কেন্দ্রিক কম্পিউটিং → এইচসিআই-তে অভিজ্ঞতামূলক অধ্যয়ন; ইন্টারেক্টিভ সিস্টেম এবং টুলস; • কম্পিউটিং পদ্ধতিমেশিন লার্নিং।

কীওয়ার্ড

বড় ভাষার মডেল, কথোপকথনমূলক এআই, ইন্টারেক্টিভ সমালোচনা

1। পরিচিতি

সৃজনশীল লেখার সহায়তা [8, 26, 36, 44] থেকে শুরু করে কোড সংশ্লেষণ [13, 14, 20] পর্যন্ত বৃহৎ ভাষার মডেলগুলি (LLMs) বিস্তৃত সমস্যার ক্ষেত্রে প্রয়োগ করা যেতে পারে। ব্যবহারকারীরা বর্তমানে প্রম্পট ইঞ্জিনিয়ারিং [৪], প্যারামিটার-দক্ষ টিউনিং [১৯] এবং ফাইন-টিউনিং [১০] এর মতো কৌশলগুলির মাধ্যমে এই মডেলগুলিকে নির্দিষ্ট কাজের জন্য কাস্টমাইজ করে।


এলএলএমগুলি কাস্টমাইজ করার জন্য এই সাধারণ পদ্ধতিগুলি ছাড়াও, সাম্প্রতিক কাজগুলি দেখিয়েছে যে ব্যবহারকারীরা এই মডেলগুলিকে প্রাকৃতিক ভাষার প্রতিক্রিয়া দিয়ে সরাসরি পরিচালনা করতে চান (চিত্র 2A)৷ আরও নির্দিষ্টভাবে, কিছু ব্যবহারকারী মডেলের আউটপুটগুলি কীভাবে আলাদা হওয়া উচিত তা নির্দিষ্ট করার জন্য সমালোচনা করতে সক্ষম হতে চান [৫]। আমরা এই কাস্টমাইজেশন কৌশলকে ইন্টারেক্টিভ সমালোচনা বলি।


ChatGPT[1] [28] বা Bard[2]-এর মতো চ্যাটবটের সাথে ইন্টারঅ্যাক্ট করার সময়, ইন্টারেক্টিভ সমালোচনা প্রায়শই চ্যাটবটের পরবর্তী প্রতিক্রিয়াগুলিকে সমালোচনার সাথে সামঞ্জস্য করতে পরিবর্তন করে। যাইহোক, এই পরিবর্তনগুলি স্থায়ী নয়: মডেলের সাথে প্রতিটি নতুন ইন্টারঅ্যাকশনের সময় ব্যবহারকারীদের অবশ্যই এই নির্দেশগুলি পুনরাবৃত্তি করতে হবে। ব্যবহারকারীদের অবশ্যই সচেতন হতে হবে যে তারা আসলে এইভাবে মডেলের আচরণ পরিবর্তন করতে পারে, এবং তাদের সমালোচনা এমনভাবে তৈরি করতে হবে যা মডেলের ভবিষ্যত প্রতিক্রিয়াগুলির পরিবর্তনের দিকে নিয়ে যেতে পারে। কাস্টমাইজ করার এই মোডের সম্ভাব্য মান বিবেচনা করে প্রাকৃতিক ভাষা সমালোচনার মাধ্যমে এলএলএম কাস্টমাইজ করার জন্য ব্যবহারকারীদের ক্ষমতায়নের জন্য প্রথম-শ্রেণীর সহায়তা প্রদানের সুযোগ রয়েছে।


মডেল কাস্টমাইজেশনের প্রেক্ষাপটে, সাংবিধানিক এআই [১] প্রাকৃতিক ভাষা নীতির সাথে জড়িত একটি নির্দিষ্ট কাস্টমাইজেশন কৌশল প্রদান করে। একটি নীতিকে একটি নিয়ম হিসাবে ভাবা যেতে পারে যা ভাষার মডেল অনুসরণ করা উচিত, যেমন, "ক্ষতিকর, যৌনতাবাদী বা বর্ণবাদী বিষয়বস্তু তৈরি করবেন না"। নীতিগুলির একটি সেট দেওয়া, একটি সাংবিধানিক AI সিস্টেম 1) নীতিগুলি লঙ্ঘন করে এমন মডেল প্রতিক্রিয়াগুলিকে পুনরায় লিখবে এবং 2) পুনরায় লেখা প্রতিক্রিয়াগুলির সাথে মডেলটিকে সূক্ষ্ম সুর করবে৷ ইন্টারেক্টিভ সমালোচনার ধারণায় ফিরে গিয়ে, কেউ ব্যবহারকারীদের সমালোচনা থেকে নতুন বা পরিমার্জিত সাংবিধানিক এআই নীতিগুলি অর্জনের কল্পনা করতে পারে। এই উদ্ভূত নীতিগুলি তখন একটি LLM-এর প্রম্পট (চিত্র 2B) পরিবর্তন করতে বা মূল সাংবিধানিক AI কাজের মতো নতুন প্রশিক্ষণ ডেটা তৈরি করতে ব্যবহার করা যেতে পারে।


যদিও এই সাম্প্রতিক কাজটি দেখিয়েছে যে নীতিগুলি একটি LLM কাস্টমাইজ করার জন্য একটি ব্যাখ্যাযোগ্য এবং কার্যকর কৌশল হতে পারে, আমাদের প্রতিক্রিয়া থেকে এই নীতিগুলি লেখার মানবিক প্রক্রিয়া সম্পর্কে খুব কমই জানা যায়। একটি গঠনমূলক অধ্যয়ন থেকে, আমরা আবিষ্কার করেছি যে সমালোচনাকে নীতিতে রূপান্তর করার সাথে জড়িত অনেক জ্ঞানীয় চ্যালেঞ্জ রয়েছে। এই চ্যালেঞ্জ মোকাবেলার জন্য, আমরা ConstitutionMaker উপস্থাপন করি, একটি ইন্টারেক্টিভ ক্রিটিক সিস্টেম যা ব্যবহারকারীদের মডেল সমালোচনাকে নীতিতে রূপান্তরিত করে যা মডেলের আচরণকে পরিমার্জিত করে। সংবিধান প্রণেতা প্রতিটি কথোপকথনের মোড়ে তিনটি প্রার্থীর প্রতিক্রিয়া তৈরি করে। এই তিনটি প্রার্থীর প্রতিক্রিয়া ছাড়াও, ConstitutionMaker তিনটি নীতি-উন্মোচন বৈশিষ্ট্য প্রদান করে: 1) প্রশংসা, যেখানে ব্যবহারকারীরা একটি প্রতিক্রিয়ার জন্য ইতিবাচক প্রতিক্রিয়া প্রদান করতে পারে, 2) সমালোচনা, যেখানে ব্যবহারকারীরা একটি প্রতিক্রিয়ার জন্য নেতিবাচক প্রতিক্রিয়া প্রদান করতে পারে, এবং 3) পুনর্লিখন, যেখানে ব্যবহারকারীরা একটি প্রদত্ত প্রতিক্রিয়া পুনরায় লিখতে পারেন। এই প্রতিক্রিয়া থেকে, ConstitutionMaker একটি নীতি অনুমান করে, যা চ্যাটবটের প্রম্পটে অন্তর্ভুক্ত করা হয়েছে।


ConstitutionMaker ব্যবহারকারীদের নীতিগুলি লিখতে কতটা ভালভাবে সাহায্য করে তা মূল্যায়ন করার জন্য, আমরা প্রম্পটিংয়ের সাথে পরিচিত 14 জন শিল্প পেশাদারদের সাথে একটি অন্তর্গত বিষয়ের ব্যবহারকারী অধ্যয়ন পরিচালনা করেছি। অংশগ্রহণকারীরা ConstitutionMaker এবং একটি বর্ধিত সংস্করণ ব্যবহার করেছেন যাতে একাধিক প্রার্থীর প্রতিক্রিয়া এবং নীতি-নির্ধারণ বৈশিষ্ট্যের অভাব ছিল। উভয় ক্ষেত্রেই, তাদের লক্ষ্য ছিল দুটি চ্যাটবট কাস্টমাইজ করার নীতিগুলি লেখা। অধ্যয়ন থেকে, আমরা দেখতে পেয়েছি যে দুটি ভিন্ন সংস্করণ খুব ভিন্ন কর্মপ্রবাহ দিয়েছে। বিলুপ্ত সংস্করণের সাথে, অংশগ্রহণকারীরা শুধুমাত্র নীতিগুলি লিখেছিল যখন বট তাদের প্রত্যাশা থেকে কিছুটা বিচ্যুত হয়েছিল, যার ফলে মোট নীতিগুলি উল্লেখযোগ্যভাবে কম লেখা হয়েছে৷ বিপরীতে, ConstitutionMaker কন্ডিশনে, অংশগ্রহণকারীরা একটি কর্মপ্রবাহে নিযুক্ত ছিলেন যেখানে তারা একাধিক প্রার্থীর প্রতিক্রিয়া স্ক্যান করে এবং তাদের পছন্দের প্রতিক্রিয়াকে প্রশংসা করে, যা সামগ্রিকভাবে আরও নীতির দিকে পরিচালিত করে। এই বিভিন্ন কর্মপ্রবাহগুলি লেখার নীতিতে শর্ত-নির্দিষ্ট চ্যালেঞ্জও দিয়েছে। সংক্ষিপ্ত সংস্করণের সাথে, ব্যবহারকারীরা প্রায়শই নীতিগুলি কম-নির্দিষ্ট করে; যেখানে, ConstitutionMaker-এর সাথে, ব্যবহারকারীরা কখনও কখনও তাদের নীতিগুলিকে অতিরিক্তভাবে উল্লেখ করে, যদিও এটি প্রায়ই ঘটেছিল। অবশেষে, উভয় অবস্থাই কখনও কখনও এমন একটি সমস্যার দিকে নিয়ে যায় যেখানে দুটি বা ততোধিক নীতি একে অপরের সাথে সাংঘর্ষিক ছিল।


চিত্র 2: ইন্টারেক্টিভ সমালোচনার মাধ্যমে একটি এলএলএম পরিচালনার চিত্র। চ্যাট-জিপিটি এবং বার্ডের মতো এলএলএম-এর সাথে কথোপকথনে, ব্যবহারকারীরা স্বাভাবিক ভাষা প্রতিক্রিয়া প্রদান করে, যেমন তারা অন্য ব্যক্তির কাছে, এলএলএমকে আরও ভাল আউটপুট দেওয়ার জন্য। এই উদাহরণে,


সামগ্রিকভাবে, ConstitutionMaker-এর সাথে, অংশগ্রহণকারীরা অনুভব করেছিলেন যে তাদের নীতিগুলি চ্যাটবটকে আরও ভালভাবে গাইড করতে পারে, তারা আরও সহজে তাদের মতামতকে নীতিতে রূপান্তর করতে পারে এবং তারা কম মানসিক চাহিদা সহ আরও দক্ষতার সাথে নীতিগুলি লিখতে পারে। ConstitutionMaker তাদের চিন্তার প্রক্রিয়াগুলিকেও সমর্থন করেছিল কারণ তারা অংশগ্রহণকারীদের সাহায্য করে নীতিগুলি লিখেছিল 1) একাধিক প্রার্থীর প্রতিক্রিয়াগুলির মাধ্যমে প্রতিক্রিয়াগুলি আরও ভাল হতে পারে তা চিনতে পারে, 2) কেন তারা একটি প্রতিক্রিয়া পছন্দ বা অপছন্দ করেছে সে সম্পর্কে তাদের অন্তর্দৃষ্টিকে মৌখিক প্রতিক্রিয়াতে রূপান্তরিত করে এবং 3) এই প্রতিক্রিয়াটি বাক্যাংশে একটি নির্দিষ্ট নীতি হিসাবে।


সম্মিলিতভাবে, এই কাজটি নিম্নলিখিত অবদান রাখে:


• অংশগ্রহণকারীরা চ্যাটবট আচরণ পরিচালনা করতে লিখতে চায় এমন নীতিগুলির একটি শ্রেণিবিন্যাস।


• ConstitutionMaker-এর নকশা, ব্যবহারকারীর প্রতিক্রিয়াকে নীতিতে রূপান্তরিত করার জন্য একটি ইন্টারেক্টিভ টুল চ্যাটবট আচরণ পরিচালনা করতে। ConstitutionMaker তিনটি অভিনব নীতিগত বৈশিষ্ট্য উপস্থাপন করেছে: প্রশংসা, সমালোচনা এবং পুনর্লিখন, যা প্রতিটি একটি নীতি তৈরি করে যা চ্যাটবটের প্রম্পটে ঢোকানো হয়।


• একটি 14-অংশগ্রহণকারী ব্যবহারকারীর অধ্যয়নের ফলাফল, যেখানে অংশগ্রহণকারীরা অনুভব করেছিলেন যে ConstitutionMaker তাদের সক্ষম করেছে 1) নীতিগুলি লিখতে যা চ্যাটবটকে আরও ভালভাবে পরিচালনা করে, 2) তাদের প্রতিক্রিয়াগুলিকে আরও সহজে নীতিতে রূপান্তর করে এবং 3) কম মানসিক চাহিদা সহ নীতিগুলি আরও দক্ষতার সাথে লিখতে পারে .


• আমরা বর্ণনা করি যে কীভাবে সংবিধান প্রণেতা অংশগ্রহণকারীদের চিন্তার প্রক্রিয়াগুলিকে সমর্থন করেছিল, যার মধ্যে তাদের প্রতিক্রিয়াগুলিকে উন্নত করার উপায়গুলি সনাক্ত করতে সাহায্য করা, তাদের অন্তর্দৃষ্টিকে স্বাভাবিক ভাষার প্রতিক্রিয়াতে রূপান্তর করা এবং নির্দিষ্ট নীতি হিসাবে তাদের প্রতিক্রিয়াগুলিকে বাক্যাংশ করা। আমরা আরও বর্ণনা করি যে কীভাবে দুটি সিস্টেম দ্বারা সক্রিয় করা বিভিন্ন কর্মপ্রবাহ নীতিগুলি এবং নীতিগুলির সীমাবদ্ধতার ক্ষেত্রে বিভিন্ন চ্যালেঞ্জের দিকে পরিচালিত করে৷


একসাথে, এই ফলাফলগুলি ইন্টারেক্টিভ সমালোচনার মাধ্যমে LLM আউটপুটগুলিকে ইন্টারেক্টিভভাবে পরিমার্জন করার জন্য ভবিষ্যতের সরঞ্জামগুলিকে জানায়।




[১] https://chat.openai.com/


[2] https://bard.google.com


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ