লেখক:
(1) Savvas Petridis, Google Research, New York, New York, USA;
(2) Ben Wedin, Google Research, Cambridge, Massachusetts, USA;
(3) জেমস ওয়েক্সলার, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র;
(4) Aaron Donsbach, Google Research, Seattle, Washington, USA;
(5) মহিমা পুষ্কর্ণ, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র;
(6) নিতেশ গোয়াল, গুগল রিসার্চ, নিউ ইয়র্ক, নিউ ইয়র্ক, মার্কিন যুক্তরাষ্ট্র;
(7) Carrie J. Cai, Google Research, Mountain View, California, USA;
(8) মাইকেল টেরি, গুগল রিসার্চ, কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র।
লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) প্রম্পটিং হল ব্যবহারকারীদের নিজস্ব চ্যাটবট তৈরি এবং কাস্টমাইজ করার জন্য একটি প্রতিশ্রুতিশীল নতুন পদ্ধতি। যাইহোক, চ্যাটবটের আউটপুট পরিচালনার জন্য বর্তমান পদ্ধতি, যেমন প্রম্পট ইঞ্জিনিয়ারিং এবং ফাইন-টিউনিং, ব্যবহারকারীদের মডেলের আউটপুটগুলিতে তাদের স্বাভাবিক প্রতিক্রিয়াকে প্রম্পট বা মডেলের পরিবর্তনে রূপান্তর করতে সহায়তা করে না। এই কাজে, আমরা কীভাবে ব্যবহারকারীদের তাদের প্রতিক্রিয়ার মাধ্যমে মডেলের আউটপুটগুলিকে ইন্টারেক্টিভভাবে পরিমার্জিত করতে সক্ষম করতে পারি, তাদের মতামতকে নীতির একটি সেটে (অর্থাৎ একটি সংবিধান) রূপান্তর করতে সহায়তা করে যা মডেলের আচরণকে নির্দেশ করে। একটি গঠনমূলক অধ্যয়ন থেকে, আমরা (1) খুঁজে পেয়েছি যে ব্যবহারকারীদের তাদের মতামতকে চ্যাটবটের নীতিতে রূপান্তর করার জন্য সমর্থন প্রয়োজন এবং (2) ব্যবহারকারীদের পছন্দসই বিভিন্ন নীতির ধরনগুলিকে শ্রেণীবদ্ধ করা হয়েছে। এই ফলাফলগুলির দ্বারা অনুপ্রাণিত হয়ে, আমরা LLM-ভিত্তিক চ্যাটবটগুলিকে চালিত করার জন্য ব্যবহারকারীর প্রতিক্রিয়াকে নীতিতে রূপান্তর করার জন্য একটি ইন্টারেক্টিভ টুল ConstitutionMaker তৈরি করেছি। ConstitutionMaker এর সাথে, ব্যবহারকারীরা স্বাভাবিক ভাষায় ইতিবাচক বা নেতিবাচক প্রতিক্রিয়া প্রদান করতে পারেন, স্বয়ংক্রিয়ভাবে তৈরি প্রতিক্রিয়া নির্বাচন করতে পারেন, অথবা চ্যাটবটের প্রতিক্রিয়া পুনরায় লিখতে পারেন; প্রতিক্রিয়ার প্রতিটি মোড স্বয়ংক্রিয়ভাবে একটি নীতি তৈরি করে যা চ্যাটবটের প্রম্পটে ঢোকানো হয়। 14 জন অংশগ্রহণকারীর সাথে একটি ব্যবহারকারীর গবেষণায়, আমরা সংবিধান মেকারকে একটি সংশোধিত সংস্করণের সাথে তুলনা করি, যেখানে ব্যবহারকারীরা তাদের নিজস্ব নীতিগুলি লেখেন। ConstitutionMaker-এর সাথে, অংশগ্রহণকারীরা অনুভব করেছিলেন যে তাদের নীতিগুলি চ্যাটবটকে আরও ভালভাবে গাইড করতে পারে, তারা আরও সহজে তাদের প্রতিক্রিয়াকে নীতিতে রূপান্তর করতে পারে এবং তারা কম মানসিক চাহিদা সহ নীতিগুলি আরও দক্ষতার সাথে লিখতে পারে। ConstitutionMaker ব্যবহারকারীদের চ্যাটবট উন্নত করার উপায়গুলি চিহ্নিত করতে, মডেলের প্রতি তাদের স্বজ্ঞাত প্রতিক্রিয়াগুলিকে প্রতিক্রিয়ায় রূপান্তর করতে এবং এই প্রতিক্রিয়াটিকে নির্দিষ্ট এবং স্পষ্ট নীতিতে রূপান্তর করতে সাহায্য করেছে৷ একসাথে, এই ফলাফলগুলি ভবিষ্যতের সরঞ্জামগুলিকে অবহিত করে যা LLM আউটপুটগুলির ইন্টারেক্টিভ সমালোচনাকে সমর্থন করে।
• মানব-কেন্দ্রিক কম্পিউটিং → এইচসিআই-তে অভিজ্ঞতামূলক অধ্যয়ন; ইন্টারেক্টিভ সিস্টেম এবং টুলস; • কম্পিউটিং পদ্ধতি → মেশিন লার্নিং।
বড় ভাষার মডেল, কথোপকথনমূলক এআই, ইন্টারেক্টিভ সমালোচনা
সৃজনশীল লেখার সহায়তা [8, 26, 36, 44] থেকে শুরু করে কোড সংশ্লেষণ [13, 14, 20] পর্যন্ত বৃহৎ ভাষার মডেলগুলি (LLMs) বিস্তৃত সমস্যার ক্ষেত্রে প্রয়োগ করা যেতে পারে। ব্যবহারকারীরা বর্তমানে প্রম্পট ইঞ্জিনিয়ারিং [৪], প্যারামিটার-দক্ষ টিউনিং [১৯] এবং ফাইন-টিউনিং [১০] এর মতো কৌশলগুলির মাধ্যমে এই মডেলগুলিকে নির্দিষ্ট কাজের জন্য কাস্টমাইজ করে।
এলএলএমগুলি কাস্টমাইজ করার জন্য এই সাধারণ পদ্ধতিগুলি ছাড়াও, সাম্প্রতিক কাজগুলি দেখিয়েছে যে ব্যবহারকারীরা এই মডেলগুলিকে প্রাকৃতিক ভাষার প্রতিক্রিয়া দিয়ে সরাসরি পরিচালনা করতে চান (চিত্র 2A)৷ আরও নির্দিষ্টভাবে, কিছু ব্যবহারকারী মডেলের আউটপুটগুলি কীভাবে আলাদা হওয়া উচিত তা নির্দিষ্ট করার জন্য সমালোচনা করতে সক্ষম হতে চান [৫]। আমরা এই কাস্টমাইজেশন কৌশলকে ইন্টারেক্টিভ সমালোচনা বলি।
ChatGPT[1] [28] বা Bard[2]-এর মতো চ্যাটবটের সাথে ইন্টারঅ্যাক্ট করার সময়, ইন্টারেক্টিভ সমালোচনা প্রায়শই চ্যাটবটের পরবর্তী প্রতিক্রিয়াগুলিকে সমালোচনার সাথে সামঞ্জস্য করতে পরিবর্তন করে। যাইহোক, এই পরিবর্তনগুলি স্থায়ী নয়: মডেলের সাথে প্রতিটি নতুন ইন্টারঅ্যাকশনের সময় ব্যবহারকারীদের অবশ্যই এই নির্দেশগুলি পুনরাবৃত্তি করতে হবে। ব্যবহারকারীদের অবশ্যই সচেতন হতে হবে যে তারা আসলে এইভাবে মডেলের আচরণ পরিবর্তন করতে পারে, এবং তাদের সমালোচনা এমনভাবে তৈরি করতে হবে যা মডেলের ভবিষ্যত প্রতিক্রিয়াগুলির পরিবর্তনের দিকে নিয়ে যেতে পারে। কাস্টমাইজ করার এই মোডের সম্ভাব্য মান বিবেচনা করে প্রাকৃতিক ভাষা সমালোচনার মাধ্যমে এলএলএম কাস্টমাইজ করার জন্য ব্যবহারকারীদের ক্ষমতায়নের জন্য প্রথম-শ্রেণীর সহায়তা প্রদানের সুযোগ রয়েছে।
মডেল কাস্টমাইজেশনের প্রেক্ষাপটে, সাংবিধানিক এআই [১] প্রাকৃতিক ভাষা নীতির সাথে জড়িত একটি নির্দিষ্ট কাস্টমাইজেশন কৌশল প্রদান করে। একটি নীতিকে একটি নিয়ম হিসাবে ভাবা যেতে পারে যা ভাষার মডেল অনুসরণ করা উচিত, যেমন, "ক্ষতিকর, যৌনতাবাদী বা বর্ণবাদী বিষয়বস্তু তৈরি করবেন না"। নীতিগুলির একটি সেট দেওয়া, একটি সাংবিধানিক AI সিস্টেম 1) নীতিগুলি লঙ্ঘন করে এমন মডেল প্রতিক্রিয়াগুলিকে পুনরায় লিখবে এবং 2) পুনরায় লেখা প্রতিক্রিয়াগুলির সাথে মডেলটিকে সূক্ষ্ম সুর করবে৷ ইন্টারেক্টিভ সমালোচনার ধারণায় ফিরে গিয়ে, কেউ ব্যবহারকারীদের সমালোচনা থেকে নতুন বা পরিমার্জিত সাংবিধানিক এআই নীতিগুলি অর্জনের কল্পনা করতে পারে। এই উদ্ভূত নীতিগুলি তখন একটি LLM-এর প্রম্পট (চিত্র 2B) পরিবর্তন করতে বা মূল সাংবিধানিক AI কাজের মতো নতুন প্রশিক্ষণ ডেটা তৈরি করতে ব্যবহার করা যেতে পারে।
যদিও এই সাম্প্রতিক কাজটি দেখিয়েছে যে নীতিগুলি একটি LLM কাস্টমাইজ করার জন্য একটি ব্যাখ্যাযোগ্য এবং কার্যকর কৌশল হতে পারে, আমাদের প্রতিক্রিয়া থেকে এই নীতিগুলি লেখার মানবিক প্রক্রিয়া সম্পর্কে খুব কমই জানা যায়। একটি গঠনমূলক অধ্যয়ন থেকে, আমরা আবিষ্কার করেছি যে সমালোচনাকে নীতিতে রূপান্তর করার সাথে জড়িত অনেক জ্ঞানীয় চ্যালেঞ্জ রয়েছে। এই চ্যালেঞ্জ মোকাবেলার জন্য, আমরা ConstitutionMaker উপস্থাপন করি, একটি ইন্টারেক্টিভ ক্রিটিক সিস্টেম যা ব্যবহারকারীদের মডেল সমালোচনাকে নীতিতে রূপান্তরিত করে যা মডেলের আচরণকে পরিমার্জিত করে। সংবিধান প্রণেতা প্রতিটি কথোপকথনের মোড়ে তিনটি প্রার্থীর প্রতিক্রিয়া তৈরি করে। এই তিনটি প্রার্থীর প্রতিক্রিয়া ছাড়াও, ConstitutionMaker তিনটি নীতি-উন্মোচন বৈশিষ্ট্য প্রদান করে: 1) প্রশংসা, যেখানে ব্যবহারকারীরা একটি প্রতিক্রিয়ার জন্য ইতিবাচক প্রতিক্রিয়া প্রদান করতে পারে, 2) সমালোচনা, যেখানে ব্যবহারকারীরা একটি প্রতিক্রিয়ার জন্য নেতিবাচক প্রতিক্রিয়া প্রদান করতে পারে, এবং 3) পুনর্লিখন, যেখানে ব্যবহারকারীরা একটি প্রদত্ত প্রতিক্রিয়া পুনরায় লিখতে পারেন। এই প্রতিক্রিয়া থেকে, ConstitutionMaker একটি নীতি অনুমান করে, যা চ্যাটবটের প্রম্পটে অন্তর্ভুক্ত করা হয়েছে।
ConstitutionMaker ব্যবহারকারীদের নীতিগুলি লিখতে কতটা ভালভাবে সাহায্য করে তা মূল্যায়ন করার জন্য, আমরা প্রম্পটিংয়ের সাথে পরিচিত 14 জন শিল্প পেশাদারদের সাথে একটি অন্তর্গত বিষয়ের ব্যবহারকারী অধ্যয়ন পরিচালনা করেছি। অংশগ্রহণকারীরা ConstitutionMaker এবং একটি বর্ধিত সংস্করণ ব্যবহার করেছেন যাতে একাধিক প্রার্থীর প্রতিক্রিয়া এবং নীতি-নির্ধারণ বৈশিষ্ট্যের অভাব ছিল। উভয় ক্ষেত্রেই, তাদের লক্ষ্য ছিল দুটি চ্যাটবট কাস্টমাইজ করার নীতিগুলি লেখা। অধ্যয়ন থেকে, আমরা দেখতে পেয়েছি যে দুটি ভিন্ন সংস্করণ খুব ভিন্ন কর্মপ্রবাহ দিয়েছে। বিলুপ্ত সংস্করণের সাথে, অংশগ্রহণকারীরা শুধুমাত্র নীতিগুলি লিখেছিল যখন বট তাদের প্রত্যাশা থেকে কিছুটা বিচ্যুত হয়েছিল, যার ফলে মোট নীতিগুলি উল্লেখযোগ্যভাবে কম লেখা হয়েছে৷ বিপরীতে, ConstitutionMaker কন্ডিশনে, অংশগ্রহণকারীরা একটি কর্মপ্রবাহে নিযুক্ত ছিলেন যেখানে তারা একাধিক প্রার্থীর প্রতিক্রিয়া স্ক্যান করে এবং তাদের পছন্দের প্রতিক্রিয়াকে প্রশংসা করে, যা সামগ্রিকভাবে আরও নীতির দিকে পরিচালিত করে। এই বিভিন্ন কর্মপ্রবাহগুলি লেখার নীতিতে শর্ত-নির্দিষ্ট চ্যালেঞ্জও দিয়েছে। সংক্ষিপ্ত সংস্করণের সাথে, ব্যবহারকারীরা প্রায়শই নীতিগুলি কম-নির্দিষ্ট করে; যেখানে, ConstitutionMaker-এর সাথে, ব্যবহারকারীরা কখনও কখনও তাদের নীতিগুলিকে অতিরিক্তভাবে উল্লেখ করে, যদিও এটি প্রায়ই ঘটেছিল। অবশেষে, উভয় অবস্থাই কখনও কখনও এমন একটি সমস্যার দিকে নিয়ে যায় যেখানে দুটি বা ততোধিক নীতি একে অপরের সাথে সাংঘর্ষিক ছিল।
সামগ্রিকভাবে, ConstitutionMaker-এর সাথে, অংশগ্রহণকারীরা অনুভব করেছিলেন যে তাদের নীতিগুলি চ্যাটবটকে আরও ভালভাবে গাইড করতে পারে, তারা আরও সহজে তাদের মতামতকে নীতিতে রূপান্তর করতে পারে এবং তারা কম মানসিক চাহিদা সহ আরও দক্ষতার সাথে নীতিগুলি লিখতে পারে। ConstitutionMaker তাদের চিন্তার প্রক্রিয়াগুলিকেও সমর্থন করেছিল কারণ তারা অংশগ্রহণকারীদের সাহায্য করে নীতিগুলি লিখেছিল 1) একাধিক প্রার্থীর প্রতিক্রিয়াগুলির মাধ্যমে প্রতিক্রিয়াগুলি আরও ভাল হতে পারে তা চিনতে পারে, 2) কেন তারা একটি প্রতিক্রিয়া পছন্দ বা অপছন্দ করেছে সে সম্পর্কে তাদের অন্তর্দৃষ্টিকে মৌখিক প্রতিক্রিয়াতে রূপান্তরিত করে এবং 3) এই প্রতিক্রিয়াটি বাক্যাংশে একটি নির্দিষ্ট নীতি হিসাবে।
সম্মিলিতভাবে, এই কাজটি নিম্নলিখিত অবদান রাখে:
• অংশগ্রহণকারীরা চ্যাটবট আচরণ পরিচালনা করতে লিখতে চায় এমন নীতিগুলির একটি শ্রেণিবিন্যাস।
• ConstitutionMaker-এর নকশা, ব্যবহারকারীর প্রতিক্রিয়াকে নীতিতে রূপান্তরিত করার জন্য একটি ইন্টারেক্টিভ টুল চ্যাটবট আচরণ পরিচালনা করতে। ConstitutionMaker তিনটি অভিনব নীতিগত বৈশিষ্ট্য উপস্থাপন করেছে: প্রশংসা, সমালোচনা এবং পুনর্লিখন, যা প্রতিটি একটি নীতি তৈরি করে যা চ্যাটবটের প্রম্পটে ঢোকানো হয়।
• একটি 14-অংশগ্রহণকারী ব্যবহারকারীর অধ্যয়নের ফলাফল, যেখানে অংশগ্রহণকারীরা অনুভব করেছিলেন যে ConstitutionMaker তাদের সক্ষম করেছে 1) নীতিগুলি লিখতে যা চ্যাটবটকে আরও ভালভাবে পরিচালনা করে, 2) তাদের প্রতিক্রিয়াগুলিকে আরও সহজে নীতিতে রূপান্তর করে এবং 3) কম মানসিক চাহিদা সহ নীতিগুলি আরও দক্ষতার সাথে লিখতে পারে .
• আমরা বর্ণনা করি যে কীভাবে সংবিধান প্রণেতা অংশগ্রহণকারীদের চিন্তার প্রক্রিয়াগুলিকে সমর্থন করেছিল, যার মধ্যে তাদের প্রতিক্রিয়াগুলিকে উন্নত করার উপায়গুলি সনাক্ত করতে সাহায্য করা, তাদের অন্তর্দৃষ্টিকে স্বাভাবিক ভাষার প্রতিক্রিয়াতে রূপান্তর করা এবং নির্দিষ্ট নীতি হিসাবে তাদের প্রতিক্রিয়াগুলিকে বাক্যাংশ করা। আমরা আরও বর্ণনা করি যে কীভাবে দুটি সিস্টেম দ্বারা সক্রিয় করা বিভিন্ন কর্মপ্রবাহ নীতিগুলি এবং নীতিগুলির সীমাবদ্ধতার ক্ষেত্রে বিভিন্ন চ্যালেঞ্জের দিকে পরিচালিত করে৷
একসাথে, এই ফলাফলগুলি ইন্টারেক্টিভ সমালোচনার মাধ্যমে LLM আউটপুটগুলিকে ইন্টারেক্টিভভাবে পরিমার্জন করার জন্য ভবিষ্যতের সরঞ্জামগুলিকে জানায়।
[১] https://chat.openai.com/
[2] https://bard.google.com
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।