লেখক:
(1) নাথান ল্যাম্বার্ট, অ্যালেন ইনস্টিটিউট ফর এআই;
(2) রবার্তো ক্যালান্দ্রা, টিইউ ড্রেসডেন।
হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) একটি শক্তিশালী কৌশল হিসেবে আবির্ভূত হয়েছে যাতে বৃহৎ ভাষার মডেল (LLM) সহজে প্রম্পট করা যায় এবং জটিল সেটিংসে আরও সক্ষম হয়। RLHF এর মূলে একটি নতুন টুলকিট প্রদান করছে পরবর্তী-টোকেন পূর্বাভাস ব্যতীত LLM গুলিকে অপ্টিমাইজ করার জন্য, গুণগত প্রশিক্ষণ লক্ষ্যগুলির একীকরণ সক্ষম করে৷ ব্যবহারকারীর পছন্দ এবং ডাউনস্ট্রিম পারফরম্যান্সের মধ্যে চেষ্টা করা মিল, যা একটি শেখা পুরস্কারের মডেলে ঘটে, ফলে একটি অপ্টিমাইজেশান ল্যান্ডস্কেপ দেখা যায় যেখানে প্রশিক্ষণ এবং মূল্যায়ন মেট্রিক্স পারস্পরিক সম্পর্কযুক্ত হতে পারে। আপাত পারস্পরিক সম্পর্ক অপ্রত্যাশিত আচরণ এবং "অত্যধিক RLHF" এর গল্পের দিকে নিয়ে যেতে পারে। RLHF-এ, চ্যালেঞ্জগুলি আবির্ভূত হয় কারণ নিম্নলিখিত উপ-মডিউলগুলি একে অপরের সাথে সামঞ্জস্যপূর্ণ নয়: পুরস্কার মডেল প্রশিক্ষণ, নীতি মডেল প্রশিক্ষণ এবং নীতি মডেল মূল্যায়ন। এই অমিলের ফলে এমন মডেলগুলি দেখা যায় যেগুলি কখনও কখনও মিথ্যা নিরাপত্তা পতাকার মাধ্যমে ব্যবহারকারীর অনুরোধগুলি এড়িয়ে যায়, একটি উদ্দেশ্যযুক্ত বৈশিষ্ট্যের দিকে নিয়ে যাওয়া কঠিন, বা সর্বদা একটি নির্দিষ্ট শৈলীতে উত্তর দেয়। চ্যাট মডেল মূল্যায়ন ক্রমবর্ধমান সংক্ষিপ্ত হয়ে উঠলে, পুরষ্কার মডেল স্কোর এবং ডাউনস্ট্রিম পারফরম্যান্সের মধ্যে একটি অনুভূত লিঙ্কের উপর নির্ভরতা উদ্দেশ্যহীনতার সমস্যাটিকে চালিত করে। এই কাগজে, আমরা এই সমস্যার কারণ ব্যাখ্যা করি, মডেল-ভিত্তিক শক্তিবৃদ্ধি শিক্ষা থেকে প্রাসঙ্গিক সাহিত্য পর্যালোচনা করে এবং আরও গবেষণাকে উত্সাহিত করার জন্য প্রাসঙ্গিক সমাধান নিয়ে আলোচনা করি। RLHF-এ উদ্দেশ্যগত অমিল সমাধান করার মাধ্যমে, ভবিষ্যতের LLMগুলি সুরক্ষা এবং সহায়ক উভয়ের জন্য ব্যবহারকারীর নির্দেশাবলীর সাথে আরও সুনির্দিষ্টভাবে সারিবদ্ধ হবে
হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) হল বৃহৎ মেশিন লার্নিং মডেলে গুণগত শৈলী এবং মানগুলিকে একীভূত করার জন্য একটি শক্তিশালী হাতিয়ার (বাই এট আল।, 2022; ক্রিশ্চিয়ানো এট আল।, 2017; ওয়াং এট আল।, 2022)। RLHF চ্যাট টুলগুলিকে সারিবদ্ধ করার জন্য (Schulman, Zoph, Kim, and more, 2022) বৃহৎ ভাষার মডেলে (LLMs) মানবিক মূল্যবোধকে একীভূত করতে ব্যবহার করে জনপ্রিয় হয়েছিল। এটি করতে গিয়ে, RLHF ব্যবহারকারীর অনুরোধে সাড়া দেওয়ার জন্য মডেলগুলিকে আরও ভাল করার প্রক্রিয়াতে একটি গুরুত্বপূর্ণ কৌশল হয়ে উঠেছে, প্রায়শই নির্দেশ-টিউনড, স্টিয়ারিবিলিটি, চ্যাট-মডেল ইত্যাদি হিসাবে উল্লেখ করা হয়। RLHF পদ্ধতিগুলি সাধারণত একটি দুই ধাপের প্রক্রিয়ায় কাজ করে একটি বেস ল্যাঙ্গুয়েজ মডেলের প্রশিক্ষণ, প্রথমে তারা মানুষের পছন্দের একটি মডেল শিখে যা একটি পুরষ্কার ফাংশন হিসাবে কাজ করে এবং দ্বিতীয়ত তারা একটি রিইনফোর্সমেন্ট লার্নিং (RL) অপ্টিমাইজেশান লুপের মধ্যে এই মডেলটি ব্যবহার করে। RLHF প্রক্রিয়ায়, এই দুটি ধাপ প্রায়ই স্বাধীনভাবে সম্পাদিত হয়, একটি সঠিক পুরষ্কার মডেলকে মানুষের পছন্দের ডেটার উপর প্রশিক্ষণ দেওয়া হয় এবং তারপর চ্যাট মডেলে সর্বাধিক তথ্য বের করতে RL অপ্টিমাইজার ব্যবহার করা হয়। RLHF এর সাথে প্রশিক্ষিত আধুনিক LLM-এর একটি সাধারণ চ্যালেঞ্জ হল মডেল থেকে উদ্দেশ্যমূলক আচরণ বের করতে অসুবিধা। কখনও কখনও, মডেলগুলি নিরাপত্তার কারণে সৌম্য অনুরোধ প্রত্যাখ্যান করে এবং অন্য সময় তাদের সম্পূর্ণ কার্যকারিতা বের করার জন্য চতুর প্রম্পট টিউনিংয়ের প্রয়োজন হয়।
এই কাগজে, আমরা আধুনিক RLHF শেখার স্কিমগুলির একটি মৌলিক চ্যালেঞ্জের বিশদ বিবরণ দিই: উদ্দেশ্য অমিলের সমস্যা। RLHF-এ, প্রশিক্ষণের তিনটি গুরুত্বপূর্ণ অংশকে সংখ্যাগতভাবে জোড়া দেওয়া হয়: মূল্যায়ন মেট্রিক্সের নকশা, একটি পুরষ্কার মডেলের প্রশিক্ষণ এবং উৎপন্ন মডেলের প্রশিক্ষণ। পুরষ্কার মডেল এবং RL প্রশিক্ষণের মধ্যে এই অমিল চিত্র 1-এ কল্পনা করা হয়েছে, তবুও মূল্যায়নের লক্ষ্য এবং মানবিক মূল্যবোধের অনুকরণের মধ্যে অন্যান্য লিঙ্ক বিদ্যমান। বিশেষত, অগ্রাধিকার পরিমাপ (ল্যামবার্ট, গিলবার্ট, এবং জিক, 2023) এবং মৌলিক অপ্টিমাইজেশান চ্যালেঞ্জগুলিকে RLHF অনুশীলনে সমাধান করা প্রয়োজন (ক্যাসপার এট আল।, 2023) সাহিত্যে পুরস্কার মডেল প্রশিক্ষণকে আরও ভালভাবে সারিবদ্ধ করার অনেক উপায় রয়েছে। ChatGPT, RLHF এর সাথে প্রশিক্ষিত সবচেয়ে জনপ্রিয় মডেল, শব্দচয়, আত্ম-সন্দেহ এবং প্রশ্ন প্রত্যাখ্যান, বারবার বাক্যাংশ, হেজিং এবং আরও অনেক কিছুর মাধ্যমে এই সীমাবদ্ধতার লক্ষণ দেখায় (Schulman, 2023)। ওভারঅপ্টিমাইজেশনের এই বৈশিষ্ট্যগুলি হল সূক্ষ্ম প্রক্সি অবজেক্টিভ সমস্যার ফলাফল যা উদ্দেশ্য অমিল অধ্যয়ন এবং সমাধানের জন্য একটি ফ্রেম প্রদান করে – পুরস্কার মডেলটি এমন বাক্যাংশগুলির জন্য অতিরিক্ত মূল্যকে দায়ী করে যা ব্যবহারকারীর সুবিধাতে অবদান রাখে না, যা RL অপ্টিমাইজার শোষণ করে, যেমন নিরাপত্তা পতাকা। অন্যদিকে, বর্তমান প্রশিক্ষণ সেটআপগুলি মূল্যায়নের সরঞ্জামগুলির সাথে সম্পূর্ণরূপে সংযুক্ত নয় কারণ RLHF'd মডেলগুলির এখনও "ধাপে ধাপে চিন্তা" (জে. ওয়েই এট আল।, 2022) বা "একটি গভীর শ্বাস নেওয়ার মতো অত্যাধুনিক প্রম্পটিং কৌশলগুলির প্রয়োজন। ” (ইয়াং এট আল।, 2023) সর্বোচ্চ পারফরম্যান্সে পৌঁছাতে। উদ্দেশ্যগত অমিল সমাধান করা এই উন্নত কৌশলগুলির প্রয়োজনীয়তাকে সরিয়ে দেবে এবং এলএলএম থেকে সুযোগ-সুবিধার বাইরের প্রত্যাখ্যানের সম্ভাবনা কমিয়ে দেবে।
বস্তুনিষ্ঠ অমিল শব্দটি মডেল-ভিত্তিক রিইনফোর্সমেন্ট লার্নিং (MBRL) থেকে উদ্ভূত হয়, যেখানে একজন এজেন্ট পুনরাবৃত্তিমূলকভাবে একটি গতিবিদ্যা মডেল শেখে যা পরে এটি একটি নিয়ন্ত্রণ কাজ সমাধান করতে ব্যবহার করে (ল্যামবার্ট, আমোস, ইয়াদান, এবং ক্যালান্দ্রা, 2020; আর. ওয়েই, ল্যাম্বার্ট, ম্যাকডোনাল্ড, গার্সিয়া, এবং ক্যালান্দ্রা, 2023)। এই প্রসঙ্গে, উচ্চ টাস্ক পুরষ্কারের জন্য অপ্টিমাইজ করা একটির পরিবর্তে একটি সঠিক গতিবিদ্যা মডেল শেখার মধ্যে অমিল। RLHF-এ, সমস্যাটি সম্পর্কিত, তবে অতিরিক্ত জটিলতার সাথে, কারণ পুরস্কার মডেলটি একটি বন্ধ বিতরণের উপর পছন্দের ডেটার জন্য অপ্টিমাইজ করা হয়েছে, যা শেষ ব্যবহারকারীদের সাথে মেলে না। দ্বিতীয়ত, ওপেন-এন্ডেড ভাষা তৈরির কাজটি আরএল নিয়ন্ত্রণ নীতির তুলনায় পুরস্কারের ধারণার জন্য কম নির্দিষ্ট। এই কারণে, আমরা এই গবেষণাপত্রে অন্বেষণ করার সময়, উদ্দেশ্য অমিলের সমস্যাটি RLHF-এর জন্য আরও সংক্ষিপ্ত এবং সমালোচনামূলক।
এই অবস্থানের কাগজে, আমরা তিনটি অবদান রাখি:
• চ্যাট-টিউন করা এলএলএম-এ উদ্দেশ্যগত অমিলের উত্স এবং সম্ভাব্য প্রকাশগুলি স্পষ্টভাবে ব্যাখ্যা করুন,
এনএলপি এবং আরএল সাহিত্য থেকে উদ্দেশ্যহীনতার সাথে সম্পর্কিত কাজ সংযুক্ত করুন,
• অমিল সমাধানের জন্য অধ্যয়নের দিকনির্দেশ প্রস্তাব করুন এবং আরও ভাল RLHF অনুশীলনকে উৎসাহিত করুন।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।