লেখক:  (1) নাথান ল্যাম্বার্ট, অ্যালেন ইনস্টিটিউট ফর এআই;  (2) রবার্তো ক্যালান্দ্রা, টিইউ ড্রেসডেন।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   পটভূমি   উদ্দেশ্য অমিল বোঝা   আলোচনা   উপসংহার   স্বীকৃতি, এবং রেফারেন্স  বিমূর্ত  হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) একটি শক্তিশালী কৌশল হিসেবে আবির্ভূত হয়েছে যাতে বৃহৎ ভাষার মডেল (LLM) সহজে প্রম্পট করা যায় এবং জটিল সেটিংসে আরও সক্ষম হয়। RLHF এর মূলে একটি নতুন টুলকিট প্রদান করছে পরবর্তী-টোকেন পূর্বাভাস ব্যতীত LLM গুলিকে অপ্টিমাইজ করার জন্য, গুণগত প্রশিক্ষণ লক্ষ্যগুলির একীকরণ সক্ষম করে৷ ব্যবহারকারীর পছন্দ এবং ডাউনস্ট্রিম পারফরম্যান্সের মধ্যে চেষ্টা করা মিল, যা একটি শেখা পুরস্কারের মডেলে ঘটে, ফলে একটি অপ্টিমাইজেশান ল্যান্ডস্কেপ দেখা যায় যেখানে প্রশিক্ষণ এবং মূল্যায়ন মেট্রিক্স পারস্পরিক সম্পর্কযুক্ত হতে পারে। আপাত পারস্পরিক সম্পর্ক অপ্রত্যাশিত আচরণ এবং "অত্যধিক RLHF" এর গল্পের দিকে নিয়ে যেতে পারে। RLHF-এ, চ্যালেঞ্জগুলি আবির্ভূত হয় কারণ নিম্নলিখিত উপ-মডিউলগুলি একে অপরের সাথে সামঞ্জস্যপূর্ণ নয়: পুরস্কার মডেল প্রশিক্ষণ, নীতি মডেল প্রশিক্ষণ এবং নীতি মডেল মূল্যায়ন। এই অমিলের ফলে এমন মডেলগুলি দেখা যায় যেগুলি কখনও কখনও মিথ্যা নিরাপত্তা পতাকার মাধ্যমে ব্যবহারকারীর অনুরোধগুলি এড়িয়ে যায়, একটি উদ্দেশ্যযুক্ত বৈশিষ্ট্যের দিকে নিয়ে যাওয়া কঠিন, বা সর্বদা একটি নির্দিষ্ট শৈলীতে উত্তর দেয়। চ্যাট মডেল মূল্যায়ন ক্রমবর্ধমান সংক্ষিপ্ত হয়ে উঠলে, পুরষ্কার মডেল স্কোর এবং ডাউনস্ট্রিম পারফরম্যান্সের মধ্যে একটি অনুভূত লিঙ্কের উপর নির্ভরতা উদ্দেশ্যহীনতার সমস্যাটিকে চালিত করে। এই কাগজে, আমরা এই সমস্যার কারণ ব্যাখ্যা করি, মডেল-ভিত্তিক শক্তিবৃদ্ধি শিক্ষা থেকে প্রাসঙ্গিক সাহিত্য পর্যালোচনা করে এবং আরও গবেষণাকে উত্সাহিত করার জন্য প্রাসঙ্গিক সমাধান নিয়ে আলোচনা করি। RLHF-এ উদ্দেশ্যগত অমিল সমাধান করার মাধ্যমে, ভবিষ্যতের LLMগুলি সুরক্ষা এবং সহায়ক উভয়ের জন্য ব্যবহারকারীর নির্দেশাবলীর সাথে আরও সুনির্দিষ্টভাবে সারিবদ্ধ হবে  1। পরিচিতি  হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) হল বৃহৎ মেশিন লার্নিং মডেলে গুণগত শৈলী এবং মানগুলিকে একীভূত করার জন্য একটি শক্তিশালী হাতিয়ার (বাই এট আল।, 2022; ক্রিশ্চিয়ানো এট আল।, 2017; ওয়াং এট আল।, 2022)। RLHF চ্যাট টুলগুলিকে সারিবদ্ধ করার জন্য (Schulman, Zoph, Kim, and more, 2022) বৃহৎ ভাষার মডেলে (LLMs) মানবিক মূল্যবোধকে একীভূত করতে ব্যবহার করে জনপ্রিয় হয়েছিল। এটি করতে গিয়ে, RLHF ব্যবহারকারীর অনুরোধে সাড়া দেওয়ার জন্য মডেলগুলিকে আরও ভাল করার প্রক্রিয়াতে একটি গুরুত্বপূর্ণ কৌশল হয়ে উঠেছে, প্রায়শই নির্দেশ-টিউনড, স্টিয়ারিবিলিটি, চ্যাট-মডেল ইত্যাদি হিসাবে উল্লেখ করা হয়। RLHF পদ্ধতিগুলি সাধারণত একটি দুই ধাপের প্রক্রিয়ায় কাজ করে একটি বেস ল্যাঙ্গুয়েজ মডেলের প্রশিক্ষণ, প্রথমে তারা মানুষের পছন্দের একটি মডেল শিখে যা একটি পুরষ্কার ফাংশন হিসাবে কাজ করে এবং দ্বিতীয়ত তারা একটি রিইনফোর্সমেন্ট লার্নিং (RL) অপ্টিমাইজেশান লুপের মধ্যে এই মডেলটি ব্যবহার করে। RLHF প্রক্রিয়ায়, এই দুটি ধাপ প্রায়ই স্বাধীনভাবে সম্পাদিত হয়, একটি সঠিক পুরষ্কার মডেলকে মানুষের পছন্দের ডেটার উপর প্রশিক্ষণ দেওয়া হয় এবং তারপর চ্যাট মডেলে সর্বাধিক তথ্য বের করতে RL অপ্টিমাইজার ব্যবহার করা হয়। RLHF এর সাথে প্রশিক্ষিত আধুনিক LLM-এর একটি সাধারণ চ্যালেঞ্জ হল মডেল থেকে উদ্দেশ্যমূলক আচরণ বের করতে অসুবিধা। কখনও কখনও, মডেলগুলি নিরাপত্তার কারণে সৌম্য অনুরোধ প্রত্যাখ্যান করে এবং অন্য সময় তাদের সম্পূর্ণ কার্যকারিতা বের করার জন্য চতুর প্রম্পট টিউনিংয়ের প্রয়োজন হয়।  এই কাগজে, আমরা আধুনিক RLHF শেখার স্কিমগুলির একটি মৌলিক চ্যালেঞ্জের বিশদ বিবরণ দিই: উদ্দেশ্য অমিলের সমস্যা। RLHF-এ, প্রশিক্ষণের তিনটি গুরুত্বপূর্ণ অংশকে সংখ্যাগতভাবে জোড়া দেওয়া হয়: মূল্যায়ন মেট্রিক্সের নকশা, একটি পুরষ্কার মডেলের প্রশিক্ষণ এবং উৎপন্ন মডেলের প্রশিক্ষণ। পুরষ্কার মডেল এবং RL প্রশিক্ষণের মধ্যে এই অমিল চিত্র 1-এ কল্পনা করা হয়েছে, তবুও মূল্যায়নের লক্ষ্য এবং মানবিক মূল্যবোধের অনুকরণের মধ্যে অন্যান্য লিঙ্ক বিদ্যমান। বিশেষত, অগ্রাধিকার পরিমাপ (ল্যামবার্ট, গিলবার্ট, এবং জিক, 2023) এবং মৌলিক অপ্টিমাইজেশান চ্যালেঞ্জগুলিকে RLHF অনুশীলনে সমাধান করা প্রয়োজন (ক্যাসপার এট আল।, 2023) সাহিত্যে পুরস্কার মডেল প্রশিক্ষণকে আরও ভালভাবে সারিবদ্ধ করার অনেক উপায় রয়েছে। ChatGPT, RLHF এর সাথে প্রশিক্ষিত সবচেয়ে জনপ্রিয় মডেল, শব্দচয়, আত্ম-সন্দেহ এবং প্রশ্ন প্রত্যাখ্যান, বারবার বাক্যাংশ, হেজিং এবং আরও অনেক কিছুর মাধ্যমে এই সীমাবদ্ধতার লক্ষণ দেখায় (Schulman, 2023)। ওভারঅপ্টিমাইজেশনের এই বৈশিষ্ট্যগুলি হল সূক্ষ্ম প্রক্সি অবজেক্টিভ সমস্যার ফলাফল যা উদ্দেশ্য অমিল অধ্যয়ন এবং সমাধানের জন্য একটি ফ্রেম প্রদান করে – পুরস্কার মডেলটি এমন বাক্যাংশগুলির জন্য অতিরিক্ত মূল্যকে দায়ী করে যা ব্যবহারকারীর সুবিধাতে অবদান রাখে না, যা RL অপ্টিমাইজার শোষণ করে, যেমন নিরাপত্তা পতাকা। অন্যদিকে, বর্তমান প্রশিক্ষণ সেটআপগুলি মূল্যায়নের সরঞ্জামগুলির সাথে সম্পূর্ণরূপে সংযুক্ত নয় কারণ RLHF'd মডেলগুলির এখনও "ধাপে ধাপে চিন্তা" (জে. ওয়েই এট আল।, 2022) বা "একটি গভীর শ্বাস নেওয়ার মতো অত্যাধুনিক প্রম্পটিং কৌশলগুলির প্রয়োজন। ” (ইয়াং এট আল।, 2023) সর্বোচ্চ পারফরম্যান্সে পৌঁছাতে। উদ্দেশ্যগত অমিল সমাধান করা এই উন্নত কৌশলগুলির প্রয়োজনীয়তাকে সরিয়ে দেবে এবং এলএলএম থেকে সুযোগ-সুবিধার বাইরের প্রত্যাখ্যানের সম্ভাবনা কমিয়ে দেবে।   বস্তুনিষ্ঠ অমিল শব্দটি মডেল-ভিত্তিক রিইনফোর্সমেন্ট লার্নিং (MBRL) থেকে উদ্ভূত হয়, যেখানে একজন এজেন্ট পুনরাবৃত্তিমূলকভাবে একটি গতিবিদ্যা মডেল শেখে যা পরে এটি একটি নিয়ন্ত্রণ কাজ সমাধান করতে ব্যবহার করে (ল্যামবার্ট, আমোস, ইয়াদান, এবং ক্যালান্দ্রা, 2020; আর. ওয়েই, ল্যাম্বার্ট, ম্যাকডোনাল্ড, গার্সিয়া, এবং ক্যালান্দ্রা, 2023)। এই প্রসঙ্গে, উচ্চ টাস্ক পুরষ্কারের জন্য অপ্টিমাইজ করা একটির পরিবর্তে একটি সঠিক গতিবিদ্যা মডেল শেখার মধ্যে অমিল। RLHF-এ, সমস্যাটি সম্পর্কিত, তবে অতিরিক্ত জটিলতার সাথে, কারণ পুরস্কার মডেলটি একটি বন্ধ বিতরণের উপর পছন্দের ডেটার জন্য অপ্টিমাইজ করা হয়েছে, যা শেষ ব্যবহারকারীদের সাথে মেলে না। দ্বিতীয়ত, ওপেন-এন্ডেড ভাষা তৈরির কাজটি আরএল নিয়ন্ত্রণ নীতির তুলনায় পুরস্কারের ধারণার জন্য কম নির্দিষ্ট। এই কারণে, আমরা এই গবেষণাপত্রে অন্বেষণ করার সময়, উদ্দেশ্য অমিলের সমস্যাটি RLHF-এর জন্য আরও সংক্ষিপ্ত এবং সমালোচনামূলক।  এই অবস্থানের কাগজে, আমরা তিনটি অবদান রাখি:  • চ্যাট-টিউন করা এলএলএম-এ উদ্দেশ্যগত অমিলের উত্স এবং সম্ভাব্য প্রকাশগুলি স্পষ্টভাবে ব্যাখ্যা করুন,  এনএলপি এবং আরএল সাহিত্য থেকে উদ্দেশ্যহীনতার সাথে সম্পর্কিত কাজ সংযুক্ত করুন,  • অমিল সমাধানের জন্য অধ্যয়নের দিকনির্দেশ প্রস্তাব করুন এবং আরও ভাল RLHF অনুশীলনকে উৎসাহিত করুন।  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

FeedbackLoop.TECH

Read My Stories

The FeedbackLoop offers premium product management education, research papers, and certifications. Start building today!

FeedbackLoop

গল্পের মূল ভাষায় এই অডিও তৈরি!

সারিবদ্ধকরণ সিলিং: মানব প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষায় উদ্দেশ্যগত অমিল

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps