লেখক:
(1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(4) Stefano Ermon, CZ Biohub;
(5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়;
(6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।
7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স
একটি গাণিতিক উদ্ভব
A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা
A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা
A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা
A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ
B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার
C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ
C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে
D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল
D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স
যদিও বৃহৎ মাপের আন-সুপারভাইজড ল্যাঙ্গুয়েজ মডেল (LMs) বিস্তৃত বিশ্ব জ্ঞান এবং কিছু যুক্তির দক্ষতা শিখে, তাদের প্রশিক্ষণের সম্পূর্ণরূপে তত্ত্বাবধানহীন প্রকৃতির কারণে তাদের আচরণের সুনির্দিষ্ট নিয়ন্ত্রণ অর্জন করা কঠিন। এই ধরনের স্টিয়ারিবিলিটি অর্জনের জন্য বিদ্যমান পদ্ধতিগুলি মডেল জেনারেশনের আপেক্ষিক মানের মানব লেবেল সংগ্রহ করে এবং এই পছন্দগুলির সাথে সারিবদ্ধ করার জন্য তত্ত্বাবধান না করা এলএমকে সূক্ষ্ম-টিউন করে, প্রায়শই মানুষের প্রতিক্রিয়া (RLHF) থেকে রিইনফোর্সমেন্ট লার্নিং সহ। যাইহোক, RLHF হল একটি জটিল এবং প্রায়শই অস্থির প্রক্রিয়া, প্রথমে একটি পুরস্কার মডেল ফিট করে যা মানুষের পছন্দগুলিকে প্রতিফলিত করে এবং তারপরে মূল মডেল থেকে খুব বেশি দূরে না গিয়ে এই আনুমানিক পুরষ্কারকে সর্বাধিক করার জন্য রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে বৃহৎ অ-তত্ত্বাবধান করা LM-কে ফাইন-টিউনিং করে। এই কাগজে আমরা RLHF-এ পুরষ্কার মডেলের একটি নতুন প্যারামিটারাইজেশন প্রবর্তন করি যা বদ্ধ আকারে সংশ্লিষ্ট সর্বোত্তম নীতির নিষ্কাশন সক্ষম করে, যা আমাদের শুধুমাত্র একটি সাধারণ শ্রেণিবিন্যাসের ক্ষতির সাথে স্ট্যান্ডার্ড RLHF সমস্যা সমাধান করতে দেয়। ফলস্বরূপ অ্যালগরিদম, যাকে আমরা বলি ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), স্থিতিশীল, পারফরম্যান্ট এবং গণনাগতভাবে হালকা, সূক্ষ্ম-টিউনিং বা উল্লেখযোগ্য হাইপারপ্যারামিটার টিউনিং করার সময় LM থেকে নমুনা নেওয়ার প্রয়োজনীয়তা দূর করে। আমাদের পরীক্ষাগুলি দেখায় যে ডিপিও এলএমগুলিকে সূক্ষ্ম-টিউন করতে পারে মানুষের পছন্দগুলির সাথে সাথে বা বিদ্যমান পদ্ধতিগুলির চেয়ে ভাল। উল্লেখযোগ্যভাবে, ডিপিও-র সাথে ফাইন-টিউনিং প্রজন্মের অনুভূতি নিয়ন্ত্রণ করার ক্ষমতার ক্ষেত্রে পিপিও-ভিত্তিক RLHF-কে ছাড়িয়ে যায় এবং বাস্তবায়ন এবং প্রশিক্ষণের জন্য যথেষ্ট সহজ হওয়ার সাথে সাথে সংক্ষিপ্তকরণ এবং একক-পালা সংলাপে প্রতিক্রিয়ার গুণমানকে মেলে বা উন্নত করে।
খুব বড় ডেটাসেটে প্রশিক্ষিত বৃহৎ অনিয়ন্ত্রিত ভাষা মডেল (LMs) আশ্চর্যজনক ক্ষমতা অর্জন করে [11, 7, 40, 8]। যাইহোক, এই মডেলগুলি বিভিন্ন লক্ষ্য, অগ্রাধিকার এবং দক্ষতার সাথে মানুষের দ্বারা উত্পন্ন ডেটার উপর প্রশিক্ষিত। এর মধ্যে কিছু লক্ষ্য এবং দক্ষতা অনুকরণ করা বাঞ্ছনীয় নাও হতে পারে; উদাহরণস্বরূপ, যদিও আমরা আমাদের এআই কোডিং সহকারীকে সাধারণ প্রোগ্রামিং ভুলগুলিকে সংশোধন করার জন্য বুঝতে চাই, তবুও, কোড তৈরি করার সময়, আমরা আমাদের মডেলটিকে তার প্রশিক্ষণে উপস্থিত (সম্ভাব্য বিরল) উচ্চ-মানের কোডিং ক্ষমতার প্রতি পক্ষপাতিত্ব করতে চাই। তথ্য একইভাবে, আমরা আমাদের ভাষা মডেলটি 50% লোকের দ্বারা বিশ্বাস করা একটি সাধারণ ভুল ধারণা সম্পর্কে সচেতন হতে চাই, কিন্তু আমরা অবশ্যই চাই না যে মডেলটি এই ভুল ধারণাটিকে 50% প্রশ্নের ক্ষেত্রে সত্য বলে দাবি করুক! অন্য কথায়, মডেলের কাঙ্খিত প্রতিক্রিয়া এবং আচরণকে এর খুব বিস্তৃত জ্ঞান এবং ক্ষমতা থেকে নির্বাচন করা AI সিস্টেমগুলি তৈরি করার জন্য গুরুত্বপূর্ণ যা নিরাপদ, পারফরম্যান্স এবং নিয়ন্ত্রণযোগ্য [26]। যদিও বিদ্যমান পদ্ধতিগুলি সাধারণত রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে মানুষের পছন্দের সাথে মেলে এলএমগুলি চালায়,
আমরা দেখাব যে বিদ্যমান পদ্ধতি দ্বারা ব্যবহৃত RL-ভিত্তিক উদ্দেশ্য একটি সাধারণ বাইনারি ক্রস-এনট্রপি উদ্দেশ্যের সাথে ঠিক অপ্টিমাইজ করা যেতে পারে, যা অগ্রাধিকার শিক্ষার পাইপলাইনটিকে ব্যাপকভাবে সরল করে।
একটি উচ্চ স্তরে, বিদ্যমান পদ্ধতিগুলি মানুষের পছন্দের কিউরেটেড সেটগুলি ব্যবহার করে একটি ভাষার মডেলে পছন্দসই আচরণগুলি স্থাপন করে যা মানুষের নিরাপদ এবং সহায়ক বলে এমন আচরণের প্রকারের প্রতিনিধিত্ব করে। এই প্রেফারেন্স লার্নিং স্টেজটি একটি বৃহৎ পাঠ্য ডেটাসেটে বৃহৎ আকারের অ-তত্ত্বাবধানহীন প্রাক-প্রশিক্ষণের প্রাথমিক পর্যায়ের পরে ঘটে। যদিও অগ্রাধিকার শিক্ষার সবচেয়ে সহজ পদ্ধতি হল উচ্চ মানের প্রতিক্রিয়ার মানব প্রদর্শনের সূক্ষ্ম টিউনিং তত্ত্বাবধান, পদ্ধতির সবচেয়ে সফল শ্রেণী হল মানব (বা এআই) প্রতিক্রিয়া (RLHF/RLAIF; [12, 2]) থেকে শক্তিবৃদ্ধি শিক্ষা। RLHF পদ্ধতিগুলি মানুষের পছন্দের ডেটাসেটের সাথে একটি পুরস্কারের মডেলকে মানানসই করে এবং তারপরে মূল মডেল থেকে অত্যধিক দূরে না গিয়ে উচ্চ পুরষ্কার বরাদ্দ করা প্রতিক্রিয়াগুলি তৈরি করতে একটি ভাষা মডেল নীতি অপ্টিমাইজ করতে RL ব্যবহার করে৷ যদিও RLHF চিত্তাকর্ষক কথোপকথন এবং কোডিং ক্ষমতা সহ মডেল তৈরি করে, RLHF পাইপলাইন তত্ত্বাবধানে শিক্ষার তুলনায় যথেষ্ট জটিল, এতে একাধিক LM প্রশিক্ষণ এবং প্রশিক্ষণের লুপে LM নীতি থেকে নমুনা নেওয়া জড়িত, উল্লেখযোগ্য গণনামূলক খরচ বহন করে।
এই পেপারে, আমরা দেখাই কিভাবে একটি ভাষা মডেলকে সরাসরি মানুষের পছন্দ মেনে চলার জন্য অপ্টিমাইজ করা যায়, সুস্পষ্ট পুরষ্কার মডেলিং বা শক্তিবৃদ্ধি শিক্ষা ছাড়াই। আমরা ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO) প্রস্তাব করছি, একটি অ্যালগরিদম যা বিদ্যমান RLHF অ্যালগরিদমের মতো একই উদ্দেশ্যকে অপ্টিমাইজ করে (কেএল-ডাইভারজেন্স সীমাবদ্ধতার সাথে পুরষ্কার সর্বাধিকীকরণ) কিন্তু প্রয়োগ করা সহজ এবং প্রশিক্ষণের জন্য সহজ। স্বজ্ঞাতভাবে, ডিপিও আপডেট অপছন্দযুক্ত প্রতিক্রিয়াগুলির থেকে পছন্দের আপেক্ষিক লগ সম্ভাবনাকে বাড়িয়ে তোলে, তবে এটি একটি গতিশীল, প্রতি-উদাহরণ গুরুত্বের ওজনকে অন্তর্ভুক্ত করে যা আমরা যে মডেলের অবক্ষয়কে খুঁজে পাই তা একটি নিষ্প্রভ সম্ভাবনার অনুপাতের উদ্দেশ্যের সাথে ঘটে। বিদ্যমান অ্যালগরিদমের মতো, ডিপিও একটি তাত্ত্বিক পছন্দ মডেলের উপর নির্ভর করে (যেমন ব্র্যাডলি-টেরি মডেল; [৫]) যা পরিমাপ করে যে প্রদত্ত পুরস্কার ফাংশন অভিজ্ঞতামূলক পছন্দ ডেটার সাথে কতটা সারিবদ্ধ। যাইহোক, যখন বিদ্যমান পদ্ধতিগুলি একটি পুরষ্কার মডেলকে প্রশিক্ষিত করার জন্য একটি অগ্রাধিকার ক্ষতি সংজ্ঞায়িত করার জন্য পছন্দ মডেল ব্যবহার করে এবং তারপরে শেখা পুরস্কার মডেলকে অপ্টিমাইজ করে এমন একটি নীতিকে প্রশিক্ষণ দেয়, DPO সরাসরি নীতির একটি ফাংশন হিসাবে পছন্দের ক্ষতিকে সংজ্ঞায়িত করতে ভেরিয়েবলের পরিবর্তন ব্যবহার করে। মডেল প্রতিক্রিয়াগুলির উপর মানুষের পছন্দগুলির একটি ডেটাসেট দেওয়া, তাই ডিপিও একটি সাধারণ বাইনারি ক্রস এনট্রপি উদ্দেশ্য ব্যবহার করে একটি নীতি অপ্টিমাইজ করতে পারে, পছন্দের ডেটার সাথে মানানসই একটি অন্তর্নিহিত পুরষ্কার ফাংশনে সর্বোত্তম নীতি তৈরি করে৷
আমাদের প্রধান অবদান হল ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), একটি সহজ RL-মুক্ত অ্যালগরিদম যা পছন্দের ভাষা মডেলগুলিকে প্রশিক্ষণের জন্য। আমাদের পরীক্ষাগুলি দেখায় যে DPO কমপক্ষে 6B প্যারামিটার সহ ভাষা মডেল ব্যবহার করে সেন্টিমেন্ট মড্যুলেশন, সংক্ষিপ্তকরণ এবং সংলাপের মতো কাজগুলিতে পছন্দগুলি থেকে শেখার জন্য PPO-ভিত্তিক RLHF সহ বিদ্যমান পদ্ধতিগুলির মতো কার্যকর।
এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।