paint-brush
সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষা মডেল গোপনে একটি পুরস্কার মডেলদ্বারা@textmodels
234 পড়া

সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষা মডেল গোপনে একটি পুরস্কার মডেল

দ্বারা Writings, Papers and Blogs on Text Models5m2024/08/25
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO) মানুষের পছন্দের সাথে ভাষার মডেলগুলিকে সারিবদ্ধ করার জন্য শক্তিবৃদ্ধি শেখার একটি সহজ, স্থিতিশীল বিকল্প প্রবর্তন করে। পুরষ্কার মডেলিং এবং জটিল প্রশিক্ষণ পদ্ধতির প্রয়োজনীয়তা দূর করে, ডিপিও দক্ষ ফাইন-টিউনিং অফার করে যা পিপিও-ভিত্তিক RLHF-এর মতো বিদ্যমান পদ্ধতিগুলির কার্যকারিতার সাথে মেলে বা ছাড়িয়ে যায়, বিশেষ করে সেন্টিমেন্ট মড্যুলেশন, সংক্ষিপ্তকরণ এবং সংলাপের কাজগুলিতে।
featured image - সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষা মডেল গোপনে একটি পুরস্কার মডেল
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;

(2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;

(3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;

(4) Stefano Ermon, CZ Biohub;

(5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়;

(6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

বিমূর্ত এবং 1. ভূমিকা

2 সম্পর্কিত কাজ

3 প্রাথমিক

4 সরাসরি পছন্দ অপ্টিমাইজেশান

ডিপিওর 5 তাত্ত্বিক বিশ্লেষণ

6 পরীক্ষা

7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স

লেখক অবদান


একটি গাণিতিক উদ্ভব

A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা

A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা

A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা

A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ

A.6 উপপাদ্যের প্রমাণ 1


B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার


C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ

C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে

C.3 অসম্ভাব্য বেসলাইন


D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল

D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স

D.3 মানব অধ্যয়নের বিবরণ

বিমূর্ত

যদিও বৃহৎ মাপের আন-সুপারভাইজড ল্যাঙ্গুয়েজ মডেল (LMs) বিস্তৃত বিশ্ব জ্ঞান এবং কিছু যুক্তির দক্ষতা শিখে, তাদের প্রশিক্ষণের সম্পূর্ণরূপে তত্ত্বাবধানহীন প্রকৃতির কারণে তাদের আচরণের সুনির্দিষ্ট নিয়ন্ত্রণ অর্জন করা কঠিন। এই ধরনের স্টিয়ারিবিলিটি অর্জনের জন্য বিদ্যমান পদ্ধতিগুলি মডেল জেনারেশনের আপেক্ষিক মানের মানব লেবেল সংগ্রহ করে এবং এই পছন্দগুলির সাথে সারিবদ্ধ করার জন্য তত্ত্বাবধান না করা এলএমকে সূক্ষ্ম-টিউন করে, প্রায়শই মানুষের প্রতিক্রিয়া (RLHF) থেকে রিইনফোর্সমেন্ট লার্নিং সহ। যাইহোক, RLHF হল একটি জটিল এবং প্রায়শই অস্থির প্রক্রিয়া, প্রথমে একটি পুরস্কার মডেল ফিট করে যা মানুষের পছন্দগুলিকে প্রতিফলিত করে এবং তারপরে মূল মডেল থেকে খুব বেশি দূরে না গিয়ে এই আনুমানিক পুরষ্কারকে সর্বাধিক করার জন্য রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে বৃহৎ অ-তত্ত্বাবধান করা LM-কে ফাইন-টিউনিং করে। এই কাগজে আমরা RLHF-এ পুরষ্কার মডেলের একটি নতুন প্যারামিটারাইজেশন প্রবর্তন করি যা বদ্ধ আকারে সংশ্লিষ্ট সর্বোত্তম নীতির নিষ্কাশন সক্ষম করে, যা আমাদের শুধুমাত্র একটি সাধারণ শ্রেণিবিন্যাসের ক্ষতির সাথে স্ট্যান্ডার্ড RLHF সমস্যা সমাধান করতে দেয়। ফলস্বরূপ অ্যালগরিদম, যাকে আমরা বলি ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), স্থিতিশীল, পারফরম্যান্ট এবং গণনাগতভাবে হালকা, সূক্ষ্ম-টিউনিং বা উল্লেখযোগ্য হাইপারপ্যারামিটার টিউনিং করার সময় LM থেকে নমুনা নেওয়ার প্রয়োজনীয়তা দূর করে। আমাদের পরীক্ষাগুলি দেখায় যে ডিপিও এলএমগুলিকে সূক্ষ্ম-টিউন করতে পারে মানুষের পছন্দগুলির সাথে সাথে বা বিদ্যমান পদ্ধতিগুলির চেয়ে ভাল। উল্লেখযোগ্যভাবে, ডিপিও-র সাথে ফাইন-টিউনিং প্রজন্মের অনুভূতি নিয়ন্ত্রণ করার ক্ষমতার ক্ষেত্রে পিপিও-ভিত্তিক RLHF-কে ছাড়িয়ে যায় এবং বাস্তবায়ন এবং প্রশিক্ষণের জন্য যথেষ্ট সহজ হওয়ার সাথে সাথে সংক্ষিপ্তকরণ এবং একক-পালা সংলাপে প্রতিক্রিয়ার গুণমানকে মেলে বা উন্নত করে।

1 ভূমিকা

খুব বড় ডেটাসেটে প্রশিক্ষিত বৃহৎ অনিয়ন্ত্রিত ভাষা মডেল (LMs) আশ্চর্যজনক ক্ষমতা অর্জন করে [11, 7, 40, 8]। যাইহোক, এই মডেলগুলি বিভিন্ন লক্ষ্য, অগ্রাধিকার এবং দক্ষতার সাথে মানুষের দ্বারা উত্পন্ন ডেটার উপর প্রশিক্ষিত। এর মধ্যে কিছু লক্ষ্য এবং দক্ষতা অনুকরণ করা বাঞ্ছনীয় নাও হতে পারে; উদাহরণস্বরূপ, যদিও আমরা আমাদের এআই কোডিং সহকারীকে সাধারণ প্রোগ্রামিং ভুলগুলিকে সংশোধন করার জন্য বুঝতে চাই, তবুও, কোড তৈরি করার সময়, আমরা আমাদের মডেলটিকে তার প্রশিক্ষণে উপস্থিত (সম্ভাব্য বিরল) উচ্চ-মানের কোডিং ক্ষমতার প্রতি পক্ষপাতিত্ব করতে চাই। তথ্য একইভাবে, আমরা আমাদের ভাষা মডেলটি 50% লোকের দ্বারা বিশ্বাস করা একটি সাধারণ ভুল ধারণা সম্পর্কে সচেতন হতে চাই, কিন্তু আমরা অবশ্যই চাই না যে মডেলটি এই ভুল ধারণাটিকে 50% প্রশ্নের ক্ষেত্রে সত্য বলে দাবি করুক! অন্য কথায়, মডেলের কাঙ্খিত প্রতিক্রিয়া এবং আচরণকে এর খুব বিস্তৃত জ্ঞান এবং ক্ষমতা থেকে নির্বাচন করা AI সিস্টেমগুলি তৈরি করার জন্য গুরুত্বপূর্ণ যা নিরাপদ, পারফরম্যান্স এবং নিয়ন্ত্রণযোগ্য [26]। যদিও বিদ্যমান পদ্ধতিগুলি সাধারণত রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে মানুষের পছন্দের সাথে মেলে এলএমগুলি চালায়,


চিত্র 1: শক্তিবৃদ্ধি শেখার এড়িয়ে গিয়ে DPO মানুষের পছন্দের জন্য অপ্টিমাইজ করে। মানুষের প্রতিক্রিয়া সহ সূক্ষ্ম-টিউনিং ভাষার মডেলগুলির জন্য বিদ্যমান পদ্ধতিগুলি প্রথমে প্রম্পট এবং প্রতিক্রিয়াগুলির জোড়ার উপর মানুষের পছন্দগুলির ডেটাসেটে একটি পুরষ্কার মডেলকে মানানসই করে এবং তারপরে RL ব্যবহার করে এমন একটি নীতি খুঁজে পেতে যা শেখা পুরস্কারকে সর্বাধিক করে তোলে৷ বিপরীতে, ডিপিও একটি সাধারণ শ্রেণীবিভাগের উদ্দেশ্য সহ পছন্দগুলিকে সর্বোত্তমভাবে সন্তুষ্ট করে নীতির জন্য সরাসরি অপ্টিমাইজ করে, একটি অন্তর্নিহিত পুরষ্কার মডেল ফিট করে যার অনুরূপ সর্বোত্তম নীতি বন্ধ আকারে বের করা যেতে পারে।


আমরা দেখাব যে বিদ্যমান পদ্ধতি দ্বারা ব্যবহৃত RL-ভিত্তিক উদ্দেশ্য একটি সাধারণ বাইনারি ক্রস-এনট্রপি উদ্দেশ্যের সাথে ঠিক অপ্টিমাইজ করা যেতে পারে, যা অগ্রাধিকার শিক্ষার পাইপলাইনটিকে ব্যাপকভাবে সরল করে।


একটি উচ্চ স্তরে, বিদ্যমান পদ্ধতিগুলি মানুষের পছন্দের কিউরেটেড সেটগুলি ব্যবহার করে একটি ভাষার মডেলে পছন্দসই আচরণগুলি স্থাপন করে যা মানুষের নিরাপদ এবং সহায়ক বলে এমন আচরণের প্রকারের প্রতিনিধিত্ব করে। এই প্রেফারেন্স লার্নিং স্টেজটি একটি বৃহৎ পাঠ্য ডেটাসেটে বৃহৎ আকারের অ-তত্ত্বাবধানহীন প্রাক-প্রশিক্ষণের প্রাথমিক পর্যায়ের পরে ঘটে। যদিও অগ্রাধিকার শিক্ষার সবচেয়ে সহজ পদ্ধতি হল উচ্চ মানের প্রতিক্রিয়ার মানব প্রদর্শনের সূক্ষ্ম টিউনিং তত্ত্বাবধান, পদ্ধতির সবচেয়ে সফল শ্রেণী হল মানব (বা এআই) প্রতিক্রিয়া (RLHF/RLAIF; [12, 2]) থেকে শক্তিবৃদ্ধি শিক্ষা। RLHF পদ্ধতিগুলি মানুষের পছন্দের ডেটাসেটের সাথে একটি পুরস্কারের মডেলকে মানানসই করে এবং তারপরে মূল মডেল থেকে অত্যধিক দূরে না গিয়ে উচ্চ পুরষ্কার বরাদ্দ করা প্রতিক্রিয়াগুলি তৈরি করতে একটি ভাষা মডেল নীতি অপ্টিমাইজ করতে RL ব্যবহার করে৷ যদিও RLHF চিত্তাকর্ষক কথোপকথন এবং কোডিং ক্ষমতা সহ মডেল তৈরি করে, RLHF পাইপলাইন তত্ত্বাবধানে শিক্ষার তুলনায় যথেষ্ট জটিল, এতে একাধিক LM প্রশিক্ষণ এবং প্রশিক্ষণের লুপে LM নীতি থেকে নমুনা নেওয়া জড়িত, উল্লেখযোগ্য গণনামূলক খরচ বহন করে।


এই পেপারে, আমরা দেখাই কিভাবে একটি ভাষা মডেলকে সরাসরি মানুষের পছন্দ মেনে চলার জন্য অপ্টিমাইজ করা যায়, সুস্পষ্ট পুরষ্কার মডেলিং বা শক্তিবৃদ্ধি শিক্ষা ছাড়াই। আমরা ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO) প্রস্তাব করছি, একটি অ্যালগরিদম যা বিদ্যমান RLHF অ্যালগরিদমের মতো একই উদ্দেশ্যকে অপ্টিমাইজ করে (কেএল-ডাইভারজেন্স সীমাবদ্ধতার সাথে পুরষ্কার সর্বাধিকীকরণ) কিন্তু প্রয়োগ করা সহজ এবং প্রশিক্ষণের জন্য সহজ। স্বজ্ঞাতভাবে, ডিপিও আপডেট অপছন্দযুক্ত প্রতিক্রিয়াগুলির থেকে পছন্দের আপেক্ষিক লগ সম্ভাবনাকে বাড়িয়ে তোলে, তবে এটি একটি গতিশীল, প্রতি-উদাহরণ গুরুত্বের ওজনকে অন্তর্ভুক্ত করে যা আমরা যে মডেলের অবক্ষয়কে খুঁজে পাই তা একটি নিষ্প্রভ সম্ভাবনার অনুপাতের উদ্দেশ্যের সাথে ঘটে। বিদ্যমান অ্যালগরিদমের মতো, ডিপিও একটি তাত্ত্বিক পছন্দ মডেলের উপর নির্ভর করে (যেমন ব্র্যাডলি-টেরি মডেল; [৫]) যা পরিমাপ করে যে প্রদত্ত পুরস্কার ফাংশন অভিজ্ঞতামূলক পছন্দ ডেটার সাথে কতটা সারিবদ্ধ। যাইহোক, যখন বিদ্যমান পদ্ধতিগুলি একটি পুরষ্কার মডেলকে প্রশিক্ষিত করার জন্য একটি অগ্রাধিকার ক্ষতি সংজ্ঞায়িত করার জন্য পছন্দ মডেল ব্যবহার করে এবং তারপরে শেখা পুরস্কার মডেলকে অপ্টিমাইজ করে এমন একটি নীতিকে প্রশিক্ষণ দেয়, DPO সরাসরি নীতির একটি ফাংশন হিসাবে পছন্দের ক্ষতিকে সংজ্ঞায়িত করতে ভেরিয়েবলের পরিবর্তন ব্যবহার করে। মডেল প্রতিক্রিয়াগুলির উপর মানুষের পছন্দগুলির একটি ডেটাসেট দেওয়া, তাই ডিপিও একটি সাধারণ বাইনারি ক্রস এনট্রপি উদ্দেশ্য ব্যবহার করে একটি নীতি অপ্টিমাইজ করতে পারে, পছন্দের ডেটার সাথে মানানসই একটি অন্তর্নিহিত পুরষ্কার ফাংশনে সর্বোত্তম নীতি তৈরি করে৷


আমাদের প্রধান অবদান হল ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), একটি সহজ RL-মুক্ত অ্যালগরিদম যা পছন্দের ভাষা মডেলগুলিকে প্রশিক্ষণের জন্য। আমাদের পরীক্ষাগুলি দেখায় যে DPO কমপক্ষে 6B প্যারামিটার সহ ভাষা মডেল ব্যবহার করে সেন্টিমেন্ট মড্যুলেশন, সংক্ষিপ্তকরণ এবং সংলাপের মতো কাজগুলিতে পছন্দগুলি থেকে শেখার জন্য PPO-ভিত্তিক RLHF সহ বিদ্যমান পদ্ধতিগুলির মতো কার্যকর।


এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ