লেখক:  (1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (4) Stefano Ermon, CZ Biohub;  (5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়;  (6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।  লিঙ্কের টেবিল   বিমূর্ত এবং 1. ভূমিকা   2 সম্পর্কিত কাজ   3 প্রাথমিক   4 সরাসরি পছন্দ অপ্টিমাইজেশান   ডিপিওর 5 তাত্ত্বিক বিশ্লেষণ   6 পরীক্ষা   7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স   লেখক অবদান  একটি গাণিতিক উদ্ভব   A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা   A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা   A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা   A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ   A.6 উপপাদ্যের প্রমাণ 1   B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার   C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ   C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে   C.3 অসম্ভাব্য বেসলাইন  D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল   D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স   D.3 মানব অধ্যয়নের বিবরণ  বিমূর্ত  যদিও বৃহৎ মাপের আন-সুপারভাইজড ল্যাঙ্গুয়েজ মডেল (LMs) বিস্তৃত বিশ্ব জ্ঞান এবং কিছু যুক্তির দক্ষতা শিখে, তাদের প্রশিক্ষণের সম্পূর্ণরূপে তত্ত্বাবধানহীন প্রকৃতির কারণে তাদের আচরণের সুনির্দিষ্ট নিয়ন্ত্রণ অর্জন করা কঠিন। এই ধরনের স্টিয়ারিবিলিটি অর্জনের জন্য বিদ্যমান পদ্ধতিগুলি মডেল জেনারেশনের আপেক্ষিক মানের মানব লেবেল সংগ্রহ করে এবং এই পছন্দগুলির সাথে সারিবদ্ধ করার জন্য তত্ত্বাবধান না করা এলএমকে সূক্ষ্ম-টিউন করে, প্রায়শই মানুষের প্রতিক্রিয়া (RLHF) থেকে রিইনফোর্সমেন্ট লার্নিং সহ। যাইহোক, RLHF হল একটি জটিল এবং প্রায়শই অস্থির প্রক্রিয়া, প্রথমে একটি পুরস্কার মডেল ফিট করে যা মানুষের পছন্দগুলিকে প্রতিফলিত করে এবং তারপরে মূল মডেল থেকে খুব বেশি দূরে না গিয়ে এই আনুমানিক পুরষ্কারকে সর্বাধিক করার জন্য রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে বৃহৎ অ-তত্ত্বাবধান করা LM-কে ফাইন-টিউনিং করে। এই কাগজে আমরা RLHF-এ পুরষ্কার মডেলের একটি নতুন প্যারামিটারাইজেশন প্রবর্তন করি যা বদ্ধ আকারে সংশ্লিষ্ট সর্বোত্তম নীতির নিষ্কাশন সক্ষম করে, যা আমাদের শুধুমাত্র একটি সাধারণ শ্রেণিবিন্যাসের ক্ষতির সাথে স্ট্যান্ডার্ড RLHF সমস্যা সমাধান করতে দেয়। ফলস্বরূপ অ্যালগরিদম, যাকে আমরা বলি ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), স্থিতিশীল, পারফরম্যান্ট এবং গণনাগতভাবে হালকা, সূক্ষ্ম-টিউনিং বা উল্লেখযোগ্য হাইপারপ্যারামিটার টিউনিং করার সময় LM থেকে নমুনা নেওয়ার প্রয়োজনীয়তা দূর করে। আমাদের পরীক্ষাগুলি দেখায় যে ডিপিও এলএমগুলিকে সূক্ষ্ম-টিউন করতে পারে মানুষের পছন্দগুলির সাথে সাথে বা বিদ্যমান পদ্ধতিগুলির চেয়ে ভাল। উল্লেখযোগ্যভাবে, ডিপিও-র সাথে ফাইন-টিউনিং প্রজন্মের অনুভূতি নিয়ন্ত্রণ করার ক্ষমতার ক্ষেত্রে পিপিও-ভিত্তিক RLHF-কে ছাড়িয়ে যায় এবং বাস্তবায়ন এবং প্রশিক্ষণের জন্য যথেষ্ট সহজ হওয়ার সাথে সাথে সংক্ষিপ্তকরণ এবং একক-পালা সংলাপে প্রতিক্রিয়ার গুণমানকে মেলে বা উন্নত করে।  1 ভূমিকা  খুব বড় ডেটাসেটে প্রশিক্ষিত বৃহৎ অনিয়ন্ত্রিত ভাষা মডেল (LMs) আশ্চর্যজনক ক্ষমতা অর্জন করে [11, 7, 40, 8]। যাইহোক, এই মডেলগুলি বিভিন্ন লক্ষ্য, অগ্রাধিকার এবং দক্ষতার সাথে মানুষের দ্বারা উত্পন্ন ডেটার উপর প্রশিক্ষিত। এর মধ্যে কিছু লক্ষ্য এবং দক্ষতা অনুকরণ করা বাঞ্ছনীয় নাও হতে পারে; উদাহরণস্বরূপ, যদিও আমরা আমাদের এআই কোডিং সহকারীকে সাধারণ প্রোগ্রামিং ভুলগুলিকে সংশোধন করার জন্য বুঝতে চাই, তবুও, কোড তৈরি করার সময়, আমরা আমাদের মডেলটিকে তার প্রশিক্ষণে উপস্থিত (সম্ভাব্য বিরল) উচ্চ-মানের কোডিং ক্ষমতার প্রতি পক্ষপাতিত্ব করতে চাই। তথ্য একইভাবে, আমরা আমাদের ভাষা মডেলটি 50% লোকের দ্বারা বিশ্বাস করা একটি সাধারণ ভুল ধারণা সম্পর্কে সচেতন হতে চাই, কিন্তু আমরা অবশ্যই চাই না যে মডেলটি এই ভুল ধারণাটিকে 50% প্রশ্নের ক্ষেত্রে সত্য বলে দাবি করুক! অন্য কথায়, মডেলের কাঙ্খিত প্রতিক্রিয়া এবং আচরণকে এর খুব বিস্তৃত জ্ঞান এবং ক্ষমতা থেকে নির্বাচন করা AI সিস্টেমগুলি তৈরি করার জন্য গুরুত্বপূর্ণ যা নিরাপদ, পারফরম্যান্স এবং নিয়ন্ত্রণযোগ্য [26]। যদিও বিদ্যমান পদ্ধতিগুলি সাধারণত রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে মানুষের পছন্দের সাথে মেলে এলএমগুলি চালায়,   আমরা দেখাব যে বিদ্যমান পদ্ধতি দ্বারা ব্যবহৃত RL-ভিত্তিক উদ্দেশ্য একটি সাধারণ বাইনারি ক্রস-এনট্রপি উদ্দেশ্যের সাথে ঠিক অপ্টিমাইজ করা যেতে পারে, যা অগ্রাধিকার শিক্ষার পাইপলাইনটিকে ব্যাপকভাবে সরল করে।  একটি উচ্চ স্তরে, বিদ্যমান পদ্ধতিগুলি মানুষের পছন্দের কিউরেটেড সেটগুলি ব্যবহার করে একটি ভাষার মডেলে পছন্দসই আচরণগুলি স্থাপন করে যা মানুষের নিরাপদ এবং সহায়ক বলে এমন আচরণের প্রকারের প্রতিনিধিত্ব করে। এই প্রেফারেন্স লার্নিং স্টেজটি একটি বৃহৎ পাঠ্য ডেটাসেটে বৃহৎ আকারের অ-তত্ত্বাবধানহীন প্রাক-প্রশিক্ষণের প্রাথমিক পর্যায়ের পরে ঘটে। যদিও অগ্রাধিকার শিক্ষার সবচেয়ে সহজ পদ্ধতি হল উচ্চ মানের প্রতিক্রিয়ার মানব প্রদর্শনের সূক্ষ্ম টিউনিং তত্ত্বাবধান, পদ্ধতির সবচেয়ে সফল শ্রেণী হল মানব (বা এআই) প্রতিক্রিয়া (RLHF/RLAIF; [12, 2]) থেকে শক্তিবৃদ্ধি শিক্ষা। RLHF পদ্ধতিগুলি মানুষের পছন্দের ডেটাসেটের সাথে একটি পুরস্কারের মডেলকে মানানসই করে এবং তারপরে মূল মডেল থেকে অত্যধিক দূরে না গিয়ে উচ্চ পুরষ্কার বরাদ্দ করা প্রতিক্রিয়াগুলি তৈরি করতে একটি ভাষা মডেল নীতি অপ্টিমাইজ করতে RL ব্যবহার করে৷ যদিও RLHF চিত্তাকর্ষক কথোপকথন এবং কোডিং ক্ষমতা সহ মডেল তৈরি করে, RLHF পাইপলাইন তত্ত্বাবধানে শিক্ষার তুলনায় যথেষ্ট জটিল, এতে একাধিক LM প্রশিক্ষণ এবং প্রশিক্ষণের লুপে LM নীতি থেকে নমুনা নেওয়া জড়িত, উল্লেখযোগ্য গণনামূলক খরচ বহন করে।  এই পেপারে, আমরা দেখাই কিভাবে একটি ভাষা মডেলকে সরাসরি মানুষের পছন্দ মেনে চলার জন্য অপ্টিমাইজ করা যায়, সুস্পষ্ট পুরষ্কার মডেলিং বা শক্তিবৃদ্ধি শিক্ষা ছাড়াই। আমরা ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO) প্রস্তাব করছি, একটি অ্যালগরিদম যা বিদ্যমান RLHF অ্যালগরিদমের মতো একই উদ্দেশ্যকে অপ্টিমাইজ করে (কেএল-ডাইভারজেন্স সীমাবদ্ধতার সাথে পুরষ্কার সর্বাধিকীকরণ) কিন্তু প্রয়োগ করা সহজ এবং প্রশিক্ষণের জন্য সহজ। স্বজ্ঞাতভাবে, ডিপিও আপডেট অপছন্দযুক্ত প্রতিক্রিয়াগুলির থেকে পছন্দের আপেক্ষিক লগ সম্ভাবনাকে বাড়িয়ে তোলে, তবে এটি একটি গতিশীল, প্রতি-উদাহরণ গুরুত্বের ওজনকে অন্তর্ভুক্ত করে যা আমরা যে মডেলের অবক্ষয়কে খুঁজে পাই তা একটি নিষ্প্রভ সম্ভাবনার অনুপাতের উদ্দেশ্যের সাথে ঘটে। বিদ্যমান অ্যালগরিদমের মতো, ডিপিও একটি তাত্ত্বিক পছন্দ মডেলের উপর নির্ভর করে (যেমন ব্র্যাডলি-টেরি মডেল; [৫]) যা পরিমাপ করে যে প্রদত্ত পুরস্কার ফাংশন অভিজ্ঞতামূলক পছন্দ ডেটার সাথে কতটা সারিবদ্ধ। যাইহোক, যখন বিদ্যমান পদ্ধতিগুলি একটি পুরষ্কার মডেলকে প্রশিক্ষিত করার জন্য একটি অগ্রাধিকার ক্ষতি সংজ্ঞায়িত করার জন্য পছন্দ মডেল ব্যবহার করে এবং তারপরে শেখা পুরস্কার মডেলকে অপ্টিমাইজ করে এমন একটি নীতিকে প্রশিক্ষণ দেয়, DPO সরাসরি নীতির একটি ফাংশন হিসাবে পছন্দের ক্ষতিকে সংজ্ঞায়িত করতে ভেরিয়েবলের পরিবর্তন ব্যবহার করে। মডেল প্রতিক্রিয়াগুলির উপর মানুষের পছন্দগুলির একটি ডেটাসেট দেওয়া, তাই ডিপিও একটি সাধারণ বাইনারি ক্রস এনট্রপি উদ্দেশ্য ব্যবহার করে একটি নীতি অপ্টিমাইজ করতে পারে, পছন্দের ডেটার সাথে মানানসই একটি অন্তর্নিহিত পুরষ্কার ফাংশনে সর্বোত্তম নীতি তৈরি করে৷  আমাদের প্রধান অবদান হল ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (DPO), একটি সহজ RL-মুক্ত অ্যালগরিদম যা পছন্দের ভাষা মডেলগুলিকে প্রশিক্ষণের জন্য। আমাদের পরীক্ষাগুলি দেখায় যে DPO কমপক্ষে 6B প্যারামিটার সহ ভাষা মডেল ব্যবহার করে সেন্টিমেন্ট মড্যুলেশন, সংক্ষিপ্তকরণ এবং সংলাপের মতো কাজগুলিতে পছন্দগুলি থেকে শেখার জন্য PPO-ভিত্তিক RLHF সহ বিদ্যমান পদ্ধতিগুলির মতো কার্যকর।  এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

গল্পের মূল ভাষায় এই অডিও তৈরি!

সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষা মডেল গোপনে একটি পুরস্কার মডেল

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps