লেখক:
(1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;
(4) Stefano Ermon, CZ Biohub;
(5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়;
(6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।
7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স
একটি গাণিতিক উদ্ভব
A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা
A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা
A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা
A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ
B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার
C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ
C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে
D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল
D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স
ক্রমবর্ধমান স্কেলের স্ব-তত্ত্বাবধান করা ভাষা মডেলগুলি কিছু কাজ জিরো-শট [৩১] বা কয়েকটি শট প্রম্পট সহ সম্পূর্ণ করতে শেখে [6, 25, 11]। যাইহোক, ডাউনস্ট্রিম কাজগুলিতে তাদের কর্মক্ষমতা এবং ব্যবহারকারীর অভিপ্রায়ের সাথে সারিবদ্ধকরণ নির্দেশাবলী এবং মানবলিখিত সমাপ্তির ডেটাসেটগুলিতে সূক্ষ্ম-টিউনিং দ্বারা উল্লেখযোগ্যভাবে উন্নত করা যেতে পারে [23, 36, 13, 39]। এই 'নির্দেশ-টিউনিং' পদ্ধতিটি LLM-কে নির্দেশ-টিউনিং সেটের বাইরের নির্দেশাবলীতে সাধারণীকরণ করতে এবং সাধারণত তাদের ব্যবহারযোগ্যতা বৃদ্ধি করতে সক্ষম করে [13]। নির্দেশনা টিউনিংয়ের সাফল্য সত্ত্বেও, বিশেষজ্ঞ প্রদর্শনের তুলনায় প্রতিক্রিয়া মানের আপেক্ষিক মানবিক বিচারগুলি প্রায়শই সংগ্রহ করা সহজ, এবং এইভাবে পরবর্তী কাজগুলিতে মানব পছন্দের ডেটাসেট সহ সূক্ষ্ম-সুরিত এলএলএম রয়েছে, অনুবাদে দক্ষতা উন্নত করা হয়েছে [18], সংক্ষিপ্তকরণ [38, 49] ], গল্প বলা [49], এবং নির্দেশনা-অনুসরণ [26, 32]। এই পদ্ধতিগুলি প্রথমে ব্র্যাডলি-টেরি মডেল [৫] এর মতো পছন্দের মডেলের অধীনে পছন্দগুলির ডেটাসেটের সাথে সামঞ্জস্যের জন্য একটি নিউরাল নেটওয়ার্ক পুরষ্কার ফাংশনকে অপ্টিমাইজ করে, তারপরে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম ব্যবহার করে প্রদত্ত পুরষ্কার সর্বাধিক করার জন্য একটি ভাষা মডেলকে সূক্ষ্ম-টিউন করে, সাধারণত শক্তিশালীকরণ [৪৫], প্রক্সিমাল পলিসি অপ্টিমাইজেশান (পিপিও; [৩৭]), বা রূপগুলি [৩২]। কাজের একটি ঘনিষ্ঠ-সম্পর্কিত লাইন LLM গুলিকে মানব প্রতিক্রিয়ার সাথে অনুসরণ করে নির্দেশের জন্য সূক্ষ্মভাবে তৈরি করে যাতে নিরাপত্তা বা ক্ষতিহীনতার মতো লক্ষ্যযুক্ত বৈশিষ্ট্যগুলির জন্য অতিরিক্ত সিন্থেটিক পছন্দ ডেটা তৈরি করা যায় [2], একটি পাঠ্য রুব্রিকের আকারে মানুষের কাছ থেকে শুধুমাত্র দুর্বল তত্ত্বাবধান ব্যবহার করে এলএলএম এর টীকা। এই পদ্ধতিগুলি কাজের দুটি সংস্থার একত্রিতকরণের প্রতিনিধিত্ব করে: বিভিন্ন উদ্দেশ্যগুলির জন্য শক্তিবৃদ্ধি শেখার সাথে প্রশিক্ষণের ভাষা মডেলগুলির একটি কাজ [33, 27, 46] এবং মানুষের পছন্দগুলি থেকে শেখার জন্য সাধারণ পদ্ধতিগুলির উপর কাজের আরেকটি অংশ [12, 19]। আপেক্ষিক মানুষের পছন্দগুলি ব্যবহার করার আবেদন সত্ত্বেও, শক্তিবৃদ্ধি শেখার সাথে বৃহৎ ভাষার মডেলগুলিকে সূক্ষ্ম-টিউনিং করা একটি বড় ব্যবহারিক চ্যালেঞ্জ রয়ে গেছে; এই কাজটি RL ছাড়া আপেক্ষিক পছন্দগুলি অপ্টিমাইজ করার জন্য একটি তাত্ত্বিক-ন্যায্য পদ্ধতি প্রদান করে।
ভাষার প্রেক্ষাপটের বাইরে, পছন্দগুলি থেকে শেখার নীতিগুলি দস্যু এবং শক্তিবৃদ্ধি শেখার সেটিংস উভয় ক্ষেত্রেই অধ্যয়ন করা হয়েছে এবং বেশ কয়েকটি পদ্ধতির প্রস্তাব করা হয়েছে। পুরষ্কারের পরিবর্তে পছন্দ বা কর্মের র্যাঙ্কিং ব্যবহার করে প্রাসঙ্গিক দস্যু শিক্ষা, একটি প্রাসঙ্গিক দ্বৈত দস্যু হিসাবে পরিচিত (CDB; [48, 14])। পরম পুরষ্কারের অনুপস্থিতিতে, CDB-এর তাত্ত্বিক বিশ্লেষণ ভন নিউম্যান বিজয়ীর সাথে একটি সর্বোত্তম নীতির ধারণাকে প্রতিস্থাপন করে, এমন একটি নীতি যার অন্য যেকোনো নীতির বিপরীতে প্রত্যাশিত জয়ের হার কমপক্ষে 50% [14]। যাইহোক, CDB সেটিংসে, পছন্দের লেবেলগুলি অনলাইনে দেওয়া হয়, মানুষের পছন্দগুলি থেকে শেখার সময়, আমরা সাধারণত অফলাইন পছন্দ-টীকাযুক্ত অ্যাকশন জোড়ার একটি নির্দিষ্ট ব্যাচ থেকে শিখি [47]। একইভাবে, পছন্দ-ভিত্তিক RL (PbRL) পুরস্কারের পরিবর্তে একটি অজানা 'স্কোরিং' ফাংশন দ্বারা তৈরি বাইনারি পছন্দগুলি থেকে শেখে [9, 35]। PbRL-এর জন্য বিভিন্ন অ্যালগরিদম বিদ্যমান, সেই পদ্ধতিগুলি সহ যেগুলি অফ-পলিসি পছন্দ ডেটা পুনঃব্যবহার করতে পারে, কিন্তু সাধারণত প্রথমে সুপ্ত স্কোরিং ফাংশন (যেমন পুরষ্কার মডেল) অনুমান করা এবং পরবর্তীতে এটিকে অপ্টিমাইজ করা জড়িত [16, 9, 12, 34, 19]। আমরা পরিবর্তে একটি একক পর্যায়ে নীতি শেখার পদ্ধতি উপস্থাপন করি যা পছন্দগুলি সন্তুষ্ট করার জন্য একটি নীতিকে সরাসরি অপ্টিমাইজ করে।
এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।