লেখক:  (1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক;  (4) Stefano Ermon, CZ Biohub;  (5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়;  (6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।  লিঙ্কের টেবিল   বিমূর্ত এবং 1. ভূমিকা   2 সম্পর্কিত কাজ   3 প্রাথমিক   4 সরাসরি পছন্দ অপ্টিমাইজেশান   ডিপিওর 5 তাত্ত্বিক বিশ্লেষণ   6 পরীক্ষা   7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স   লেখক অবদান  একটি গাণিতিক উদ্ভব   A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা   A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা   A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা   A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ   A.6 উপপাদ্যের প্রমাণ 1   B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার   C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ   C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে   C.3 অসম্ভাব্য বেসলাইন  D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল   D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স   D.3 মানব অধ্যয়নের বিবরণ  2 সম্পর্কিত কাজ  ক্রমবর্ধমান স্কেলের স্ব-তত্ত্বাবধান করা ভাষা মডেলগুলি কিছু কাজ জিরো-শট [৩১] বা কয়েকটি শট প্রম্পট সহ সম্পূর্ণ করতে শেখে [6, 25, 11]। যাইহোক, ডাউনস্ট্রিম কাজগুলিতে তাদের কর্মক্ষমতা এবং ব্যবহারকারীর অভিপ্রায়ের সাথে সারিবদ্ধকরণ নির্দেশাবলী এবং মানবলিখিত সমাপ্তির ডেটাসেটগুলিতে সূক্ষ্ম-টিউনিং দ্বারা উল্লেখযোগ্যভাবে উন্নত করা যেতে পারে [23, 36, 13, 39]। এই 'নির্দেশ-টিউনিং' পদ্ধতিটি LLM-কে নির্দেশ-টিউনিং সেটের বাইরের নির্দেশাবলীতে সাধারণীকরণ করতে এবং সাধারণত তাদের ব্যবহারযোগ্যতা বৃদ্ধি করতে সক্ষম করে [13]। নির্দেশনা টিউনিংয়ের সাফল্য সত্ত্বেও, বিশেষজ্ঞ প্রদর্শনের তুলনায় প্রতিক্রিয়া মানের আপেক্ষিক মানবিক বিচারগুলি প্রায়শই সংগ্রহ করা সহজ, এবং এইভাবে পরবর্তী কাজগুলিতে মানব পছন্দের ডেটাসেট সহ সূক্ষ্ম-সুরিত এলএলএম রয়েছে, অনুবাদে দক্ষতা উন্নত করা হয়েছে [18], সংক্ষিপ্তকরণ [38, 49] ], গল্প বলা [49], এবং নির্দেশনা-অনুসরণ [26, 32]। এই পদ্ধতিগুলি প্রথমে ব্র্যাডলি-টেরি মডেল [৫] এর মতো পছন্দের মডেলের অধীনে পছন্দগুলির ডেটাসেটের সাথে সামঞ্জস্যের জন্য একটি নিউরাল নেটওয়ার্ক পুরষ্কার ফাংশনকে অপ্টিমাইজ করে, তারপরে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম ব্যবহার করে প্রদত্ত পুরষ্কার সর্বাধিক করার জন্য একটি ভাষা মডেলকে সূক্ষ্ম-টিউন করে, সাধারণত শক্তিশালীকরণ [৪৫], প্রক্সিমাল পলিসি অপ্টিমাইজেশান (পিপিও; [৩৭]), বা রূপগুলি [৩২]। কাজের একটি ঘনিষ্ঠ-সম্পর্কিত লাইন LLM গুলিকে মানব প্রতিক্রিয়ার সাথে অনুসরণ করে নির্দেশের জন্য সূক্ষ্মভাবে তৈরি করে যাতে নিরাপত্তা বা ক্ষতিহীনতার মতো লক্ষ্যযুক্ত বৈশিষ্ট্যগুলির জন্য অতিরিক্ত সিন্থেটিক পছন্দ ডেটা তৈরি করা যায় [2], একটি পাঠ্য রুব্রিকের আকারে মানুষের কাছ থেকে শুধুমাত্র দুর্বল তত্ত্বাবধান ব্যবহার করে এলএলএম এর টীকা। এই পদ্ধতিগুলি কাজের দুটি সংস্থার একত্রিতকরণের প্রতিনিধিত্ব করে: বিভিন্ন উদ্দেশ্যগুলির জন্য শক্তিবৃদ্ধি শেখার সাথে প্রশিক্ষণের ভাষা মডেলগুলির একটি কাজ [33, 27, 46] এবং মানুষের পছন্দগুলি থেকে শেখার জন্য সাধারণ পদ্ধতিগুলির উপর কাজের আরেকটি অংশ [12, 19]। আপেক্ষিক মানুষের পছন্দগুলি ব্যবহার করার আবেদন সত্ত্বেও, শক্তিবৃদ্ধি শেখার সাথে বৃহৎ ভাষার মডেলগুলিকে সূক্ষ্ম-টিউনিং করা একটি বড় ব্যবহারিক চ্যালেঞ্জ রয়ে গেছে; এই কাজটি RL ছাড়া আপেক্ষিক পছন্দগুলি অপ্টিমাইজ করার জন্য একটি তাত্ত্বিক-ন্যায্য পদ্ধতি প্রদান করে।  ভাষার প্রেক্ষাপটের বাইরে, পছন্দগুলি থেকে শেখার নীতিগুলি দস্যু এবং শক্তিবৃদ্ধি শেখার সেটিংস উভয় ক্ষেত্রেই অধ্যয়ন করা হয়েছে এবং বেশ কয়েকটি পদ্ধতির প্রস্তাব করা হয়েছে। পুরষ্কারের পরিবর্তে পছন্দ বা কর্মের র‌্যাঙ্কিং ব্যবহার করে প্রাসঙ্গিক দস্যু শিক্ষা, একটি প্রাসঙ্গিক দ্বৈত দস্যু হিসাবে পরিচিত (CDB; [48, 14])। পরম পুরষ্কারের অনুপস্থিতিতে, CDB-এর তাত্ত্বিক বিশ্লেষণ ভন নিউম্যান বিজয়ীর সাথে একটি সর্বোত্তম নীতির ধারণাকে প্রতিস্থাপন করে, এমন একটি নীতি যার অন্য যেকোনো নীতির বিপরীতে প্রত্যাশিত জয়ের হার কমপক্ষে 50% [14]। যাইহোক, CDB সেটিংসে, পছন্দের লেবেলগুলি অনলাইনে দেওয়া হয়, মানুষের পছন্দগুলি থেকে শেখার সময়, আমরা সাধারণত অফলাইন পছন্দ-টীকাযুক্ত অ্যাকশন জোড়ার একটি নির্দিষ্ট ব্যাচ থেকে শিখি [47]। একইভাবে, পছন্দ-ভিত্তিক RL (PbRL) পুরস্কারের পরিবর্তে একটি অজানা 'স্কোরিং' ফাংশন দ্বারা তৈরি বাইনারি পছন্দগুলি থেকে শেখে [9, 35]। PbRL-এর জন্য বিভিন্ন অ্যালগরিদম বিদ্যমান, সেই পদ্ধতিগুলি সহ যেগুলি অফ-পলিসি পছন্দ ডেটা পুনঃব্যবহার করতে পারে, কিন্তু সাধারণত প্রথমে সুপ্ত স্কোরিং ফাংশন (যেমন পুরষ্কার মডেল) অনুমান করা এবং পরবর্তীতে এটিকে অপ্টিমাইজ করা জড়িত [16, 9, 12, 34, 19]। আমরা পরিবর্তে একটি একক পর্যায়ে নীতি শেখার পদ্ধতি উপস্থাপন করি যা পছন্দগুলি সন্তুষ্ট করার জন্য একটি নীতিকে সরাসরি অপ্টিমাইজ করে।  এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

গল্পের মূল ভাষায় এই অডিও তৈরি!

এআই প্রশিক্ষণকে সরলীকরণ করা: সরাসরি পছন্দ অপ্টিমাইজেশান বনাম ঐতিহ্যবাহী আরএল

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

আয় করতে ট্যাপ করুন: টেলিগ্রাম সোলানার আগে পরবর্তী 10 বিলিয়ন ক্রিপ্টো ব্যবহারকারীদের অনবোর্ড করতে পারে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

আয় করতে ট্যাপ করুন: টেলিগ্রাম সোলানার আগে পরবর্তী 10 বিলিয়ন ক্রিপ্টো ব্যবহারকারীদের অনবোর্ড করতে পারে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps