ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) হল একটি অভিনব ফাইন-টিউনিং কৌশল যা এর সরলতা এবং বাস্তবায়নের সহজতার কারণে জনপ্রিয় হয়ে উঠেছে। এটি স্থিতিশীলতা, কর্মক্ষমতা এবং গণনাগত হালকা প্রকৃতির জন্য দায়ী মানুষের পছন্দগুলির সাথে সারিবদ্ধ করার জন্য বড় ভাষা মডেল (LLM) ফাইন-টিউনিংয়ের জন্য এর সরাসরি বিকল্প হিসাবে আবির্ভূত হয়েছে, যা থেকে নমুনা নেওয়ার প্রয়োজনীয়তা দূর করে। ফাইন-টিউনিংয়ের সময় এলএম। ডিপিও কার্যক্ষমতার স্তর অর্জন করতে পারে সেইসাথে বা বিদ্যমান পদ্ধতির চেয়ে ভালো। হিউম্যান ফিডব্যাক (RLHF) থেকে রিইনফোর্সমেন্ট লার্নিং বিদ্যমান পদ্ধতিগুলির বিপরীতে যেগুলি RLHF ব্যবহার করে, DPO ভাষা সারিবদ্ধকরণ প্রক্রিয়াটিকে একটি সাধারণ ক্ষতি ফাংশন হিসাবে পুনরায় ফ্রেম করে যা পছন্দের ডেটাসেট ব্যবহার করে সরাসরি অপ্টিমাইজ করা যেতে পারে {(x,yw,yl)}, যেখানে: x একটি প্রম্পট • yw একটি পছন্দের পদ্ধতি • yl একটি প্রত্যাখ্যাত পদ্ধতি RLHF এর বিপরীতে যার জন্য অপ্টিমাইজেশন প্রক্রিয়া চলাকালীন একটি ভাষা মডেল থেকে প্রতিক্রিয়ার নমুনা নেওয়া প্রয়োজন, DPO-তে, প্রতিক্রিয়াগুলি অপ্টিমাইজ করা LM থেকে নমুনা নেওয়ার প্রয়োজন নেই৷ ডিপিও কিভাবে কাজ করে? ডিপিওর কাজের প্রক্রিয়াকে দুটি ধাপে ভাগ করা যায়। এই ধাপে, মডেলটি প্রাসঙ্গিক ডেটার উপর সূক্ষ্ম-টিউন করা হয়। সুপারভাইজড ফাইন-টিউনিং (SFT): SFT উদাহরণগুলির মতো একই বিতরণ থেকে আদর্শভাবে প্রাপ্ত পছন্দের ডেটার উপর মডেলটি সূক্ষ্মভাবে তৈরি করা হয়েছে। পছন্দ শিক্ষা: RLHF এর বিপরীতে, যেখানে একটি পুরষ্কার মডেলকে নীতি অপ্টিমাইজেশানের জন্য প্রথমে প্রশিক্ষণ দেওয়া হয়, ডিপিও একটি পুরষ্কার মডেলকে প্রশিক্ষণের মধ্যবর্তী পদক্ষেপ ছাড়াই অপ্টিমাইজেশান প্রক্রিয়াতে সরাসরি পছন্দের তথ্য যোগ করে। ডিপিও LLM কে পুরষ্কার মডেল হিসাবে ব্যবহার করে এবং নীতিটি অপ্টিমাইজ করার জন্য একটি বাইনারি ক্রস-এনট্রপি উদ্দেশ্য নিয়োগ করে, কোন প্রতিক্রিয়াগুলি পছন্দ করা হয় এবং কোনটি নয় তা সনাক্ত করতে মানুষের পছন্দের ডেটা ব্যবহার করে। নীতিটি এর কার্যকারিতা বাড়ানোর জন্য পছন্দের প্রতিক্রিয়াগুলির উপর ভিত্তি করে সামঞ্জস্য করা হয়। তত্ত্বাবধানে ফাইন-টিউনিং আমরা আপনাকে এলএলএম-এর জন্য জেনারেটিভ এআই অ্যাপ্লিকেশানগুলি বিকাশে সহায়তা করি যাতে তারা বহুমুখী এবং নির্দিষ্ট ব্যবহারের ক্ষেত্রে অভিযোজিত হয়। এটি শিখতে এবং মানিয়ে নেওয়ার জন্য মডেলকে ডেটা বা উদাহরণ প্রদান করে, তাই আমরা নকশা, পরীক্ষা, স্থাপনা এবং প্রম্পট সরবরাহের জন্য প্রম্পট ইঞ্জিনিয়ারিং সমাধান অফার করি। কোগিটো। তত্ত্বাবধানে ফাইন-টিউনিং (SFT), যা নির্দিষ্ট ইনপুট এবং পছন্দসই আউটপুটগুলির মধ্যে একটি স্পষ্ট ম্যাপিং প্রদান করে। তত্ত্বাবধানকৃত ফাইন-টিউনিং, বিশেষত পছন্দের শিক্ষার সাথে, মডেলের আউটপুটগুলিকে মানুষের দ্বারা সংজ্ঞায়িত মানদণ্ডের সাথে মেলে বা সামঞ্জস্য করার জন্য নিযুক্ত করা হয়, নিশ্চিত করে যে তারা নির্দিষ্ট প্রয়োজনীয়তার সাথে ঘনিষ্ঠভাবে সারিবদ্ধ। এলএলএম লেবেলযুক্ত ডেটাসেটগুলিতে প্রশিক্ষণপ্রাপ্ত হয় এনএলপিতে পছন্দের ডেটা পছন্দ ডেটা একটি নির্দিষ্ট প্রম্পট সম্পর্কিত বিকল্প বা বিকল্পগুলির একটি সাবধানে নির্বাচিত সেটকে বোঝায়। টীকাকাররা নির্দিষ্ট নির্দেশিকা অনুসারে এই বিকল্পগুলিকে মূল্যায়ন করে। সামগ্রিক প্রক্রিয়াটি মানুষের পছন্দের উপর ভিত্তি করে এই বিকল্পগুলিকে সর্বাধিক থেকে সর্বনিম্ন পছন্দের র্যাঙ্ক করার লক্ষ্য রাখে। র্যাঙ্কিংটি তারপরে মানুষের প্রত্যাশার সাথে সঙ্গতিপূর্ণ আউটপুট তৈরি করতে মডেলগুলিকে সূক্ষ্ম-টিউন করতে ব্যবহৃত হয়। কীভাবে পছন্দের ডেটা তৈরি করবেন প্রম্পট নির্বাচন প্রম্পট হল পছন্দের ডেটার ভিত্তি। প্রম্পট নির্বাচন করার বিভিন্ন উপায় রয়েছে — কেউ কেউ একটি পূর্বনির্ধারিত সেট বেছে নেয়, অন্যরা গতিশীলভাবে প্রম্পট তৈরি করতে টেমপ্লেট ব্যবহার করে বা ডাটাবেস থেকে নেওয়া এলোমেলোগুলির সাথে পূর্বনির্ধারিত প্রম্পটের সংমিশ্রণ বেছে নেয়। প্রতিক্রিয়া নির্বাচন পরবর্তী ধাপ হল প্রম্পটের প্রতিক্রিয়ায় আউটপুট নির্ধারণ করা। এই প্রতিক্রিয়াগুলি মডেলের একটি ভাল-প্রশিক্ষিত সংস্করণ বা মডেলের বিকাশে বিভিন্ন চেকপয়েন্ট থেকে তৈরি করা যেতে পারে। উত্পন্ন সমস্ত প্রতিক্রিয়া একই নয়, উত্তরগুলির র্যাঙ্কিং পরিবর্তিত হতে পারে। বাইনারি র্যাঙ্কিং সিস্টেমে, প্রতিটি উত্তরকে সহজভাবে "সেরা" বা "সবচেয়ে খারাপ" হিসাবে শ্রেণীবদ্ধ করা হয় যেখানে একটি দানাদার র্যাঙ্কিং সিস্টেম প্রতিটি উত্তরের জন্য একটি স্কোর (যেমন, 1-5) নির্ধারণ করে, যা আরও বিশদ এবং সূক্ষ্ম মূল্যায়নের অনুমতি দেয়। টীকা নির্দেশিকা টীকা নির্দেশিকাগুলি নিশ্চিত করার জন্য প্রয়োজনীয় যে র্যাঙ্কিং সিস্টেমগুলি স্বতন্ত্র পক্ষপাত এবং ব্যাখ্যাগুলিকে হ্রাস করার জন্য প্রমিত। ডিপিওর সুবিধা RLHF এর উপর DPO-এর অনেক সুবিধা রয়েছে: সরলতা এবং বাস্তবায়ন সহজ , DPO সরাসরি প্রশিক্ষণ লুপে মানুষের পছন্দকে একীভূত করে। এই পদ্ধতিটি শুধুমাত্র প্রক্রিয়ার সাথে সম্পর্কিত জটিলতা দূর করে না বরং প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-টিউনিং এর মানক সিস্টেমের সাথে আরও ভালভাবে সারিবদ্ধ করে। অধিকন্তু, ডিপিও পুরষ্কার ফাংশন নির্মাণ এবং সামঞ্জস্য করার জটিলতাগুলি নেভিগেট করার সাথে জড়িত নয়। RLHF এর বহু-স্তরযুক্ত প্রক্রিয়ার বিপরীতে যার মধ্যে বিস্তারিত প্রতিক্রিয়া সংগ্রহ করা, জটিল নীতি অপ্টিমাইজ করা এবং পুরষ্কার মডেল প্রশিক্ষণ জড়িত পুরষ্কার মডেল প্রশিক্ষণের প্রয়োজন নেই ডিপিও একটি অতিরিক্ত পুরষ্কার মডেল প্রশিক্ষণের প্রয়োজনীয়তা দূর করে, গণনামূলক সংস্থানগুলি সংরক্ষণ করে এবং পুরষ্কার মডেলের যথার্থতা এবং রক্ষণাবেক্ষণের সাথে সম্পর্কিত চ্যালেঞ্জগুলি দূর করে। একটি দক্ষ পুরষ্কার মডেল তৈরি করা যা মানুষের প্রতিক্রিয়াকে AI এর জন্য কার্যকরী সংকেতগুলিতে ব্যাখ্যা করে একটি জটিল কাজ। এটির জন্য যথেষ্ট প্রচেষ্টার প্রয়োজন এবং সঠিকভাবে বিকশিত মানুষের পছন্দগুলি প্রতিফলিত করার জন্য নিয়মিত আপডেটের প্রয়োজন। ডিপিও মডেলের উন্নতির জন্য সরাসরি পছন্দের ডেটা ব্যবহার করে এই ধাপটিকে সম্পূর্ণভাবে বাইপাস করে। উচ্চতর কর্মক্ষমতা ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন শিরোনামের একটি গবেষণা অনুসারে বৃহৎ ভাষার মডেলগুলির কার্যকারিতা উন্নত করতে RLHF (মানব প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং) এবং পিপিও (প্রক্সিমাল পলিসি অপ্টিমাইজেশন) এর মতো অন্যান্য পদ্ধতির তুলনায় DPO ততটা ভাল বা আরও ভাল হতে পারে । : আপনার ভাষা মডেল গোপনে একটি পুরস্কারের মডেল উপসংহার ডাইরেক্ট পারফরম্যান্স অপ্টিমাইজেশান একটি স্থিতিশীল এবং দক্ষ ফাইন-টিউনিং কৌশল যার জন্য অত্যধিক কম্পিউটেশনাল রিসোর্সের প্রয়োজন হয় না। RLHF এর বিপরীতে, DPO-এর সূক্ষ্ম-টিউনিংয়ের সময় ভাষা মডেল থেকে একটি জটিল পুরস্কার মডেল এবং নমুনা প্রয়োজন হয় না। এটি শুধু একটি নতুন অ্যালগরিদম নয় বরং এআই মডেলের একটি গেম চেঞ্জার যা মানুষের চাহিদাকে আরও ভালোভাবে বোঝে এবং মেটাতে পারে এমন ভাষা মডেল তৈরির প্রক্রিয়াকে সূক্ষ্ম-টিউনিং, সরলীকরণ এবং উন্নত করে।