डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (डीपीओ) एक नई फाइन-ट्यूनिंग तकनीक है जो अपनी सादगी और कार्यान्वयन में आसानी के कारण लोकप्रिय हो गई है। यह अपनी स्थिरता, प्रदर्शन और कम्प्यूटेशनल हल्के स्वभाव के कारण मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए बड़े भाषा मॉडल (एलएलएम) के लिए के प्रत्यक्ष विकल्प के रूप में उभरा है, जिससे नमूने की आवश्यकता समाप्त हो गई है। फाइन-ट्यूनिंग के दौरान एलएम। डीपीओ मौजूदा तरीकों के बराबर या उससे भी बेहतर प्रदर्शन स्तर हासिल कर सकता है। मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने मौजूदा तरीकों के विपरीत, जिसमें आरएलएचएफ का लाभ उठाना शामिल है, डीपीओ भाषा संरेखण प्रक्रिया को एक सरल हानि फ़ंक्शन के रूप में फिर से तैयार करता है जिसे प्राथमिकताओं के डेटासेट {(x,yw,yl)} का उपयोग करके सीधे अनुकूलित किया जा सकता है, जहां: • x एक संकेत है • yw एक पसंदीदा तरीका है • yl एक अस्वीकृत विधि है आरएलएचएफ के विपरीत, जिसमें अनुकूलन प्रक्रिया के दौरान भाषा मॉडल से प्रतिक्रियाओं का नमूना लेने की आवश्यकता होती है, डीपीओ में, प्रतिक्रियाओं को अनुकूलित किए जा रहे एलएम से नमूना लेने की आवश्यकता नहीं होती है। डीपीओ कैसे काम करता है? डीपीओ की कार्य प्रक्रिया को दो चरणों में विभाजित किया जा सकता है। इस चरण में, मॉडल को प्रासंगिक डेटा पर फाइन-ट्यून किया जाता है। सुपरवाइज्ड फाइन-ट्यूनिंग (एसएफटी): मॉडल को प्राथमिकता डेटा पर ठीक से ट्यून किया गया है जो आदर्श रूप से एसएफटी उदाहरणों के समान वितरण से प्राप्त होता है। प्राथमिकता सीखना: आरएलएचएफ के विपरीत, जिसमें नीति अनुकूलन के लिए पहले एक इनाम मॉडल को प्रशिक्षित किया जाता है, डीपीओ इनाम मॉडल को प्रशिक्षित करने के मध्यवर्ती चरण के बिना सीधे अनुकूलन प्रक्रिया में वरीयता जानकारी जोड़ता है। डीपीओ एलएलएम को एक इनाम मॉडल के रूप में उपयोग करता है और नीति को अनुकूलित करने के लिए एक बाइनरी क्रॉस-एन्ट्रॉपी उद्देश्य को नियोजित करता है, जो यह पहचानने के लिए मानव प्राथमिकता डेटा का लाभ उठाता है कि कौन सी प्रतिक्रियाएं पसंद की जाती हैं और कौन सी नहीं। नीति को उसके प्रदर्शन को बढ़ावा देने के लिए पसंदीदा प्रतिक्रियाओं के आधार पर समायोजित किया जाता है। पर्यवेक्षित फ़ाइन-ट्यूनिंग हम एलएलएम के लिए जेनरेटिव एआई एप्लिकेशन विकसित करने में आपकी सहायता करते हैं ताकि वे विशिष्ट उपयोग के मामलों के लिए बहुमुखी और अनुकूली हों। इसमें मॉडल को सीखने और अनुकूलित करने के लिए डेटा या उदाहरण प्रदान करना शामिल है, इसलिए हम डिजाइन, परीक्षण, तैनाती और संकेतों के वितरण के लिए त्वरित इंजीनियरिंग समाधान प्रदान करते हैं। कोगिटो. पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) में, जो विशिष्ट इनपुट और वांछित आउटपुट के बीच स्पष्ट मैपिंग प्रदान करता है। पर्यवेक्षित फाइन-ट्यूनिंग, विशेष रूप से प्राथमिकता सीखने के साथ, मानव द्वारा परिभाषित मानदंडों से मेल खाने के लिए मॉडल के आउटपुट को आकार देने या समायोजित करने के लिए नियोजित किया जाता है, यह सुनिश्चित करते हुए कि वे विशिष्ट आवश्यकताओं के साथ निकटता से संरेखित होते हैं। एलएलएम को लेबल किए गए डेटासेट पर प्रशिक्षित किया जाता है एनएलपी में वरीयता डेटा वरीयता डेटा एक विशिष्ट संकेत से संबंधित विकल्पों या विकल्पों के सावधानीपूर्वक चुने गए सेट को संदर्भित करता है। एनोटेटर कुछ दिशानिर्देशों के अनुसार इन विकल्पों का मूल्यांकन करते हैं। समग्र प्रक्रिया का लक्ष्य मानवीय प्राथमिकताओं के आधार पर इन विकल्पों को सबसे अधिक से सबसे कम पसंदीदा के बीच रैंक करना है। फिर रैंकिंग का उपयोग मानवीय अपेक्षाओं के अनुरूप आउटपुट उत्पन्न करने के लिए मॉडल को बेहतर बनाने के लिए किया जाता है। प्राथमिकता डेटा कैसे बनाएं शीघ्र चयन प्रॉम्प्ट वरीयता डेटा की आधारशिला है। संकेतों को चुनने के कई तरीके हैं - कुछ पूर्वनिर्धारित सेट चुनते हैं, जबकि अन्य गतिशील रूप से संकेत उत्पन्न करने के लिए टेम्पलेट का उपयोग करते हैं या डेटाबेस से लिए गए यादृच्छिक संकेतों के साथ पूर्वनिर्धारित संकेतों के संयोजन का विकल्प चुनते हैं। प्रतिक्रिया चयन अगला कदम प्रॉम्प्ट के जवाब में आउटपुट निर्धारित करना है। ये प्रतिक्रियाएँ किसी मॉडल के अच्छी तरह से प्रशिक्षित संस्करण या मॉडल के विकास में विभिन्न चौकियों से उत्पन्न की जा सकती हैं। उत्पन्न सभी प्रतिक्रियाएँ समान नहीं होती हैं, उत्तरों की रैंकिंग भिन्न हो सकती है। बाइनरी रैंकिंग प्रणाली में, प्रत्येक उत्तर को या तो "सर्वश्रेष्ठ" या "सबसे खराब" के रूप में वर्गीकृत किया जाता है, जबकि एक दानेदार रैंकिंग प्रणाली प्रत्येक उत्तर के लिए एक अंक (उदाहरण के लिए, 1-5) प्रदान करती है, जिससे अधिक विस्तृत और सूक्ष्म मूल्यांकन की अनुमति मिलती है। एनोटेशन दिशानिर्देश एनोटेशन दिशानिर्देश यह सुनिश्चित करने के लिए आवश्यक हैं कि व्यक्तिगत पूर्वाग्रहों और व्याख्याओं को कम करने के लिए रैंकिंग सिस्टम को मानकीकृत किया जाए। डीपीओ के लाभ आरएलएचएफ की तुलना में डीपीओ के कई फायदे इस प्रकार हैं: सरलता और कार्यान्वयन में आसानी विस्तृत प्रतिक्रिया एकत्र करना, जटिल नीति का अनुकूलन करना और मॉडल प्रशिक्षण को पुरस्कृत करना शामिल है, डीपीओ सीधे मानव प्राथमिकता को प्रशिक्षण लूप में एकीकृत करता है। यह दृष्टिकोण न केवल प्रक्रिया से जुड़ी जटिलता को समाप्त करता है बल्कि पूर्व-प्रशिक्षण और फाइन-ट्यूनिंग की मानक प्रणालियों के साथ बेहतर तालमेल भी बिठाता है। इसके अलावा, डीपीओ में इनाम कार्यों के निर्माण और समायोजन की जटिलताओं को शामिल नहीं किया गया है। आरएलएचएफ की बहुस्तरीय प्रक्रिया के विपरीत, जिसमें पुरस्कार मॉडल प्रशिक्षण की कोई आवश्यकता नहीं डीपीओ एक अतिरिक्त इनाम मॉडल को प्रशिक्षित करने, कम्प्यूटेशनल संसाधनों को बचाने और इनाम मॉडल सटीकता और रखरखाव से जुड़ी चुनौतियों को दूर करने की आवश्यकता को समाप्त करता है। एक कुशल इनाम मॉडल विकसित करना जो एआई के लिए कार्रवाई योग्य संकेतों में मानव प्रतिक्रिया की व्याख्या करता है, एक जटिल कार्य है। इसमें विकसित हो रही मानवीय प्राथमिकताओं को सटीक रूप से प्रतिबिंबित करने के लिए पर्याप्त प्रयास की आवश्यकता है और नियमित अपडेट की आवश्यकता है। मॉडल सुधार के लिए सीधे वरीयता डेटा का लाभ उठाकर डीपीओ इस कदम को पूरी तरह से दरकिनार कर देता है। श्रेष्ठ प्रदर्शन । डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन: योर लैंग्वेज मॉडल नामक एक शोध के अनुसार बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाने के लिए डीपीओ आरएलएचएफ (ह्यूमन फीडबैक से सुदृढीकरण सीखना) और पीपीओ (प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन) जैसे अन्य तरीकों की तुलना में अच्छा या उससे भी बेहतर हो सकता है। गुप्त रूप से एक पुरस्कार मॉडल निष्कर्ष प्रत्यक्ष प्रदर्शन अनुकूलन एक स्थिर और कुशल फ़ाइन-ट्यूनिंग तकनीक है जिसके लिए अत्यधिक कम्प्यूटेशनल संसाधनों की आवश्यकता नहीं होती है। आरएलएचएफ के विपरीत, डीपीओ को फाइन-ट्यूनिंग के दौरान एक जटिल इनाम मॉडल और भाषा मॉडल से नमूने की आवश्यकता नहीं होती है। यह सिर्फ एक नया एल्गोरिदम नहीं है, बल्कि एआई मॉडल में एक गेम चेंजर है, जो भाषा मॉडल बनाने की प्रक्रिया को ठीक करता है, सरल बनाता है और बढ़ाता है जो मानवीय जरूरतों को बेहतर ढंग से समझता है और पूरा करता है।