लेखक:
(1) राफेल राफेलो, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(2) अर्चित शर्मा, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(3) एरिक मिशेल, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(4) स्टेफानो एर्मन, सीजेड बायोहब;
(5) क्रिस्टोफर डी. मैनिंग, स्टैनफोर्ड विश्वविद्यालय;
(6) चेल्सी फिन, स्टैनफोर्ड विश्वविद्यालय।
5 डीपीओ का सैद्धांतिक विश्लेषण
एक गणितीय व्युत्पत्ति
A.1 KL-प्रतिबंधित पुरस्कार अधिकतमीकरण उद्देश्य का इष्टतम परिणाम प्राप्त करना
A.2 ब्रैडली-टेरी मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना
A.3 प्लैकेट-लूस मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना
A.4 डीपीओ उद्देश्य का ग्रेडिएंट निकालना और A.5 लेम्मा 1 और 2 का प्रमाण
बी डीपीओ कार्यान्वयन विवरण और हाइपरपैरामीटर
C प्रायोगिक सेट-अप और C.1 IMDb सेंटीमेंट प्रयोग और बेसलाइन विवरण पर आगे की जानकारी
C.2 संक्षेपण और संवाद जीत दरों की गणना के लिए GPT-4 संकेत
डी अतिरिक्त अनुभवजन्य परिणाम
D.1 विभिन्न N और D.2 नमूना प्रतिक्रियाओं और GPT-4 निर्णय के लिए N बेसलाइन का सर्वश्रेष्ठ प्रदर्शन
बढ़ते पैमाने के स्व-पर्यवेक्षित भाषा मॉडल कुछ कार्यों को शून्य-शॉट [31] या कुछ-शॉट संकेतों [6, 25, 11] के साथ पूरा करना सीखते हैं। हालांकि, डाउनस्ट्रीम कार्यों पर उनके प्रदर्शन और उपयोगकर्ता के इरादे के साथ संरेखण को निर्देशों और मानव-लिखित पूर्णता [23, 36, 13, 39] के डेटासेट पर फाइन-ट्यूनिंग करके काफी हद तक सुधारा जा सकता है। यह 'निर्देश-ट्यूनिंग' प्रक्रिया एलएलएम को निर्देश-ट्यूनिंग सेट के बाहर के निर्देशों को सामान्य बनाने और आम तौर पर उनकी उपयोगिता बढ़ाने में सक्षम बनाती है [13]। निर्देश ट्यूनिंग की सफलता के बावजूद, प्रतिक्रिया गुणवत्ता के सापेक्ष मानवीय निर्णय अक्सर विशेषज्ञ प्रदर्शनों की तुलना में एकत्र करना आसान होता है, और इस प्रकार बाद के कार्यों ने मानव प्राथमिकताओं के डेटासेट के साथ एलएलएम को फाइन-ट्यून किया है, अनुवाद [18], सारांश [38, 49], कहानी सुनाना [49] और निर्देश-अनुसरण [26, 32] में दक्षता में सुधार किया है। ये विधियां पहले ब्रैडले-टेरी मॉडल [5] जैसे वरीयता मॉडल के तहत वरीयताओं के डेटासेट के साथ संगतता के लिए एक न्यूरल नेटवर्क रिवॉर्ड फंक्शन को अनुकूलित करती हैं, फिर सुदृढीकरण सीखने के एल्गोरिदम का उपयोग करके दिए गए इनाम को अधिकतम करने के लिए भाषा मॉडल को फाइन-ट्यून करती हैं, आमतौर पर REINFORCE [45], समीपस्थ नीति अनुकूलन (PPO; [37]), या वेरिएंट [32]। कार्य की एक निकट से संबंधित रेखा लक्षित विशेषताओं जैसे सुरक्षा या हानिरहितता [2] के लिए अतिरिक्त सिंथेटिक वरीयता डेटा उत्पन्न करने के लिए मानव प्रतिक्रिया के साथ निर्देश का पालन करने के लिए फाइन-ट्यून किए गए LLM का लाभ उठाती है, LLM के एनोटेशन के लिए टेक्स्ट रूब्रिक के रूप में मनुष्यों से केवल कमजोर पर्यवेक्षण का उपयोग करती है। ये विधियां दो कार्यों के निकायों के अभिसरण का प्रतिनिधित्व करती हैं: यह कार्य बिना आर.एल. के सापेक्ष वरीयताओं को अनुकूलित करने के लिए सैद्धांतिक रूप से उचित दृष्टिकोण प्रदान करता है।
भाषा के संदर्भ के बाहर, वरीयताओं से सीखने की नीतियों का अध्ययन बैंडिट और सुदृढीकरण सीखने दोनों सेटिंग्स में किया गया है, और कई दृष्टिकोण प्रस्तावित किए गए हैं। पुरस्कारों के बजाय वरीयताओं या कार्यों की रैंकिंग का उपयोग करके प्रासंगिक बैंडिट सीखना, एक प्रासंगिक द्वंद्वयुद्ध बैंडिट (सीडीबी; [48, 14]) के रूप में जाना जाता है। पूर्ण पुरस्कारों की अनुपस्थिति में, सीडीबी का सैद्धांतिक विश्लेषण एक वॉन न्यूमैन विजेता के साथ एक इष्टतम नीति की धारणा को प्रतिस्थापित करता है, एक नीति जिसकी किसी भी अन्य नीति के खिलाफ अपेक्षित जीत दर कम से कम 50% है [14]। हालांकि, सीडीबी सेटिंग में, वरीयता लेबल ऑनलाइन दिए गए हैं, जबकि मानव वरीयताओं से सीखने में, हम आम तौर पर ऑफ़लाइन वरीयता-एनोटेट कार्रवाई जोड़े के एक निश्चित बैच से सीखते हैं [47]। इसी तरह, वरीयता-आधारित आरएल (पीबीआरएल) पुरस्कारों के बजाय अज्ञात 'स्कोरिंग' फ़ंक्शन द्वारा उत्पन्न बाइनरी वरीयताओं से सीखता है PbRL के लिए विभिन्न एल्गोरिदम मौजूद हैं, जिनमें ऐसे तरीके शामिल हैं जो ऑफ-पॉलिसी वरीयता डेटा का पुनः उपयोग कर सकते हैं, लेकिन आम तौर पर इसमें पहले स्पष्ट रूप से अव्यक्त स्कोरिंग फ़ंक्शन (यानी रिवॉर्ड मॉडल) का अनुमान लगाना और उसके बाद इसे अनुकूलित करना शामिल है [16, 9, 12, 34, 19]। इसके बजाय हम एक एकल चरण नीति सीखने का दृष्टिकोण प्रस्तुत करते हैं जो वरीयताओं को संतुष्ट करने के लिए सीधे नीति का अनुकूलन करता है।