paint-brush
AI प्रशिक्षण को सरल बनाना: प्रत्यक्ष वरीयता अनुकूलन बनाम पारंपरिक RLद्वारा@textmodels

AI प्रशिक्षण को सरल बनाना: प्रत्यक्ष वरीयता अनुकूलन बनाम पारंपरिक RL

द्वारा Writings, Papers and Blogs on Text Models3m2024/08/25
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह खंड भाषा मॉडल को ठीक करने पर मौजूदा काम की समीक्षा करता है, जिसमें निर्देश ट्यूनिंग और वरीयता-आधारित सुदृढीकरण सीखने (RL) जैसे तरीकों पर ध्यान केंद्रित किया गया है। जबकि पारंपरिक तरीके जटिल RL एल्गोरिदम पर निर्भर करते हैं, यह पेपर एक नया दृष्टिकोण, डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन पेश करता है, जो सुदृढीकरण सीखने या इनाम मॉडलिंग की आवश्यकता के बिना सीधे मानव वरीयताओं का उपयोग करके भाषा मॉडल को अनुकूलित करता है। यह प्रक्रिया को सरल बनाता है और अनुवाद, सारांश और संवाद जैसे कार्यों में मानव इरादे के साथ मॉडल संरेखण में सुधार करता है।
featured image - AI प्रशिक्षण को सरल बनाना: प्रत्यक्ष वरीयता अनुकूलन बनाम पारंपरिक RL
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) राफेल राफेलो, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(2) अर्चित शर्मा, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(3) एरिक मिशेल, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(4) स्टेफानो एर्मन, सीजेड बायोहब;

(5) क्रिस्टोफर डी. मैनिंग, स्टैनफोर्ड विश्वविद्यालय;

(6) चेल्सी फिन, स्टैनफोर्ड विश्वविद्यालय।

लिंक की तालिका

सार और 1. परिचय

2। संबंधित कार्य

3 प्रारंभिक

4 प्रत्यक्ष वरीयता अनुकूलन

5 डीपीओ का सैद्धांतिक विश्लेषण

6 प्रयोग

7 चर्चा, आभार और संदर्भ

लेखक का योगदान


एक गणितीय व्युत्पत्ति

A.1 KL-प्रतिबंधित पुरस्कार अधिकतमीकरण उद्देश्य का इष्टतम परिणाम प्राप्त करना

A.2 ब्रैडली-टेरी मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना

A.3 प्लैकेट-लूस मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना

A.4 डीपीओ उद्देश्य का ग्रेडिएंट निकालना और A.5 लेम्मा 1 और 2 का प्रमाण

A.6 प्रमेय 1 का प्रमाण


बी डीपीओ कार्यान्वयन विवरण और हाइपरपैरामीटर


C प्रायोगिक सेट-अप और C.1 IMDb सेंटीमेंट प्रयोग और बेसलाइन विवरण पर आगे की जानकारी

C.2 संक्षेपण और संवाद जीत दरों की गणना के लिए GPT-4 संकेत

C.3 असंभावना आधार रेखा


डी अतिरिक्त अनुभवजन्य परिणाम

D.1 विभिन्न N और D.2 नमूना प्रतिक्रियाओं और GPT-4 निर्णय के लिए N बेसलाइन का सर्वश्रेष्ठ प्रदर्शन

D.3 मानव अध्ययन विवरण

2। संबंधित कार्य

बढ़ते पैमाने के स्व-पर्यवेक्षित भाषा मॉडल कुछ कार्यों को शून्य-शॉट [31] या कुछ-शॉट संकेतों [6, 25, 11] के साथ पूरा करना सीखते हैं। हालांकि, डाउनस्ट्रीम कार्यों पर उनके प्रदर्शन और उपयोगकर्ता के इरादे के साथ संरेखण को निर्देशों और मानव-लिखित पूर्णता [23, 36, 13, 39] के डेटासेट पर फाइन-ट्यूनिंग करके काफी हद तक सुधारा जा सकता है। यह 'निर्देश-ट्यूनिंग' प्रक्रिया एलएलएम को निर्देश-ट्यूनिंग सेट के बाहर के निर्देशों को सामान्य बनाने और आम तौर पर उनकी उपयोगिता बढ़ाने में सक्षम बनाती है [13]। निर्देश ट्यूनिंग की सफलता के बावजूद, प्रतिक्रिया गुणवत्ता के सापेक्ष मानवीय निर्णय अक्सर विशेषज्ञ प्रदर्शनों की तुलना में एकत्र करना आसान होता है, और इस प्रकार बाद के कार्यों ने मानव प्राथमिकताओं के डेटासेट के साथ एलएलएम को फाइन-ट्यून किया है, अनुवाद [18], सारांश [38, 49], कहानी सुनाना [49] और निर्देश-अनुसरण [26, 32] में दक्षता में सुधार किया है। ये विधियां पहले ब्रैडले-टेरी मॉडल [5] जैसे वरीयता मॉडल के तहत वरीयताओं के डेटासेट के साथ संगतता के लिए एक न्यूरल नेटवर्क रिवॉर्ड फंक्शन को अनुकूलित करती हैं, फिर सुदृढीकरण सीखने के एल्गोरिदम का उपयोग करके दिए गए इनाम को अधिकतम करने के लिए भाषा मॉडल को फाइन-ट्यून करती हैं, आमतौर पर REINFORCE [45], समीपस्थ नीति अनुकूलन (PPO; [37]), या वेरिएंट [32]। कार्य की एक निकट से संबंधित रेखा लक्षित विशेषताओं जैसे सुरक्षा या हानिरहितता [2] के लिए अतिरिक्त सिंथेटिक वरीयता डेटा उत्पन्न करने के लिए मानव प्रतिक्रिया के साथ निर्देश का पालन करने के लिए फाइन-ट्यून किए गए LLM का लाभ उठाती है, LLM के एनोटेशन के लिए टेक्स्ट रूब्रिक के रूप में मनुष्यों से केवल कमजोर पर्यवेक्षण का उपयोग करती है। ये विधियां दो कार्यों के निकायों के अभिसरण का प्रतिनिधित्व करती हैं: यह कार्य बिना आर.एल. के सापेक्ष वरीयताओं को अनुकूलित करने के लिए सैद्धांतिक रूप से उचित दृष्टिकोण प्रदान करता है।


भाषा के संदर्भ के बाहर, वरीयताओं से सीखने की नीतियों का अध्ययन बैंडिट और सुदृढीकरण सीखने दोनों सेटिंग्स में किया गया है, और कई दृष्टिकोण प्रस्तावित किए गए हैं। पुरस्कारों के बजाय वरीयताओं या कार्यों की रैंकिंग का उपयोग करके प्रासंगिक बैंडिट सीखना, एक प्रासंगिक द्वंद्वयुद्ध बैंडिट (सीडीबी; [48, 14]) के रूप में जाना जाता है। पूर्ण पुरस्कारों की अनुपस्थिति में, सीडीबी का सैद्धांतिक विश्लेषण एक वॉन न्यूमैन विजेता के साथ एक इष्टतम नीति की धारणा को प्रतिस्थापित करता है, एक नीति जिसकी किसी भी अन्य नीति के खिलाफ अपेक्षित जीत दर कम से कम 50% है [14]। हालांकि, सीडीबी सेटिंग में, वरीयता लेबल ऑनलाइन दिए गए हैं, जबकि मानव वरीयताओं से सीखने में, हम आम तौर पर ऑफ़लाइन वरीयता-एनोटेट कार्रवाई जोड़े के एक निश्चित बैच से सीखते हैं [47]। इसी तरह, वरीयता-आधारित आरएल (पीबीआरएल) पुरस्कारों के बजाय अज्ञात 'स्कोरिंग' फ़ंक्शन द्वारा उत्पन्न बाइनरी वरीयताओं से सीखता है PbRL के लिए विभिन्न एल्गोरिदम मौजूद हैं, जिनमें ऐसे तरीके शामिल हैं जो ऑफ-पॉलिसी वरीयता डेटा का पुनः उपयोग कर सकते हैं, लेकिन आम तौर पर इसमें पहले स्पष्ट रूप से अव्यक्त स्कोरिंग फ़ंक्शन (यानी रिवॉर्ड मॉडल) का अनुमान लगाना और उसके बाद इसे अनुकूलित करना शामिल है [16, 9, 12, 34, 19]। इसके बजाय हम एक एकल चरण नीति सीखने का दृष्टिकोण प्रस्तुत करते हैं जो वरीयताओं को संतुष्ट करने के लिए सीधे नीति का अनुकूलन करता है।