paint-brush
संरेखण छत: मानव प्रतिक्रिया से सुदृढीकरण सीखने में उद्देश्य बेमेलद्वारा@feedbackloop
370 रीडिंग
370 रीडिंग

संरेखण छत: मानव प्रतिक्रिया से सुदृढीकरण सीखने में उद्देश्य बेमेल

द्वारा The FeedbackLoop: #1 in PM Education4m2024/01/16
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

बड़े भाषा मॉडल के लिए आरएलएचएफ में उद्देश्य बेमेल की चुनौतियों की खोज करें, जो इनाम मॉडल और डाउनस्ट्रीम प्रदर्शन के बीच संरेखण को प्रभावित करती हैं। यह पेपर एनएलपी और आरएल साहित्य से अंतर्दृष्टि को जोड़ते हुए, इस मुद्दे को संबोधित करने के लिए उत्पत्ति, अभिव्यक्तियों और संभावित समाधानों की पड़ताल करता है। अधिक प्रभावी और उपयोगकर्ता-संरेखित भाषा मॉडल के लिए बेहतर आरएलएचएफ प्रथाओं को बढ़ावा देने में अंतर्दृष्टि प्राप्त करें।
featured image - संरेखण छत: मानव प्रतिक्रिया से सुदृढीकरण सीखने में उद्देश्य बेमेल
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

लेखक:

(1) नाथन लैम्बर्ट, एलन इंस्टीट्यूट फॉर एआई;

(2) रॉबर्टो कैलेंड्रा, टीयू ड्रेसडेन।

लिंक की तालिका

सार एवं परिचय

संबंधित कार्य

पृष्ठभूमि

उद्देश्य बेमेल को समझना

चर्चाएँ

निष्कर्ष

आभार, और संदर्भ

अमूर्त

मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) बड़े भाषा मॉडल (एलएलएम) को आसान बनाने और जटिल सेटिंग्स में अधिक सक्षम बनाने के लिए एक शक्तिशाली तकनीक के रूप में उभरा है। आरएलएचएफ अपने मूल में अगले-टोकन भविष्यवाणी के अलावा एलएलएम को अनुकूलित करने के लिए एक नया टूलकिट प्रदान कर रहा है, जो गुणात्मक प्रशिक्षण लक्ष्यों के एकीकरण को सक्षम बनाता है। उपयोगकर्ता की प्राथमिकताओं और डाउनस्ट्रीम प्रदर्शन के बीच मिलान का प्रयास, जो एक सीखे हुए इनाम मॉडल में होता है, एक अनुकूलन परिदृश्य में परिणत होता है जहां प्रशिक्षण और मूल्यांकन मेट्रिक्स सहसंबद्ध दिखाई दे सकते हैं। स्पष्ट सहसंबंध अप्रत्याशित व्यवहार और "बहुत अधिक आरएलएचएफ" की कहानियों को जन्म दे सकता है। आरएलएचएफ में, चुनौतियाँ उभरती हैं क्योंकि निम्नलिखित उप-मॉड्यूल एक-दूसरे के अनुरूप नहीं हैं: इनाम मॉडल प्रशिक्षण, नीति मॉडल प्रशिक्षण और नीति मॉडल मूल्यांकन। इस बेमेल के परिणामस्वरूप ऐसे मॉडल बनते हैं जो कभी-कभी झूठे सुरक्षा झंडों के माध्यम से उपयोगकर्ता के अनुरोधों से बचते हैं, किसी इच्छित विशेषता पर चलना मुश्किल होता है, या हमेशा एक विशिष्ट शैली में उत्तर देते हैं। जैसे-जैसे चैट मॉडल मूल्यांकन तेजी से सूक्ष्म होता जा रहा है, इनाम मॉडल स्कोर और डाउनस्ट्रीम प्रदर्शन के बीच एक कथित लिंक पर निर्भरता उद्देश्य बेमेल मुद्दे को जन्म देती है। इस पेपर में, हम इस समस्या का कारण बताते हैं, मॉडल-आधारित सुदृढीकरण सीखने से प्रासंगिक साहित्य की समीक्षा करते हैं, और आगे के शोध को प्रोत्साहित करने के लिए प्रासंगिक समाधानों पर चर्चा करते हैं। आरएलएचएफ में उद्देश्य विसंगति को हल करके, भविष्य के एलएलएम को सुरक्षा और सहायता दोनों के लिए उपयोगकर्ता निर्देशों के साथ अधिक सटीक रूप से जोड़ा जाएगा।

1 परिचय

मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) बड़े मशीन लर्निंग मॉडल में गुणात्मक शैलियों और मूल्यों को एकीकृत करने के लिए एक शक्तिशाली उपकरण है (बाई एट अल., 2022; क्रिस्टियानो एट अल., 2017; ओयांग एट अल., 2022)। आरएलएचएफ को चैट टूल (शुलमैन, ज़ोफ़, किम, और अधिक, 2022) को संरेखित करने के लिए बड़े भाषा मॉडल (एलएलएम) में एकीकृत मानवीय मूल्यों के उपयोग के साथ लोकप्रिय बनाया गया था। ऐसा करने में, आरएलएचएफ उपयोगकर्ता के अनुरोधों का जवाब देने में मॉडल को बेहतर बनाने की प्रक्रिया में एक महत्वपूर्ण तकनीक बन गया है, जिसे अक्सर निर्देश-ट्यून, संचालन, चैट-मॉडल इत्यादि के रूप में जाना जाता है। आरएलएचएफ विधियां आम तौर पर दो चरणों वाली प्रक्रिया में काम करती हैं। आधार भाषा मॉडल का प्रशिक्षण, सबसे पहले वे मानव प्राथमिकताओं का एक मॉडल सीखते हैं जो एक इनाम फ़ंक्शन के रूप में कार्य करता है, और दूसरा वे इस मॉडल का उपयोग सुदृढीकरण सीखने (आरएल) अनुकूलन लूप के भीतर करते हैं। आरएलएचएफ प्रक्रिया में, इन दो चरणों को अक्सर स्वतंत्र रूप से निष्पादित किया जाता है, जिसमें एक सटीक इनाम मॉडल को मानव प्राथमिकता डेटा पर प्रशिक्षित किया जाता है और फिर चैट मॉडल में अधिकतम जानकारी निकालने के लिए आरएल ऑप्टिमाइज़र का उपयोग किया जाता है। आरएलएचएफ से प्रशिक्षित आधुनिक एलएलएम की एक आम चुनौती मॉडल से इच्छित व्यवहार निकालने में कठिनाइयाँ हैं। कभी-कभी, मॉडल सुरक्षा कारणों से सौम्य अनुरोधों को अस्वीकार कर देते हैं और कभी-कभी उन्हें पूर्ण प्रदर्शन प्राप्त करने के लिए चतुर त्वरित ट्यूनिंग की आवश्यकता होती है।


इस पेपर में, हम आधुनिक आरएलएचएफ शिक्षण योजनाओं में एक मूलभूत चुनौती का विवरण देते हैं: उद्देश्य बेमेल मुद्दा। आरएलएचएफ में, प्रशिक्षण के तीन महत्वपूर्ण भागों को संख्यात्मक रूप से अलग किया गया है: मूल्यांकन मेट्रिक्स का डिज़ाइन, एक इनाम मॉडल का प्रशिक्षण, और जनरेटिंग मॉडल का प्रशिक्षण। इनाम मॉडल और आरएल प्रशिक्षण के बीच यह बेमेल चित्र 1 में देखा गया है, फिर भी मूल्यांकन के लक्ष्यों और मानवीय मूल्यों के अनुकरण के बीच अन्य लिंक मौजूद हैं। विशेष रूप से, वरीयता परिमाणीकरण (लैम्बर्ट, गिल्बर्ट, और ज़िक, 2023) में साहित्य के लिए इनाम मॉडल प्रशिक्षण को बेहतर ढंग से संरेखित करने के कई रास्ते हैं और आरएलएचएफ प्रथाओं (कैस्पर एट अल।, 2023) में मौलिक अनुकूलन चुनौतियों को हल करने की आवश्यकता है। चैटजीपीटी, आरएलएचएफ के साथ प्रशिक्षित सबसे लोकप्रिय मॉडल, वाचालता, आत्म-संदेह और प्रश्न अस्वीकार, बार-बार वाक्यांश, हेजिंग और बहुत कुछ जैसे मुद्दों के माध्यम से इस सीमा के संकेत दिखाता है (शुलमैन, 2023)। ओवरऑप्टिमाइज़ेशन के ये लक्षण सूक्ष्म प्रॉक्सी उद्देश्य समस्या के परिणाम हैं जो उद्देश्य बेमेल अध्ययन और समाधान के लिए एक फ्रेम प्रदान करता है - इनाम मॉडल उन वाक्यांशों को अतिरिक्त मूल्य देता है जो उपयोगकर्ता के लाभ में योगदान नहीं करते हैं, जो आरएल ऑप्टिमाइज़र सुरक्षा झंडे जैसे शोषण करता है। दूसरी ओर, वर्तमान प्रशिक्षण सेटअप मूल्यांकन उपकरणों के साथ पूरी तरह से संरेखित नहीं हैं क्योंकि RLHF'd मॉडल को अभी भी परिष्कृत संकेत तकनीकों की आवश्यकता है जैसे "कदम दर कदम सोचना" (जे. वेई एट अल., 2022) या "गहरी सांस लेना" ” (यांग एट अल., 2023) अधिकतम प्रदर्शन तक पहुंचने के लिए। उद्देश्य बेमेल को हल करने से इन उन्नत तकनीकों की आवश्यकता दूर हो जाएगी और एलएलएम के दायरे से बाहर होने की संभावना कम हो जाएगी।


चित्र 1: आरएलएचएफ के आरएल अनुकूलन चरण के भीतर उद्देश्य बेमेल मुद्दा कहां उभरता है इसका एक उदाहरण। एमिसमैच तब होता है जब इनाम मॉडल के स्कोर को अन्य डाउनस्ट्रीम मूल्यांकन के साथ सहसंबद्ध माना जाता है


उद्देश्य बेमेल वाक्यांश मॉडल-आधारित सुदृढीकरण सीखने (एमबीआरएल) से उत्पन्न होता है, जहां एक एजेंट पुनरावृत्त रूप से एक गतिशीलता मॉडल सीखता है जिसे वह बाद में एक नियंत्रण कार्य को हल करने के लिए उपयोग करता है (लैम्बर्ट, अमोस, यादन, और कैलेंड्रा, 2020; आर वेई, लैम्बर्ट, मैकडॉनल्ड्स, गार्सिया, और कैलेंड्रा, 2023)। इस संदर्भ में, बेमेल उच्च कार्य पुरस्कार के लिए अनुकूलित मॉडल के बजाय एक सटीक गतिशीलता मॉडल सीखने के बीच है। आरएलएचएफ में, समस्या संबंधित है, लेकिन अतिरिक्त जटिलता के साथ, क्योंकि इनाम मॉडल को बंद वितरण पर वरीयता डेटा के लिए अनुकूलित किया गया है, जो अंतिम उपयोगकर्ताओं से मेल नहीं खाता है। दूसरा, ओपन-एंडेड भाषा निर्माण का कार्य आरएल नियंत्रण नीतियों की तुलना में इनाम की धारणा के लिए कम विशिष्ट है। इन कारणों से, जैसा कि हम इस पेपर में खोजते हैं, उद्देश्य बेमेल मुद्दा आरएलएचएफ के लिए अधिक सूक्ष्म और महत्वपूर्ण है।


इस स्थिति पत्र में, हम तीन योगदान देते हैं:


• चैट-ट्यून किए गए एलएलएम में उद्देश्य बेमेल की उत्पत्ति और संभावित अभिव्यक्तियों को स्पष्ट रूप से समझाएं,


• उद्देश्य बेमेल के आसपास एनएलपी और आरएल साहित्य से संबंधित कार्य को जोड़ें,


• बेमेल को हल करने और बेहतर आरएलएचएफ प्रथाओं को बढ़ावा देने के लिए अध्ययन के निर्देशों का प्रस्ताव करें।


यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।