लेखक:  (1) नाथन लैम्बर्ट, एलन इंस्टीट्यूट फॉर एआई;  (2) रॉबर्टो कैलेंड्रा, टीयू ड्रेसडेन।  लिंक की तालिका   सार एवं परिचय   संबंधित कार्य   पृष्ठभूमि   उद्देश्य बेमेल को समझना   चर्चाएँ   निष्कर्ष   आभार, और संदर्भ  अमूर्त  मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) बड़े भाषा मॉडल (एलएलएम) को आसान बनाने और जटिल सेटिंग्स में अधिक सक्षम बनाने के लिए एक शक्तिशाली तकनीक के रूप में उभरा है। आरएलएचएफ अपने मूल में अगले-टोकन भविष्यवाणी के अलावा एलएलएम को अनुकूलित करने के लिए एक नया टूलकिट प्रदान कर रहा है, जो गुणात्मक प्रशिक्षण लक्ष्यों के एकीकरण को सक्षम बनाता है। उपयोगकर्ता की प्राथमिकताओं और डाउनस्ट्रीम प्रदर्शन के बीच मिलान का प्रयास, जो एक सीखे हुए इनाम मॉडल में होता है, एक अनुकूलन परिदृश्य में परिणत होता है जहां प्रशिक्षण और मूल्यांकन मेट्रिक्स सहसंबद्ध दिखाई दे सकते हैं। स्पष्ट सहसंबंध अप्रत्याशित व्यवहार और "बहुत अधिक आरएलएचएफ" की कहानियों को जन्म दे सकता है। आरएलएचएफ में, चुनौतियाँ उभरती हैं क्योंकि निम्नलिखित उप-मॉड्यूल एक-दूसरे के अनुरूप नहीं हैं: इनाम मॉडल प्रशिक्षण, नीति मॉडल प्रशिक्षण और नीति मॉडल मूल्यांकन। इस बेमेल के परिणामस्वरूप ऐसे मॉडल बनते हैं जो कभी-कभी झूठे सुरक्षा झंडों के माध्यम से उपयोगकर्ता के अनुरोधों से बचते हैं, किसी इच्छित विशेषता पर चलना मुश्किल होता है, या हमेशा एक विशिष्ट शैली में उत्तर देते हैं। जैसे-जैसे चैट मॉडल मूल्यांकन तेजी से सूक्ष्म होता जा रहा है, इनाम मॉडल स्कोर और डाउनस्ट्रीम प्रदर्शन के बीच एक कथित लिंक पर निर्भरता उद्देश्य बेमेल मुद्दे को जन्म देती है। इस पेपर में, हम इस समस्या का कारण बताते हैं, मॉडल-आधारित सुदृढीकरण सीखने से प्रासंगिक साहित्य की समीक्षा करते हैं, और आगे के शोध को प्रोत्साहित करने के लिए प्रासंगिक समाधानों पर चर्चा करते हैं। आरएलएचएफ में उद्देश्य विसंगति को हल करके, भविष्य के एलएलएम को सुरक्षा और सहायता दोनों के लिए उपयोगकर्ता निर्देशों के साथ अधिक सटीक रूप से जोड़ा जाएगा।  1 परिचय  मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) बड़े मशीन लर्निंग मॉडल में गुणात्मक शैलियों और मूल्यों को एकीकृत करने के लिए एक शक्तिशाली उपकरण है (बाई एट अल., 2022; क्रिस्टियानो एट अल., 2017; ओयांग एट अल., 2022)। आरएलएचएफ को चैट टूल (शुलमैन, ज़ोफ़, किम, और अधिक, 2022) को संरेखित करने के लिए बड़े भाषा मॉडल (एलएलएम) में एकीकृत मानवीय मूल्यों के उपयोग के साथ लोकप्रिय बनाया गया था। ऐसा करने में, आरएलएचएफ उपयोगकर्ता के अनुरोधों का जवाब देने में मॉडल को बेहतर बनाने की प्रक्रिया में एक महत्वपूर्ण तकनीक बन गया है, जिसे अक्सर निर्देश-ट्यून, संचालन, चैट-मॉडल इत्यादि के रूप में जाना जाता है। आरएलएचएफ विधियां आम तौर पर दो चरणों वाली प्रक्रिया में काम करती हैं। आधार भाषा मॉडल का प्रशिक्षण, सबसे पहले वे मानव प्राथमिकताओं का एक मॉडल सीखते हैं जो एक इनाम फ़ंक्शन के रूप में कार्य करता है, और दूसरा वे इस मॉडल का उपयोग सुदृढीकरण सीखने (आरएल) अनुकूलन लूप के भीतर करते हैं। आरएलएचएफ प्रक्रिया में, इन दो चरणों को अक्सर स्वतंत्र रूप से निष्पादित किया जाता है, जिसमें एक सटीक इनाम मॉडल को मानव प्राथमिकता डेटा पर प्रशिक्षित किया जाता है और फिर चैट मॉडल में अधिकतम जानकारी निकालने के लिए आरएल ऑप्टिमाइज़र का उपयोग किया जाता है। आरएलएचएफ से प्रशिक्षित आधुनिक एलएलएम की एक आम चुनौती मॉडल से इच्छित व्यवहार निकालने में कठिनाइयाँ हैं। कभी-कभी, मॉडल सुरक्षा कारणों से सौम्य अनुरोधों को अस्वीकार कर देते हैं और कभी-कभी उन्हें पूर्ण प्रदर्शन प्राप्त करने के लिए चतुर त्वरित ट्यूनिंग की आवश्यकता होती है।  इस पेपर में, हम आधुनिक आरएलएचएफ शिक्षण योजनाओं में एक मूलभूत चुनौती का विवरण देते हैं: उद्देश्य बेमेल मुद्दा। आरएलएचएफ में, प्रशिक्षण के तीन महत्वपूर्ण भागों को संख्यात्मक रूप से अलग किया गया है: मूल्यांकन मेट्रिक्स का डिज़ाइन, एक इनाम मॉडल का प्रशिक्षण, और जनरेटिंग मॉडल का प्रशिक्षण। इनाम मॉडल और आरएल प्रशिक्षण के बीच यह बेमेल चित्र 1 में देखा गया है, फिर भी मूल्यांकन के लक्ष्यों और मानवीय मूल्यों के अनुकरण के बीच अन्य लिंक मौजूद हैं। विशेष रूप से, वरीयता परिमाणीकरण (लैम्बर्ट, गिल्बर्ट, और ज़िक, 2023) में साहित्य के लिए इनाम मॉडल प्रशिक्षण को बेहतर ढंग से संरेखित करने के कई रास्ते हैं और आरएलएचएफ प्रथाओं (कैस्पर एट अल।, 2023) में मौलिक अनुकूलन चुनौतियों को हल करने की आवश्यकता है। चैटजीपीटी, आरएलएचएफ के साथ प्रशिक्षित सबसे लोकप्रिय मॉडल, वाचालता, आत्म-संदेह और प्रश्न अस्वीकार, बार-बार वाक्यांश, हेजिंग और बहुत कुछ जैसे मुद्दों के माध्यम से इस सीमा के संकेत दिखाता है (शुलमैन, 2023)। ओवरऑप्टिमाइज़ेशन के ये लक्षण सूक्ष्म प्रॉक्सी उद्देश्य समस्या के परिणाम हैं जो उद्देश्य बेमेल अध्ययन और समाधान के लिए एक फ्रेम प्रदान करता है - इनाम मॉडल उन वाक्यांशों को अतिरिक्त मूल्य देता है जो उपयोगकर्ता के लाभ में योगदान नहीं करते हैं, जो आरएल ऑप्टिमाइज़र सुरक्षा झंडे जैसे शोषण करता है। दूसरी ओर, वर्तमान प्रशिक्षण सेटअप मूल्यांकन उपकरणों के साथ पूरी तरह से संरेखित नहीं हैं क्योंकि RLHF'd मॉडल को अभी भी परिष्कृत संकेत तकनीकों की आवश्यकता है जैसे "कदम दर कदम सोचना" (जे. वेई एट अल., 2022) या "गहरी सांस लेना" ” (यांग एट अल., 2023) अधिकतम प्रदर्शन तक पहुंचने के लिए। उद्देश्य बेमेल को हल करने से इन उन्नत तकनीकों की आवश्यकता दूर हो जाएगी और एलएलएम के दायरे से बाहर होने की संभावना कम हो जाएगी।   उद्देश्य बेमेल वाक्यांश मॉडल-आधारित सुदृढीकरण सीखने (एमबीआरएल) से उत्पन्न होता है, जहां एक एजेंट पुनरावृत्त रूप से एक गतिशीलता मॉडल सीखता है जिसे वह बाद में एक नियंत्रण कार्य को हल करने के लिए उपयोग करता है (लैम्बर्ट, अमोस, यादन, और कैलेंड्रा, 2020; आर वेई, लैम्बर्ट, मैकडॉनल्ड्स, गार्सिया, और कैलेंड्रा, 2023)। इस संदर्भ में, बेमेल उच्च कार्य पुरस्कार के लिए अनुकूलित मॉडल के बजाय एक सटीक गतिशीलता मॉडल सीखने के बीच है। आरएलएचएफ में, समस्या संबंधित है, लेकिन अतिरिक्त जटिलता के साथ, क्योंकि इनाम मॉडल को बंद वितरण पर वरीयता डेटा के लिए अनुकूलित किया गया है, जो अंतिम उपयोगकर्ताओं से मेल नहीं खाता है। दूसरा, ओपन-एंडेड भाषा निर्माण का कार्य आरएल नियंत्रण नीतियों की तुलना में इनाम की धारणा के लिए कम विशिष्ट है। इन कारणों से, जैसा कि हम इस पेपर में खोजते हैं, उद्देश्य बेमेल मुद्दा आरएलएचएफ के लिए अधिक सूक्ष्म और महत्वपूर्ण है।  इस स्थिति पत्र में, हम तीन योगदान देते हैं:  • चैट-ट्यून किए गए एलएलएम में उद्देश्य बेमेल की उत्पत्ति और संभावित अभिव्यक्तियों को स्पष्ट रूप से समझाएं,  • उद्देश्य बेमेल के आसपास एनएलपी और आरएल साहित्य से संबंधित कार्य को जोड़ें,  • बेमेल को हल करने और बेहतर आरएलएचएफ प्रथाओं को बढ़ावा देने के लिए अध्ययन के निर्देशों का प्रस्ताव करें।  यह पेपर CC 4.0 लाइसेंस के तहत   है। arxiv पर उपलब्ध

FeedbackLoop.TECH

Read My Stories

The FeedbackLoop offers premium product management education, research papers, and certifications. Start building today!

FeedbackLoop

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

संरेखण छत: मानव प्रतिक्रिया से सुदृढीकरण सीखने में उद्देश्य बेमेल

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps