paint-brush
प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक पुरस्कार मॉडल हैद्वारा@textmodels
234 रीडिंग

प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक पुरस्कार मॉडल है

द्वारा Writings, Papers and Blogs on Text Models5m2024/08/25
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) भाषा मॉडल को मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए सुदृढीकरण सीखने के लिए एक सरल, स्थिर विकल्प प्रस्तुत करता है। रिवॉर्ड मॉडलिंग और जटिल प्रशिक्षण प्रक्रियाओं की आवश्यकता को समाप्त करके, DPO कुशल फ़ाइन-ट्यूनिंग प्रदान करता है जो PPO-आधारित RLHF जैसी मौजूदा विधियों के प्रदर्शन से मेल खाता है या उससे बेहतर है, विशेष रूप से भावना मॉड्यूलेशन, सारांश और संवाद कार्यों में।
featured image - प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक पुरस्कार मॉडल है
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) राफेल राफेलो, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(2) अर्चित शर्मा, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(3) एरिक मिशेल, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;

(4) स्टेफानो एर्मन, सीजेड बायोहब;

(5) क्रिस्टोफर डी. मैनिंग, स्टैनफोर्ड विश्वविद्यालय;

(6) चेल्सी फिन, स्टैनफोर्ड विश्वविद्यालय।

लिंक की तालिका

सार और 1. परिचय

2। संबंधित कार्य

3 प्रारंभिक

4 प्रत्यक्ष वरीयता अनुकूलन

5 डीपीओ का सैद्धांतिक विश्लेषण

6 प्रयोग

7 चर्चा, आभार और संदर्भ

लेखक का योगदान


एक गणितीय व्युत्पत्ति

A.1 KL-प्रतिबंधित पुरस्कार अधिकतमीकरण उद्देश्य का इष्टतम परिणाम प्राप्त करना

A.2 ब्रैडली-टेरी मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना

A.3 प्लैकेट-लूस मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना

A.4 डीपीओ उद्देश्य का ग्रेडिएंट निकालना और A.5 लेम्मा 1 और 2 का प्रमाण

A.6 प्रमेय 1 का प्रमाण


बी डीपीओ कार्यान्वयन विवरण और हाइपरपैरामीटर


C प्रायोगिक सेट-अप और C.1 IMDb सेंटीमेंट प्रयोग और बेसलाइन विवरण पर आगे की जानकारी

C.2 संक्षेपण और संवाद जीत दरों की गणना के लिए GPT-4 संकेत

C.3 असंभावना आधार रेखा


डी अतिरिक्त अनुभवजन्य परिणाम

D.1 विभिन्न N और D.2 नमूना प्रतिक्रियाओं और GPT-4 निर्णय के लिए N बेसलाइन का सर्वश्रेष्ठ प्रदर्शन

D.3 मानव अध्ययन विवरण

अमूर्त

जबकि बड़े पैमाने पर अपर्यवेक्षित भाषा मॉडल (एलएम) व्यापक विश्व ज्ञान और कुछ तर्क कौशल सीखते हैं, उनके प्रशिक्षण की पूरी तरह से अपर्यवेक्षित प्रकृति के कारण उनके व्यवहार पर सटीक नियंत्रण प्राप्त करना मुश्किल है। ऐसी संचालन क्षमता प्राप्त करने के लिए मौजूदा तरीके मॉडल पीढ़ियों की सापेक्ष गुणवत्ता के मानव लेबल एकत्र करते हैं और इन प्राथमिकताओं के साथ संरेखित करने के लिए अपर्यवेक्षित एलएम को ठीक करते हैं, अक्सर मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने के साथ। हालांकि, आरएलएचएफ एक जटिल और अक्सर अस्थिर प्रक्रिया है, पहले एक इनाम मॉडल को फिट करना जो मानव प्राथमिकताओं को दर्शाता है, और फिर मूल मॉडल से बहुत दूर जाने के बिना इस अनुमानित इनाम को अधिकतम करने के लिए सुदृढीकरण सीखने का उपयोग करके बड़े अपर्यवेक्षित एलएम को ठीक करना। इस पत्र में हम आरएलएचएफ में इनाम मॉडल का एक नया पैरामीटराइजेशन पेश करते हैं जो बंद रूप में संबंधित इष्टतम नीति के निष्कर्षण को सक्षम करता है, जिससे हम केवल एक साधारण वर्गीकरण हानि के साथ मानक आरएलएचएफ समस्या को हल कर सकते हैं। परिणामी एल्गोरिथ्म, जिसे हम डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) कहते हैं, स्थिर, प्रदर्शनकारी और कम्प्यूटेशनली हल्का है, जो फ़ाइन-ट्यूनिंग या महत्वपूर्ण हाइपरपैरामीटर ट्यूनिंग के दौरान LM से सैंपलिंग की आवश्यकता को समाप्त करता है। हमारे प्रयोगों से पता चलता है कि DPO LM को मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए फ़ाइन-ट्यून कर सकता है और साथ ही मौजूदा तरीकों से भी बेहतर कर सकता है। उल्लेखनीय रूप से, DPO के साथ फ़ाइन-ट्यूनिंग पीढ़ियों की भावना को नियंत्रित करने की क्षमता में PPO-आधारित RLHF से आगे निकल जाती है, और सारांश और सिंगल-टर्न डायलॉग में प्रतिक्रिया की गुणवत्ता से मेल खाती है या उसे बेहतर बनाती है, जबकि इसे लागू करना और प्रशिक्षित करना काफी सरल है।

1 परिचय

बहुत बड़े डेटासेट पर प्रशिक्षित बड़े अपर्यवेक्षित भाषा मॉडल (एलएम) आश्चर्यजनक क्षमताएं हासिल करते हैं [11, 7, 40, 8]। हालांकि, इन मॉडलों को विभिन्न प्रकार के लक्ष्यों, प्राथमिकताओं और कौशल के साथ मनुष्यों द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जाता है। इनमें से कुछ लक्ष्य और कौशल की नकल करना वांछनीय नहीं हो सकता है; उदाहरण के लिए, जबकि हम चाहते हैं कि हमारा एआई कोडिंग सहायक सामान्य प्रोग्रामिंग गलतियों को समझे ताकि उन्हें ठीक किया जा सके, फिर भी, कोड बनाते समय, हम अपने मॉडल को उसके प्रशिक्षण डेटा में मौजूद (संभावित रूप से दुर्लभ) उच्च-गुणवत्ता वाली कोडिंग क्षमता की ओर झुकाव देना चाहेंगे। इसी तरह, हम चाहते हैं कि हमारा भाषा मॉडल 50% लोगों द्वारा मानी जाने वाली एक आम गलत धारणा से अवगत हो, लेकिन हम निश्चित रूप से नहीं चाहते कि मॉडल इस गलत धारणा को इसके बारे में 50% प्रश्नों में सच होने का दावा करे! जबकि मौजूदा विधियां आमतौर पर सुदृढीकरण सीखने (आरएल) का उपयोग करके मानव प्राथमिकताओं से मेल खाने के लिए एलएम को संचालित करती हैं,


चित्र 1: डीपीओ सुदृढ़ीकरण सीखने से बचते हुए मानवीय प्राथमिकताओं के लिए अनुकूलन करता है। मानवीय प्रतिक्रिया के साथ भाषा मॉडल को ठीक करने के लिए मौजूदा तरीके सबसे पहले प्रतिक्रियाओं के जोड़े पर संकेतों और मानवीय प्राथमिकताओं के डेटासेट में एक इनाम मॉडल फिट करते हैं, और फिर सीखे गए इनाम को अधिकतम करने वाली नीति खोजने के लिए आरएल का उपयोग करते हैं। इसके विपरीत, डीपीओ सीधे एक सरल वर्गीकरण उद्देश्य के साथ वरीयताओं को सबसे अच्छी तरह से संतुष्ट करने वाली नीति के लिए अनुकूलन करता है, एक अंतर्निहित इनाम मॉडल को फिट करता है जिसकी संगत इष्टतम नीति को बंद रूप में निकाला जा सकता है।


हम दिखाएंगे कि मौजूदा तरीकों द्वारा उपयोग किए जाने वाले आरएल-आधारित उद्देश्य को एक सरल बाइनरी क्रॉस-एन्ट्रॉपी उद्देश्य के साथ बिल्कुल अनुकूलित किया जा सकता है, जिससे वरीयता सीखने की पाइपलाइन बहुत सरल हो जाती है।


उच्च स्तर पर, मौजूदा विधियाँ मानव वरीयताओं के क्यूरेटेड सेटों का उपयोग करके भाषा मॉडल में वांछित व्यवहारों को स्थापित करती हैं जो मनुष्यों को सुरक्षित और सहायक लगने वाले व्यवहारों के प्रकारों का प्रतिनिधित्व करती हैं। यह वरीयता सीखने का चरण एक बड़े टेक्स्ट डेटासेट पर बड़े पैमाने पर अप्रशिक्षित पूर्व-प्रशिक्षण के प्रारंभिक चरण के बाद होता है। जबकि वरीयता सीखने का सबसे सीधा तरीका उच्च गुणवत्ता वाली प्रतिक्रियाओं के मानव प्रदर्शनों पर पर्यवेक्षित फ़ाइन-ट्यूनिंग है, विधियों का सबसे सफल वर्ग मानव (या AI) फ़ीडबैक (RLHF/RLAIF; [12, 2]) से सुदृढीकरण सीखना है। RLHF विधियाँ मानव वरीयताओं के डेटासेट में एक इनाम मॉडल फिट करती हैं और फिर मूल मॉडल से अत्यधिक दूर जाने के बिना उच्च इनाम दिए गए प्रतिक्रियाओं का उत्पादन करने के लिए भाषा मॉडल नीति को अनुकूलित करने के लिए RL का उपयोग करती हैं।


इस पत्र में, हम दिखाते हैं कि मानवीय प्राथमिकताओं का पालन करने के लिए भाषा मॉडल को सीधे कैसे अनुकूलित किया जाए, बिना स्पष्ट पुरस्कार मॉडलिंग या सुदृढीकरण सीखने के। हम प्रत्यक्ष वरीयता अनुकूलन (DPO) का प्रस्ताव करते हैं, एक एल्गोरिथ्म जो मौजूदा RLHF एल्गोरिदम (KL-विचलन बाधा के साथ पुरस्कार अधिकतमकरण) के समान उद्देश्य को निहित रूप से अनुकूलित करता है, लेकिन इसे लागू करना सरल है और प्रशिक्षित करना सीधा है। सहज रूप से, DPO अपडेट पसंदीदा से नापसंद प्रतिक्रियाओं की सापेक्ष लॉग संभावना को बढ़ाता है, लेकिन इसमें एक गतिशील, प्रति-उदाहरण महत्व भार शामिल होता है जो मॉडल के पतन को रोकता है जो हमें एक सरल संभावना अनुपात उद्देश्य के साथ होता है। मौजूदा एल्गोरिदम की तरह, DPO एक सैद्धांतिक वरीयता मॉडल (जैसे ब्रैडली-टेरी मॉडल; [5]) पर निर्भर करता है जो मापता है कि दिया गया इनाम फ़ंक्शन अनुभवजन्य वरीयता डेटा के साथ कितनी अच्छी तरह से संरेखित होता है। हालाँकि, जबकि मौजूदा विधियाँ वरीयता मॉडल का उपयोग एक पुरस्कार मॉडल को प्रशिक्षित करने के लिए वरीयता हानि को परिभाषित करने के लिए करती हैं और फिर एक नीति को प्रशिक्षित करती हैं जो सीखे गए पुरस्कार मॉडल को अनुकूलित करती है, DPO वरीयता हानि को सीधे नीति के एक फ़ंक्शन के रूप में परिभाषित करने के लिए चर के परिवर्तन का उपयोग करता है। मॉडल प्रतिक्रियाओं पर मानव वरीयताओं के एक डेटासेट को देखते हुए, डीपीओ एक सरल बाइनरी क्रॉस एन्ट्रॉपी उद्देश्य का उपयोग करके एक नीति को अनुकूलित कर सकता है, जिससे वरीयता डेटा के लिए एक अंतर्निहित इनाम फ़ंक्शन फिट के लिए इष्टतम नीति का उत्पादन होता है।


हमारा मुख्य योगदान डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) है, जो वरीयताओं से भाषा मॉडल को प्रशिक्षित करने के लिए एक सरल RL-मुक्त एल्गोरिदम है। हमारे प्रयोगों से पता चलता है कि DPO कम से कम मौजूदा तरीकों की तरह ही प्रभावी है, जिसमें PPO-आधारित RLHF शामिल है, जो 6B मापदंडों वाले भाषा मॉडल का उपयोग करके भावना मॉड्यूलेशन, सारांशीकरण और संवाद जैसे कार्यों में वरीयताओं से सीखने के लिए है।