लेखक:
(1) राफेल राफेलो, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(2) अर्चित शर्मा, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(3) एरिक मिशेल, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;
(4) स्टेफानो एर्मन, सीजेड बायोहब;
(5) क्रिस्टोफर डी. मैनिंग, स्टैनफोर्ड विश्वविद्यालय;
(6) चेल्सी फिन, स्टैनफोर्ड विश्वविद्यालय।
5 डीपीओ का सैद्धांतिक विश्लेषण
एक गणितीय व्युत्पत्ति
A.1 KL-प्रतिबंधित पुरस्कार अधिकतमीकरण उद्देश्य का इष्टतम परिणाम प्राप्त करना
A.2 ब्रैडली-टेरी मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना
A.3 प्लैकेट-लूस मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना
A.4 डीपीओ उद्देश्य का ग्रेडिएंट निकालना और A.5 लेम्मा 1 और 2 का प्रमाण
बी डीपीओ कार्यान्वयन विवरण और हाइपरपैरामीटर
C प्रायोगिक सेट-अप और C.1 IMDb सेंटीमेंट प्रयोग और बेसलाइन विवरण पर आगे की जानकारी
C.2 संक्षेपण और संवाद जीत दरों की गणना के लिए GPT-4 संकेत
डी अतिरिक्त अनुभवजन्य परिणाम
D.1 विभिन्न N और D.2 नमूना प्रतिक्रियाओं और GPT-4 निर्णय के लिए N बेसलाइन का सर्वश्रेष्ठ प्रदर्शन
जबकि बड़े पैमाने पर अपर्यवेक्षित भाषा मॉडल (एलएम) व्यापक विश्व ज्ञान और कुछ तर्क कौशल सीखते हैं, उनके प्रशिक्षण की पूरी तरह से अपर्यवेक्षित प्रकृति के कारण उनके व्यवहार पर सटीक नियंत्रण प्राप्त करना मुश्किल है। ऐसी संचालन क्षमता प्राप्त करने के लिए मौजूदा तरीके मॉडल पीढ़ियों की सापेक्ष गुणवत्ता के मानव लेबल एकत्र करते हैं और इन प्राथमिकताओं के साथ संरेखित करने के लिए अपर्यवेक्षित एलएम को ठीक करते हैं, अक्सर मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने के साथ। हालांकि, आरएलएचएफ एक जटिल और अक्सर अस्थिर प्रक्रिया है, पहले एक इनाम मॉडल को फिट करना जो मानव प्राथमिकताओं को दर्शाता है, और फिर मूल मॉडल से बहुत दूर जाने के बिना इस अनुमानित इनाम को अधिकतम करने के लिए सुदृढीकरण सीखने का उपयोग करके बड़े अपर्यवेक्षित एलएम को ठीक करना। इस पत्र में हम आरएलएचएफ में इनाम मॉडल का एक नया पैरामीटराइजेशन पेश करते हैं जो बंद रूप में संबंधित इष्टतम नीति के निष्कर्षण को सक्षम करता है, जिससे हम केवल एक साधारण वर्गीकरण हानि के साथ मानक आरएलएचएफ समस्या को हल कर सकते हैं। परिणामी एल्गोरिथ्म, जिसे हम डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) कहते हैं, स्थिर, प्रदर्शनकारी और कम्प्यूटेशनली हल्का है, जो फ़ाइन-ट्यूनिंग या महत्वपूर्ण हाइपरपैरामीटर ट्यूनिंग के दौरान LM से सैंपलिंग की आवश्यकता को समाप्त करता है। हमारे प्रयोगों से पता चलता है कि DPO LM को मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए फ़ाइन-ट्यून कर सकता है और साथ ही मौजूदा तरीकों से भी बेहतर कर सकता है। उल्लेखनीय रूप से, DPO के साथ फ़ाइन-ट्यूनिंग पीढ़ियों की भावना को नियंत्रित करने की क्षमता में PPO-आधारित RLHF से आगे निकल जाती है, और सारांश और सिंगल-टर्न डायलॉग में प्रतिक्रिया की गुणवत्ता से मेल खाती है या उसे बेहतर बनाती है, जबकि इसे लागू करना और प्रशिक्षित करना काफी सरल है।
बहुत बड़े डेटासेट पर प्रशिक्षित बड़े अपर्यवेक्षित भाषा मॉडल (एलएम) आश्चर्यजनक क्षमताएं हासिल करते हैं [11, 7, 40, 8]। हालांकि, इन मॉडलों को विभिन्न प्रकार के लक्ष्यों, प्राथमिकताओं और कौशल के साथ मनुष्यों द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जाता है। इनमें से कुछ लक्ष्य और कौशल की नकल करना वांछनीय नहीं हो सकता है; उदाहरण के लिए, जबकि हम चाहते हैं कि हमारा एआई कोडिंग सहायक सामान्य प्रोग्रामिंग गलतियों को समझे ताकि उन्हें ठीक किया जा सके, फिर भी, कोड बनाते समय, हम अपने मॉडल को उसके प्रशिक्षण डेटा में मौजूद (संभावित रूप से दुर्लभ) उच्च-गुणवत्ता वाली कोडिंग क्षमता की ओर झुकाव देना चाहेंगे। इसी तरह, हम चाहते हैं कि हमारा भाषा मॉडल 50% लोगों द्वारा मानी जाने वाली एक आम गलत धारणा से अवगत हो, लेकिन हम निश्चित रूप से नहीं चाहते कि मॉडल इस गलत धारणा को इसके बारे में 50% प्रश्नों में सच होने का दावा करे! जबकि मौजूदा विधियां आमतौर पर सुदृढीकरण सीखने (आरएल) का उपयोग करके मानव प्राथमिकताओं से मेल खाने के लिए एलएम को संचालित करती हैं,
हम दिखाएंगे कि मौजूदा तरीकों द्वारा उपयोग किए जाने वाले आरएल-आधारित उद्देश्य को एक सरल बाइनरी क्रॉस-एन्ट्रॉपी उद्देश्य के साथ बिल्कुल अनुकूलित किया जा सकता है, जिससे वरीयता सीखने की पाइपलाइन बहुत सरल हो जाती है।
उच्च स्तर पर, मौजूदा विधियाँ मानव वरीयताओं के क्यूरेटेड सेटों का उपयोग करके भाषा मॉडल में वांछित व्यवहारों को स्थापित करती हैं जो मनुष्यों को सुरक्षित और सहायक लगने वाले व्यवहारों के प्रकारों का प्रतिनिधित्व करती हैं। यह वरीयता सीखने का चरण एक बड़े टेक्स्ट डेटासेट पर बड़े पैमाने पर अप्रशिक्षित पूर्व-प्रशिक्षण के प्रारंभिक चरण के बाद होता है। जबकि वरीयता सीखने का सबसे सीधा तरीका उच्च गुणवत्ता वाली प्रतिक्रियाओं के मानव प्रदर्शनों पर पर्यवेक्षित फ़ाइन-ट्यूनिंग है, विधियों का सबसे सफल वर्ग मानव (या AI) फ़ीडबैक (RLHF/RLAIF; [12, 2]) से सुदृढीकरण सीखना है। RLHF विधियाँ मानव वरीयताओं के डेटासेट में एक इनाम मॉडल फिट करती हैं और फिर मूल मॉडल से अत्यधिक दूर जाने के बिना उच्च इनाम दिए गए प्रतिक्रियाओं का उत्पादन करने के लिए भाषा मॉडल नीति को अनुकूलित करने के लिए RL का उपयोग करती हैं।
इस पत्र में, हम दिखाते हैं कि मानवीय प्राथमिकताओं का पालन करने के लिए भाषा मॉडल को सीधे कैसे अनुकूलित किया जाए, बिना स्पष्ट पुरस्कार मॉडलिंग या सुदृढीकरण सीखने के। हम प्रत्यक्ष वरीयता अनुकूलन (DPO) का प्रस्ताव करते हैं, एक एल्गोरिथ्म जो मौजूदा RLHF एल्गोरिदम (KL-विचलन बाधा के साथ पुरस्कार अधिकतमकरण) के समान उद्देश्य को निहित रूप से अनुकूलित करता है, लेकिन इसे लागू करना सरल है और प्रशिक्षित करना सीधा है। सहज रूप से, DPO अपडेट पसंदीदा से नापसंद प्रतिक्रियाओं की सापेक्ष लॉग संभावना को बढ़ाता है, लेकिन इसमें एक गतिशील, प्रति-उदाहरण महत्व भार शामिल होता है जो मॉडल के पतन को रोकता है जो हमें एक सरल संभावना अनुपात उद्देश्य के साथ होता है। मौजूदा एल्गोरिदम की तरह, DPO एक सैद्धांतिक वरीयता मॉडल (जैसे ब्रैडली-टेरी मॉडल; [5]) पर निर्भर करता है जो मापता है कि दिया गया इनाम फ़ंक्शन अनुभवजन्य वरीयता डेटा के साथ कितनी अच्छी तरह से संरेखित होता है। हालाँकि, जबकि मौजूदा विधियाँ वरीयता मॉडल का उपयोग एक पुरस्कार मॉडल को प्रशिक्षित करने के लिए वरीयता हानि को परिभाषित करने के लिए करती हैं और फिर एक नीति को प्रशिक्षित करती हैं जो सीखे गए पुरस्कार मॉडल को अनुकूलित करती है, DPO वरीयता हानि को सीधे नीति के एक फ़ंक्शन के रूप में परिभाषित करने के लिए चर के परिवर्तन का उपयोग करता है। मॉडल प्रतिक्रियाओं पर मानव वरीयताओं के एक डेटासेट को देखते हुए, डीपीओ एक सरल बाइनरी क्रॉस एन्ट्रॉपी उद्देश्य का उपयोग करके एक नीति को अनुकूलित कर सकता है, जिससे वरीयता डेटा के लिए एक अंतर्निहित इनाम फ़ंक्शन फिट के लिए इष्टतम नीति का उत्पादन होता है।
हमारा मुख्य योगदान डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) है, जो वरीयताओं से भाषा मॉडल को प्रशिक्षित करने के लिए एक सरल RL-मुक्त एल्गोरिदम है। हमारे प्रयोगों से पता चलता है कि DPO कम से कम मौजूदा तरीकों की तरह ही प्रभावी है, जिसमें PPO-आधारित RLHF शामिल है, जो 6B मापदंडों वाले भाषा मॉडल का उपयोग करके भावना मॉड्यूलेशन, सारांशीकरण और संवाद जैसे कार्यों में वरीयताओं से सीखने के लिए है।