लेखक:  (1) राफेल राफेलो, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;  (2) अर्चित शर्मा, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;  (3) एरिक मिशेल, स्टैनफोर्ड विश्वविद्यालय और समान योगदान; पहले सूचीबद्ध अधिक जूनियर लेखक;  (4) स्टेफानो एर्मन, सीजेड बायोहब;  (5) क्रिस्टोफर डी. मैनिंग, स्टैनफोर्ड विश्वविद्यालय;  (6) चेल्सी फिन, स्टैनफोर्ड विश्वविद्यालय।  लिंक की तालिका   सार और 1. परिचय   2। संबंधित कार्य   3 प्रारंभिक   4 प्रत्यक्ष वरीयता अनुकूलन   5 डीपीओ का सैद्धांतिक विश्लेषण   6 प्रयोग   7 चर्चा, आभार और संदर्भ   लेखक का योगदान  एक गणितीय व्युत्पत्ति   A.1 KL-प्रतिबंधित पुरस्कार अधिकतमीकरण उद्देश्य का इष्टतम परिणाम प्राप्त करना   A.2 ब्रैडली-टेरी मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना   A.3 प्लैकेट-लूस मॉडल के तहत डीपीओ उद्देश्य प्राप्त करना   A.4 डीपीओ उद्देश्य का ग्रेडिएंट निकालना और A.5 लेम्मा 1 और 2 का प्रमाण   A.6 प्रमेय 1 का प्रमाण   बी डीपीओ कार्यान्वयन विवरण और हाइपरपैरामीटर   C प्रायोगिक सेट-अप और C.1 IMDb सेंटीमेंट प्रयोग और बेसलाइन विवरण पर आगे की जानकारी   C.2 संक्षेपण और संवाद जीत दरों की गणना के लिए GPT-4 संकेत   C.3 असंभावना आधार रेखा  डी अतिरिक्त अनुभवजन्य परिणाम   D.1 विभिन्न N और D.2 नमूना प्रतिक्रियाओं और GPT-4 निर्णय के लिए N बेसलाइन का सर्वश्रेष्ठ प्रदर्शन   D.3 मानव अध्ययन विवरण  अमूर्त  जबकि बड़े पैमाने पर अपर्यवेक्षित भाषा मॉडल (एलएम) व्यापक विश्व ज्ञान और कुछ तर्क कौशल सीखते हैं, उनके प्रशिक्षण की पूरी तरह से अपर्यवेक्षित प्रकृति के कारण उनके व्यवहार पर सटीक नियंत्रण प्राप्त करना मुश्किल है। ऐसी संचालन क्षमता प्राप्त करने के लिए मौजूदा तरीके मॉडल पीढ़ियों की सापेक्ष गुणवत्ता के मानव लेबल एकत्र करते हैं और इन प्राथमिकताओं के साथ संरेखित करने के लिए अपर्यवेक्षित एलएम को ठीक करते हैं, अक्सर मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने के साथ। हालांकि, आरएलएचएफ एक जटिल और अक्सर अस्थिर प्रक्रिया है, पहले एक इनाम मॉडल को फिट करना जो मानव प्राथमिकताओं को दर्शाता है, और फिर मूल मॉडल से बहुत दूर जाने के बिना इस अनुमानित इनाम को अधिकतम करने के लिए सुदृढीकरण सीखने का उपयोग करके बड़े अपर्यवेक्षित एलएम को ठीक करना। इस पत्र में हम आरएलएचएफ में इनाम मॉडल का एक नया पैरामीटराइजेशन पेश करते हैं जो बंद रूप में संबंधित इष्टतम नीति के निष्कर्षण को सक्षम करता है, जिससे हम केवल एक साधारण वर्गीकरण हानि के साथ मानक आरएलएचएफ समस्या को हल कर सकते हैं। परिणामी एल्गोरिथ्म, जिसे हम डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) कहते हैं, स्थिर, प्रदर्शनकारी और कम्प्यूटेशनली हल्का है, जो फ़ाइन-ट्यूनिंग या महत्वपूर्ण हाइपरपैरामीटर ट्यूनिंग के दौरान LM से सैंपलिंग की आवश्यकता को समाप्त करता है। हमारे प्रयोगों से पता चलता है कि DPO LM को मानवीय प्राथमिकताओं के साथ संरेखित करने के लिए फ़ाइन-ट्यून कर सकता है और साथ ही मौजूदा तरीकों से भी बेहतर कर सकता है। उल्लेखनीय रूप से, DPO के साथ फ़ाइन-ट्यूनिंग पीढ़ियों की भावना को नियंत्रित करने की क्षमता में PPO-आधारित RLHF से आगे निकल जाती है, और सारांश और सिंगल-टर्न डायलॉग में प्रतिक्रिया की गुणवत्ता से मेल खाती है या उसे बेहतर बनाती है, जबकि इसे लागू करना और प्रशिक्षित करना काफी सरल है।  1 परिचय  बहुत बड़े डेटासेट पर प्रशिक्षित बड़े अपर्यवेक्षित भाषा मॉडल (एलएम) आश्चर्यजनक क्षमताएं हासिल करते हैं [11, 7, 40, 8]। हालांकि, इन मॉडलों को विभिन्न प्रकार के लक्ष्यों, प्राथमिकताओं और कौशल के साथ मनुष्यों द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जाता है। इनमें से कुछ लक्ष्य और कौशल की नकल करना वांछनीय नहीं हो सकता है; उदाहरण के लिए, जबकि हम चाहते हैं कि हमारा एआई कोडिंग सहायक सामान्य प्रोग्रामिंग गलतियों को समझे ताकि उन्हें ठीक किया जा सके, फिर भी, कोड बनाते समय, हम अपने मॉडल को उसके प्रशिक्षण डेटा में मौजूद (संभावित रूप से दुर्लभ) उच्च-गुणवत्ता वाली कोडिंग क्षमता की ओर झुकाव देना चाहेंगे। इसी तरह, हम चाहते हैं कि हमारा भाषा मॉडल 50% लोगों द्वारा मानी जाने वाली एक आम गलत धारणा से अवगत हो, लेकिन हम निश्चित रूप से नहीं चाहते कि मॉडल इस गलत धारणा को इसके बारे में 50% प्रश्नों में सच होने का दावा करे! जबकि मौजूदा विधियां आमतौर पर सुदृढीकरण सीखने (आरएल) का उपयोग करके मानव प्राथमिकताओं से मेल खाने के लिए एलएम को संचालित करती हैं,   हम दिखाएंगे कि मौजूदा तरीकों द्वारा उपयोग किए जाने वाले आरएल-आधारित उद्देश्य को एक सरल बाइनरी क्रॉस-एन्ट्रॉपी उद्देश्य के साथ बिल्कुल अनुकूलित किया जा सकता है, जिससे वरीयता सीखने की पाइपलाइन बहुत सरल हो जाती है।  उच्च स्तर पर, मौजूदा विधियाँ मानव वरीयताओं के क्यूरेटेड सेटों का उपयोग करके भाषा मॉडल में वांछित व्यवहारों को स्थापित करती हैं जो मनुष्यों को सुरक्षित और सहायक लगने वाले व्यवहारों के प्रकारों का प्रतिनिधित्व करती हैं। यह वरीयता सीखने का चरण एक बड़े टेक्स्ट डेटासेट पर बड़े पैमाने पर अप्रशिक्षित पूर्व-प्रशिक्षण के प्रारंभिक चरण के बाद होता है। जबकि वरीयता सीखने का सबसे सीधा तरीका उच्च गुणवत्ता वाली प्रतिक्रियाओं के मानव प्रदर्शनों पर पर्यवेक्षित फ़ाइन-ट्यूनिंग है, विधियों का सबसे सफल वर्ग मानव (या AI) फ़ीडबैक (RLHF/RLAIF; [12, 2]) से सुदृढीकरण सीखना है। RLHF विधियाँ मानव वरीयताओं के डेटासेट में एक इनाम मॉडल फिट करती हैं और फिर मूल मॉडल से अत्यधिक दूर जाने के बिना उच्च इनाम दिए गए प्रतिक्रियाओं का उत्पादन करने के लिए भाषा मॉडल नीति को अनुकूलित करने के लिए RL का उपयोग करती हैं।  इस पत्र में, हम दिखाते हैं कि मानवीय प्राथमिकताओं का पालन करने के लिए भाषा मॉडल को सीधे कैसे अनुकूलित किया जाए, बिना स्पष्ट पुरस्कार मॉडलिंग या सुदृढीकरण सीखने के। हम प्रत्यक्ष वरीयता अनुकूलन (DPO) का प्रस्ताव करते हैं, एक एल्गोरिथ्म जो मौजूदा RLHF एल्गोरिदम (KL-विचलन बाधा के साथ पुरस्कार अधिकतमकरण) के समान उद्देश्य को निहित रूप से अनुकूलित करता है, लेकिन इसे लागू करना सरल है और प्रशिक्षित करना सीधा है। सहज रूप से, DPO अपडेट पसंदीदा से नापसंद प्रतिक्रियाओं की सापेक्ष लॉग संभावना को बढ़ाता है, लेकिन इसमें एक गतिशील, प्रति-उदाहरण महत्व भार शामिल होता है जो मॉडल के पतन को रोकता है जो हमें एक सरल संभावना अनुपात उद्देश्य के साथ होता है। मौजूदा एल्गोरिदम की तरह, DPO एक सैद्धांतिक वरीयता मॉडल (जैसे ब्रैडली-टेरी मॉडल; [5]) पर निर्भर करता है जो मापता है कि दिया गया इनाम फ़ंक्शन अनुभवजन्य वरीयता डेटा के साथ कितनी अच्छी तरह से संरेखित होता है। हालाँकि, जबकि मौजूदा विधियाँ वरीयता मॉडल का उपयोग एक पुरस्कार मॉडल को प्रशिक्षित करने के लिए वरीयता हानि को परिभाषित करने के लिए करती हैं और फिर एक नीति को प्रशिक्षित करती हैं जो सीखे गए पुरस्कार मॉडल को अनुकूलित करती है, DPO वरीयता हानि को सीधे नीति के एक फ़ंक्शन के रूप में परिभाषित करने के लिए चर के परिवर्तन का उपयोग करता है। मॉडल प्रतिक्रियाओं पर मानव वरीयताओं के एक डेटासेट को देखते हुए, डीपीओ एक सरल बाइनरी क्रॉस एन्ट्रॉपी उद्देश्य का उपयोग करके एक नीति को अनुकूलित कर सकता है, जिससे वरीयता डेटा के लिए एक अंतर्निहित इनाम फ़ंक्शन फिट के लिए इष्टतम नीति का उत्पादन होता है।  हमारा मुख्य योगदान डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) है, जो वरीयताओं से भाषा मॉडल को प्रशिक्षित करने के लिए एक सरल RL-मुक्त एल्गोरिदम है। हमारे प्रयोगों से पता चलता है कि DPO कम से कम मौजूदा तरीकों की तरह ही प्रभावी है, जिसमें PPO-आधारित RLHF शामिल है, जो 6B मापदंडों वाले भाषा मॉडल का उपयोग करके भावना मॉड्यूलेशन, सारांशीकरण और संवाद जैसे कार्यों में वरीयताओं से सीखने के लिए है।  यह पेपर   है। arxiv पर CC BY-NC-ND 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

प्रत्यक्ष वरीयता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक पुरस्कार मॉडल है

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

He/Him/Master of Discovery

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

He/Him/Master of Discovery

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps