paint-brush
फीडबैक को सिद्धांतों में परिवर्तित करके बड़े भाषा मॉडलों की अंतःक्रियात्मक रूप से आलोचना करनाद्वारा@feedbackloop
749 रीडिंग
749 रीडिंग

फीडबैक को सिद्धांतों में परिवर्तित करके बड़े भाषा मॉडलों की अंतःक्रियात्मक रूप से आलोचना करना

द्वारा The FeedbackLoop: #1 in PM Education6m2024/01/23
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

डिस्कवर कॉन्स्टिट्यूशनमेकर, एक क्रांतिकारी उपकरण जो उपयोगकर्ता के फीडबैक को चैटबॉट अनुकूलन के सिद्धांतों में बदल देता है। इसकी अनूठी विशेषताओं-प्रशंसा, आलोचना और पुनर्लेखन-और बड़े भाषा मॉडल आउटपुट को परिष्कृत करने पर उनके प्रभाव का पता लगाएं। एक उपयोगकर्ता अध्ययन कॉन्स्टिट्यूशनमेकर के फायदों पर प्रकाश डालता है, जो उपयोगकर्ताओं को अधिक निर्देशित और कुशल प्रक्रिया प्रदान करता है। वांछित सिद्धांतों के वर्गीकरण को उजागर करें, मानव-केंद्रित एआई में भविष्य के उपकरणों और एलएलएम के लिए इंटरैक्टिव आलोचना का मार्ग प्रशस्त करें।
featured image - फीडबैक को सिद्धांतों में परिवर्तित करके बड़े भाषा मॉडलों की अंतःक्रियात्मक रूप से आलोचना करना
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

लेखक:

(1) सव्वास पेट्रिडिस, गूगल रिसर्च, न्यूयॉर्क, न्यूयॉर्क, यूएसए;

(2) बेन वेडिन, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;

(3) जेम्स वेक्सलर, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;

(4) आरोन डोंसबैक, गूगल रिसर्च, सिएटल, वाशिंगटन, यूएसए;

(5) महिमा पुष्करणा, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;

(6) नितेश गोयल, गूगल रिसर्च, न्यूयॉर्क, न्यूयॉर्क, यूएसए;

(7) कैरी जे कै, गूगल रिसर्च, माउंटेन व्यू, कैलिफ़ोर्निया, यूएसए;

(8) माइकल टेरी, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए।

लिंक की तालिका

सार एवं परिचय

संबंधित कार्य

रचनात्मक अध्ययन

संविधान निर्माता

कार्यान्वयन

उपयोगकर्ता अध्ययन

जाँच - परिणाम

बहस

निष्कर्ष एवं सन्दर्भ


चित्र 1: संविधान निर्माता का इंटरफ़ेस। सबसे पहले, उपयोगकर्ता उस चैटबॉट का नाम और वर्णन करें जिसे वे बनाना चाहते हैं (ए)। कॉन्स्टिट्यूशनमेकर एक डायलॉग प्रॉम्प्ट बनाता है, और उपयोगकर्ता तुरंत इस चैटबॉट (बी) के साथ बातचीत शुरू कर सकते हैं। प्रत्येक वार्तालाप मोड़ पर, उपयोगकर्ताओं को चैटबॉट द्वारा तीन उम्मीदवार प्रतिक्रियाएँ प्रस्तुत की जाती हैं, और प्रत्येक के लिए, प्रतिक्रिया देने के तीन तरीके होते हैं: (1) प्रशंसा, (2) आलोचना, और (3) पुनः लिखना। प्रत्येक फीडबैक पद्धति से एक सिद्धांत प्राप्त होता है, जो संविधान में (सी) में जोड़ा जाता है। सिद्धांत ऐसे नियम हैं जो संवाद संकेत में जुड़ जाते हैं। आउटपुट (डी) को यश देने में सकारात्मक प्रतिक्रिया प्रदान करना शामिल है, या तो तीन उत्पन्न सकारात्मक तर्कों में से एक का चयन करके या कस्टम सकारात्मक प्रतिक्रिया लिखकर। आलोचना करना (एफ) एक ही है लेकिन नकारात्मक प्रतिक्रिया प्रदान करना है। और अंत में, पुनर्लेखन (जी) में एक सिद्धांत उत्पन्न करने के लिए प्रतिक्रिया को संशोधित करना शामिल है।


अमूर्त

लार्ज लैंग्वेज मॉडल (एलएलएम) प्रॉम्प्टिंग उपयोगकर्ताओं के लिए अपने स्वयं के चैटबॉट बनाने और अनुकूलित करने का एक आशाजनक नया दृष्टिकोण है। हालाँकि, चैटबॉट के आउटपुट को संचालित करने के मौजूदा तरीके, जैसे प्रॉम्प्ट इंजीनियरिंग और फाइन-ट्यूनिंग, उपयोगकर्ताओं को मॉडल के आउटपुट पर उनके प्राकृतिक फीडबैक को प्रॉम्प्ट या मॉडल में बदलाव में परिवर्तित करने में सहायता नहीं करते हैं। इस काम में, हम यह पता लगाते हैं कि कैसे उपयोगकर्ताओं को अपने फीडबैक के माध्यम से मॉडल आउटपुट को इंटरैक्टिव रूप से परिष्कृत करने में सक्षम बनाया जाए, जिससे उन्हें अपने फीडबैक को सिद्धांतों के एक सेट (यानी एक संविधान) में परिवर्तित करने में मदद मिल सके जो मॉडल के व्यवहार को निर्देशित करता है। एक प्रारंभिक अध्ययन से, हमने (1) पाया कि उपयोगकर्ताओं को चैटबॉट के लिए अपनी प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए समर्थन की आवश्यकता है और (2) उपयोगकर्ताओं द्वारा वांछित विभिन्न सिद्धांत प्रकारों को वर्गीकृत किया गया है। इन निष्कर्षों से प्रेरित होकर, हमने कॉन्स्टिट्यूशनमेकर विकसित किया, जो एलएलएम-आधारित चैटबॉट्स को चलाने के लिए उपयोगकर्ता प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए एक इंटरैक्टिव टूल है। कॉन्स्टिट्यूशनमेकर के साथ, उपयोगकर्ता प्राकृतिक भाषा में सकारात्मक या नकारात्मक प्रतिक्रिया प्रदान कर सकते हैं, ऑटो-जनरेटेड फीडबैक का चयन कर सकते हैं, या चैटबॉट की प्रतिक्रिया को फिर से लिख सकते हैं; फीडबैक का प्रत्येक तरीका स्वचालित रूप से एक सिद्धांत उत्पन्न करता है जिसे चैटबॉट के प्रॉम्प्ट में डाला जाता है। 14 प्रतिभागियों के साथ एक उपयोगकर्ता अध्ययन में, हमने कॉन्स्टिट्यूशनमेकर की तुलना एक संक्षिप्त संस्करण से की, जहां उपयोगकर्ता अपने स्वयं के सिद्धांत लिखते हैं। कॉन्स्टिट्यूशनमेकर के साथ, प्रतिभागियों ने महसूस किया कि उनके सिद्धांत चैटबॉट को बेहतर मार्गदर्शन कर सकते हैं, कि वे अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में बदल सकते हैं, और वे कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिख सकते हैं। कॉन्स्टिट्यूशनमेकर ने उपयोगकर्ताओं को चैटबॉट को बेहतर बनाने के तरीकों की पहचान करने, मॉडल के प्रति उनकी सहज प्रतिक्रियाओं को फीडबैक में बदलने और इस फीडबैक को विशिष्ट और स्पष्ट सिद्धांतों में बदलने में मदद की। साथ में, ये निष्कर्ष भविष्य के टूल को सूचित करते हैं जो एलएलएम आउटपुट की इंटरैक्टिव आलोचना का समर्थन करते हैं।

सीसीएस अवधारणाएँ

• मानव-केंद्रित कंप्यूटिंग → एचसीआई में अनुभवजन्य अध्ययन; इंटरएक्टिव सिस्टम और उपकरण; • कंप्यूटिंग पद्धतियाँमशीन लर्निंग।

कीवर्ड

बड़े भाषा मॉडल, संवादी एआई, इंटरएक्टिव आलोचना

1 परिचय

बड़े भाषा मॉडल (एलएलएम) को रचनात्मक लेखन सहायता [8, 26, 36, 44] से लेकर कोड संश्लेषण [13, 14, 20] तक की समस्याओं की एक विस्तृत श्रृंखला पर लागू किया जा सकता है। उपयोगकर्ता वर्तमान में इन मॉडलों को त्वरित इंजीनियरिंग [4], पैरामीटर-कुशल ट्यूनिंग [19] और फाइन-ट्यूनिंग [10] जैसी रणनीतियों के माध्यम से विशिष्ट कार्यों के लिए अनुकूलित करते हैं।


एलएलएम को अनुकूलित करने के इन सामान्य तरीकों के अलावा, हाल के काम से पता चला है कि उपयोगकर्ता इन मॉडलों को सीधे प्राकृतिक भाषा फीडबैक (चित्रा 2 ए) के साथ संचालित करना चाहेंगे। अधिक विशेष रूप से, कुछ उपयोगकर्ता यह निर्दिष्ट करने के लिए मॉडल के आउटपुट की आलोचना करने में सक्षम होना चाहते हैं कि वे कैसे भिन्न होने चाहिए [5]। हम इस अनुकूलन रणनीति को इंटरैक्टिव आलोचना कहते हैं।


चैटजीपीटी[1] [28] या बार्ड[2] जैसे चैटबॉट के साथ बातचीत करते समय, इंटरैक्टिव आलोचना अक्सर आलोचना के अनुरूप चैटबॉट की बाद की प्रतिक्रियाओं को बदल देगी। हालाँकि, ये परिवर्तन स्थायी नहीं हैं: उपयोगकर्ताओं को मॉडल के साथ प्रत्येक नए इंटरैक्शन के दौरान इन निर्देशों को दोहराना होगा। उपयोगकर्ताओं को यह भी पता होना चाहिए कि वे वास्तव में इस तरह से मॉडल के व्यवहार को बदल सकते हैं, और उन्हें अपनी आलोचना इस तरह से तैयार करनी चाहिए जिससे मॉडल की भविष्य की प्रतिक्रियाओं में बदलाव की संभावना हो। अनुकूलन के इस तरीके के संभावित मूल्य को देखते हुए, उपयोगकर्ताओं को प्राकृतिक भाषा आलोचना के माध्यम से एलएलएम को अनुकूलित करने के लिए सशक्त बनाने के लिए प्रथम श्रेणी का समर्थन प्रदान करने का अवसर है।


मॉडल अनुकूलन के संदर्भ में, संवैधानिक एआई [1] प्राकृतिक भाषा सिद्धांतों को शामिल करते हुए एक विशिष्ट अनुकूलन रणनीति प्रदान करता है। एक सिद्धांत को एक नियम के रूप में सोचा जा सकता है जिसका भाषा मॉडल को पालन करना चाहिए, जैसे, "हानिकारक, लिंगवादी या नस्लवादी सामग्री न बनाएं"। सिद्धांतों के एक सेट को देखते हुए, एक संवैधानिक एआई प्रणाली 1) सिद्धांतों का उल्लंघन करने वाले मॉडल प्रतिक्रियाओं को फिर से लिखेगी और 2) फिर से लिखी गई प्रतिक्रियाओं के साथ मॉडल को ठीक करेगी। इंटरैक्टिव आलोचना की धारणा पर लौटते हुए, कोई उपयोगकर्ताओं की आलोचनाओं से नए या परिष्कृत संवैधानिक एआई सिद्धांतों को प्राप्त करने की कल्पना कर सकता है। इन व्युत्पन्न सिद्धांतों का उपयोग एलएलएम के प्रॉम्प्ट (चित्रा 2बी) को बदलने या नए प्रशिक्षण डेटा उत्पन्न करने के लिए किया जा सकता है, जैसा कि मूल संवैधानिक एआई कार्य में है।


हालांकि इस हालिया कार्य से पता चला है कि एलएलएम को अनुकूलित करने के लिए सिद्धांत एक समझाने योग्य और प्रभावी रणनीति हो सकते हैं, हमारी प्रतिक्रिया से इन सिद्धांतों को लिखने की मानवीय प्रक्रियाओं के बारे में बहुत कम जानकारी है। एक रचनात्मक अध्ययन से, हमने पाया कि आलोचनाओं को सिद्धांतों में परिवर्तित करने में कई संज्ञानात्मक चुनौतियाँ शामिल हैं। इन चुनौतियों का समाधान करने के लिए, हम कॉन्स्टिट्यूशनमेकर प्रस्तुत करते हैं, एक इंटरैक्टिव आलोचना प्रणाली जो उपयोगकर्ताओं की मॉडल आलोचनाओं को सिद्धांतों में बदल देती है जो मॉडल के व्यवहार को परिष्कृत करती है। कॉन्स्टिट्यूशनमेकर प्रत्येक वार्तालाप मोड़ पर तीन उम्मीदवार प्रतिक्रियाएँ उत्पन्न करता है। इन तीन उम्मीदवार प्रतिक्रियाओं के अलावा, कॉन्स्टिट्यूशनमेकर तीन सिद्धांत-उत्प्रेरण सुविधाएँ प्रदान करता है: 1) यश, जहां उपयोगकर्ता प्रतिक्रिया के लिए सकारात्मक प्रतिक्रिया दे सकते हैं, 2) आलोचना, जहां उपयोगकर्ता प्रतिक्रिया के लिए नकारात्मक प्रतिक्रिया दे सकते हैं, और 3) पुनर्लेखन, जहां उपयोगकर्ता किसी दी गई प्रतिक्रिया को फिर से लिख सकते हैं। इस फीडबैक से, कॉन्स्टिट्यूशनमेकर एक सिद्धांत का अनुमान लगाता है, जिसे चैटबॉट के प्रॉम्प्ट में शामिल किया गया है।


यह मूल्यांकन करने के लिए कि कॉन्स्टिट्यूशनमेकर उपयोगकर्ताओं को सिद्धांतों को लिखने में कितनी अच्छी तरह मदद करता है, हमने प्रॉम्प्टिंग से परिचित 14 उद्योग पेशेवरों के साथ विषयों के भीतर एक उपयोगकर्ता अध्ययन किया। प्रतिभागियों ने कॉन्स्टिट्यूशनमेकर और एक संक्षिप्त संस्करण का उपयोग किया जिसमें कई उम्मीदवारों की प्रतिक्रियाओं और सिद्धांत-उत्प्रेरण सुविधाओं का अभाव था। दोनों ही मामलों में, उनका लक्ष्य दो चैटबॉट्स को अनुकूलित करने के लिए सिद्धांत लिखना था। अध्ययन से, हमने पाया कि दो अलग-अलग संस्करणों से बहुत अलग वर्कफ़्लो उत्पन्न हुए। पृथक संस्करण के साथ, प्रतिभागियों ने केवल तभी सिद्धांत लिखे जब बॉट उनकी अपेक्षाओं से काफी विचलित हो गया, जिसके परिणामस्वरूप कुल मिलाकर काफी कम सिद्धांत लिखे गए। इसके विपरीत, संविधान निर्माता की स्थिति में, प्रतिभागी एक वर्कफ़्लो में लगे हुए थे जहाँ उन्होंने कई उम्मीदवारों की प्रतिक्रियाओं को स्कैन किया और उनकी पसंदीदा प्रतिक्रिया को यश दिया, जिससे समग्र रूप से अधिक सिद्धांत सामने आए। इन विभिन्न वर्कफ़्लोज़ ने लेखन सिद्धांतों में स्थिति-विशिष्ट चुनौतियाँ भी उत्पन्न कीं। पृथक संस्करण के साथ, उपयोगकर्ता अक्सर सिद्धांतों को कम निर्दिष्ट करेंगे; जबकि, संविधान निर्माता के साथ, उपयोगकर्ता कभी-कभी अपने सिद्धांतों को अधिक निर्दिष्ट करते हैं, हालांकि ऐसा कम ही होता है। अंततः, दोनों स्थितियाँ कभी-कभी ऐसे मुद्दे को जन्म देती हैं जहाँ दो या अधिक सिद्धांत एक-दूसरे के विरोध में होते हैं।


चित्र 2: इंटरैक्टिव आलोचना के माध्यम से एलएलएम चलाने का चित्रण। चैट-जीपीटी और बार्ड जैसे एलएलएम के साथ बातचीत में, उपयोगकर्ता एलएलएम को बेहतर आउटपुट की ओर ले जाने के लिए प्राकृतिक भाषा में प्रतिक्रिया प्रदान करते हैं, जैसा कि वे किसी अन्य व्यक्ति को देते हैं। इस उदाहरण में,


कुल मिलाकर, कॉन्स्टिट्यूशनमेकर के साथ, प्रतिभागियों ने महसूस किया कि उनके सिद्धांत चैटबॉट को बेहतर मार्गदर्शन कर सकते हैं, कि वे अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में बदल सकते हैं, और वे कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिख सकते हैं। कॉन्स्टिट्यूशनमेकर ने भी उनकी विचार प्रक्रियाओं का समर्थन किया क्योंकि उन्होंने प्रतिभागियों की मदद करके सिद्धांत लिखे थे 1) कई उम्मीदवारों की प्रतिक्रियाओं के माध्यम से उन तरीकों को पहचानना जिनसे प्रतिक्रियाएं बेहतर हो सकती हैं, 2) उनके अंतर्ज्ञान को मौखिक प्रतिक्रिया में परिवर्तित करें कि उन्हें प्रतिक्रिया क्यों पसंद या नापसंद है, और 3) इस प्रतिक्रिया को वाक्यांश दें एक विशिष्ट सिद्धांत के रूप में.


सामूहिक रूप से, यह कार्य निम्नलिखित योगदान देता है:


• चैटबॉट व्यवहार को संचालित करने के लिए प्रतिभागी किस प्रकार के सिद्धांतों को लिखना चाहते हैं, इसका एक वर्गीकरण।


• कॉन्स्टिट्यूशनमेकर का डिज़ाइन, चैटबॉट व्यवहार को संचालित करने के लिए उपयोगकर्ता प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए एक इंटरैक्टिव टूल। कॉन्स्टिट्यूशनमेकर ने तीन नवीन सिद्धांत अभिलक्षण विशेषताएं पेश की हैं: यश, आलोचना और पुनर्लेखन, जो प्रत्येक एक सिद्धांत उत्पन्न करते हैं जिसे चैटबॉट के प्रॉम्प्ट में डाला जाता है।


• 14-प्रतिभागी उपयोगकर्ता अध्ययन से निष्कर्ष, जहां प्रतिभागियों ने महसूस किया कि संविधान निर्माता ने उन्हें 1) ऐसे सिद्धांत लिखने में सक्षम बनाया जो चैटबॉट को बेहतर मार्गदर्शन करते हैं, 2) अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में परिवर्तित करते हैं, और 3) कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिखते हैं .


• हम वर्णन करते हैं कि कैसे संविधान निर्माता ने प्रतिभागियों की विचार प्रक्रियाओं का समर्थन किया, जिसमें उन्हें प्रतिक्रियाओं को बेहतर बनाने के तरीकों की पहचान करने, उनके अंतर्ज्ञान को प्राकृतिक भाषा प्रतिक्रिया में परिवर्तित करने और उनकी प्रतिक्रिया को विशिष्ट सिद्धांतों के रूप में व्यक्त करने में मदद करना शामिल है। हम यह भी वर्णन करते हैं कि कैसे दो प्रणालियों द्वारा सक्षम किए गए अलग-अलग वर्कफ़्लो ने सिद्धांतों और सिद्धांतों की सीमाओं को लिखने में विभिन्न चुनौतियों का सामना किया।


साथ में, ये निष्कर्ष इंटरैक्टिव आलोचना के माध्यम से एलएलएम आउटपुट को इंटरैक्टिव रूप से परिष्कृत करने के लिए भविष्य के टूल की जानकारी देते हैं।




[1] https://chat.openai.com/


[2] https://bard.google.com


यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।