लेखक:
(1) सव्वास पेट्रिडिस, गूगल रिसर्च, न्यूयॉर्क, न्यूयॉर्क, यूएसए;
(2) बेन वेडिन, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;
(3) जेम्स वेक्सलर, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;
(4) आरोन डोंसबैक, गूगल रिसर्च, सिएटल, वाशिंगटन, यूएसए;
(5) महिमा पुष्करणा, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए;
(6) नितेश गोयल, गूगल रिसर्च, न्यूयॉर्क, न्यूयॉर्क, यूएसए;
(7) कैरी जे कै, गूगल रिसर्च, माउंटेन व्यू, कैलिफ़ोर्निया, यूएसए;
(8) माइकल टेरी, गूगल रिसर्च, कैम्ब्रिज, मैसाचुसेट्स, यूएसए।
लार्ज लैंग्वेज मॉडल (एलएलएम) प्रॉम्प्टिंग उपयोगकर्ताओं के लिए अपने स्वयं के चैटबॉट बनाने और अनुकूलित करने का एक आशाजनक नया दृष्टिकोण है। हालाँकि, चैटबॉट के आउटपुट को संचालित करने के मौजूदा तरीके, जैसे प्रॉम्प्ट इंजीनियरिंग और फाइन-ट्यूनिंग, उपयोगकर्ताओं को मॉडल के आउटपुट पर उनके प्राकृतिक फीडबैक को प्रॉम्प्ट या मॉडल में बदलाव में परिवर्तित करने में सहायता नहीं करते हैं। इस काम में, हम यह पता लगाते हैं कि कैसे उपयोगकर्ताओं को अपने फीडबैक के माध्यम से मॉडल आउटपुट को इंटरैक्टिव रूप से परिष्कृत करने में सक्षम बनाया जाए, जिससे उन्हें अपने फीडबैक को सिद्धांतों के एक सेट (यानी एक संविधान) में परिवर्तित करने में मदद मिल सके जो मॉडल के व्यवहार को निर्देशित करता है। एक प्रारंभिक अध्ययन से, हमने (1) पाया कि उपयोगकर्ताओं को चैटबॉट के लिए अपनी प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए समर्थन की आवश्यकता है और (2) उपयोगकर्ताओं द्वारा वांछित विभिन्न सिद्धांत प्रकारों को वर्गीकृत किया गया है। इन निष्कर्षों से प्रेरित होकर, हमने कॉन्स्टिट्यूशनमेकर विकसित किया, जो एलएलएम-आधारित चैटबॉट्स को चलाने के लिए उपयोगकर्ता प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए एक इंटरैक्टिव टूल है। कॉन्स्टिट्यूशनमेकर के साथ, उपयोगकर्ता प्राकृतिक भाषा में सकारात्मक या नकारात्मक प्रतिक्रिया प्रदान कर सकते हैं, ऑटो-जनरेटेड फीडबैक का चयन कर सकते हैं, या चैटबॉट की प्रतिक्रिया को फिर से लिख सकते हैं; फीडबैक का प्रत्येक तरीका स्वचालित रूप से एक सिद्धांत उत्पन्न करता है जिसे चैटबॉट के प्रॉम्प्ट में डाला जाता है। 14 प्रतिभागियों के साथ एक उपयोगकर्ता अध्ययन में, हमने कॉन्स्टिट्यूशनमेकर की तुलना एक संक्षिप्त संस्करण से की, जहां उपयोगकर्ता अपने स्वयं के सिद्धांत लिखते हैं। कॉन्स्टिट्यूशनमेकर के साथ, प्रतिभागियों ने महसूस किया कि उनके सिद्धांत चैटबॉट को बेहतर मार्गदर्शन कर सकते हैं, कि वे अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में बदल सकते हैं, और वे कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिख सकते हैं। कॉन्स्टिट्यूशनमेकर ने उपयोगकर्ताओं को चैटबॉट को बेहतर बनाने के तरीकों की पहचान करने, मॉडल के प्रति उनकी सहज प्रतिक्रियाओं को फीडबैक में बदलने और इस फीडबैक को विशिष्ट और स्पष्ट सिद्धांतों में बदलने में मदद की। साथ में, ये निष्कर्ष भविष्य के टूल को सूचित करते हैं जो एलएलएम आउटपुट की इंटरैक्टिव आलोचना का समर्थन करते हैं।
• मानव-केंद्रित कंप्यूटिंग → एचसीआई में अनुभवजन्य अध्ययन; इंटरएक्टिव सिस्टम और उपकरण; • कंप्यूटिंग पद्धतियाँ → मशीन लर्निंग।
बड़े भाषा मॉडल, संवादी एआई, इंटरएक्टिव आलोचना
बड़े भाषा मॉडल (एलएलएम) को रचनात्मक लेखन सहायता [8, 26, 36, 44] से लेकर कोड संश्लेषण [13, 14, 20] तक की समस्याओं की एक विस्तृत श्रृंखला पर लागू किया जा सकता है। उपयोगकर्ता वर्तमान में इन मॉडलों को त्वरित इंजीनियरिंग [4], पैरामीटर-कुशल ट्यूनिंग [19] और फाइन-ट्यूनिंग [10] जैसी रणनीतियों के माध्यम से विशिष्ट कार्यों के लिए अनुकूलित करते हैं।
एलएलएम को अनुकूलित करने के इन सामान्य तरीकों के अलावा, हाल के काम से पता चला है कि उपयोगकर्ता इन मॉडलों को सीधे प्राकृतिक भाषा फीडबैक (चित्रा 2 ए) के साथ संचालित करना चाहेंगे। अधिक विशेष रूप से, कुछ उपयोगकर्ता यह निर्दिष्ट करने के लिए मॉडल के आउटपुट की आलोचना करने में सक्षम होना चाहते हैं कि वे कैसे भिन्न होने चाहिए [5]। हम इस अनुकूलन रणनीति को इंटरैक्टिव आलोचना कहते हैं।
चैटजीपीटी[1] [28] या बार्ड[2] जैसे चैटबॉट के साथ बातचीत करते समय, इंटरैक्टिव आलोचना अक्सर आलोचना के अनुरूप चैटबॉट की बाद की प्रतिक्रियाओं को बदल देगी। हालाँकि, ये परिवर्तन स्थायी नहीं हैं: उपयोगकर्ताओं को मॉडल के साथ प्रत्येक नए इंटरैक्शन के दौरान इन निर्देशों को दोहराना होगा। उपयोगकर्ताओं को यह भी पता होना चाहिए कि वे वास्तव में इस तरह से मॉडल के व्यवहार को बदल सकते हैं, और उन्हें अपनी आलोचना इस तरह से तैयार करनी चाहिए जिससे मॉडल की भविष्य की प्रतिक्रियाओं में बदलाव की संभावना हो। अनुकूलन के इस तरीके के संभावित मूल्य को देखते हुए, उपयोगकर्ताओं को प्राकृतिक भाषा आलोचना के माध्यम से एलएलएम को अनुकूलित करने के लिए सशक्त बनाने के लिए प्रथम श्रेणी का समर्थन प्रदान करने का अवसर है।
मॉडल अनुकूलन के संदर्भ में, संवैधानिक एआई [1] प्राकृतिक भाषा सिद्धांतों को शामिल करते हुए एक विशिष्ट अनुकूलन रणनीति प्रदान करता है। एक सिद्धांत को एक नियम के रूप में सोचा जा सकता है जिसका भाषा मॉडल को पालन करना चाहिए, जैसे, "हानिकारक, लिंगवादी या नस्लवादी सामग्री न बनाएं"। सिद्धांतों के एक सेट को देखते हुए, एक संवैधानिक एआई प्रणाली 1) सिद्धांतों का उल्लंघन करने वाले मॉडल प्रतिक्रियाओं को फिर से लिखेगी और 2) फिर से लिखी गई प्रतिक्रियाओं के साथ मॉडल को ठीक करेगी। इंटरैक्टिव आलोचना की धारणा पर लौटते हुए, कोई उपयोगकर्ताओं की आलोचनाओं से नए या परिष्कृत संवैधानिक एआई सिद्धांतों को प्राप्त करने की कल्पना कर सकता है। इन व्युत्पन्न सिद्धांतों का उपयोग एलएलएम के प्रॉम्प्ट (चित्रा 2बी) को बदलने या नए प्रशिक्षण डेटा उत्पन्न करने के लिए किया जा सकता है, जैसा कि मूल संवैधानिक एआई कार्य में है।
हालांकि इस हालिया कार्य से पता चला है कि एलएलएम को अनुकूलित करने के लिए सिद्धांत एक समझाने योग्य और प्रभावी रणनीति हो सकते हैं, हमारी प्रतिक्रिया से इन सिद्धांतों को लिखने की मानवीय प्रक्रियाओं के बारे में बहुत कम जानकारी है। एक रचनात्मक अध्ययन से, हमने पाया कि आलोचनाओं को सिद्धांतों में परिवर्तित करने में कई संज्ञानात्मक चुनौतियाँ शामिल हैं। इन चुनौतियों का समाधान करने के लिए, हम कॉन्स्टिट्यूशनमेकर प्रस्तुत करते हैं, एक इंटरैक्टिव आलोचना प्रणाली जो उपयोगकर्ताओं की मॉडल आलोचनाओं को सिद्धांतों में बदल देती है जो मॉडल के व्यवहार को परिष्कृत करती है। कॉन्स्टिट्यूशनमेकर प्रत्येक वार्तालाप मोड़ पर तीन उम्मीदवार प्रतिक्रियाएँ उत्पन्न करता है। इन तीन उम्मीदवार प्रतिक्रियाओं के अलावा, कॉन्स्टिट्यूशनमेकर तीन सिद्धांत-उत्प्रेरण सुविधाएँ प्रदान करता है: 1) यश, जहां उपयोगकर्ता प्रतिक्रिया के लिए सकारात्मक प्रतिक्रिया दे सकते हैं, 2) आलोचना, जहां उपयोगकर्ता प्रतिक्रिया के लिए नकारात्मक प्रतिक्रिया दे सकते हैं, और 3) पुनर्लेखन, जहां उपयोगकर्ता किसी दी गई प्रतिक्रिया को फिर से लिख सकते हैं। इस फीडबैक से, कॉन्स्टिट्यूशनमेकर एक सिद्धांत का अनुमान लगाता है, जिसे चैटबॉट के प्रॉम्प्ट में शामिल किया गया है।
यह मूल्यांकन करने के लिए कि कॉन्स्टिट्यूशनमेकर उपयोगकर्ताओं को सिद्धांतों को लिखने में कितनी अच्छी तरह मदद करता है, हमने प्रॉम्प्टिंग से परिचित 14 उद्योग पेशेवरों के साथ विषयों के भीतर एक उपयोगकर्ता अध्ययन किया। प्रतिभागियों ने कॉन्स्टिट्यूशनमेकर और एक संक्षिप्त संस्करण का उपयोग किया जिसमें कई उम्मीदवारों की प्रतिक्रियाओं और सिद्धांत-उत्प्रेरण सुविधाओं का अभाव था। दोनों ही मामलों में, उनका लक्ष्य दो चैटबॉट्स को अनुकूलित करने के लिए सिद्धांत लिखना था। अध्ययन से, हमने पाया कि दो अलग-अलग संस्करणों से बहुत अलग वर्कफ़्लो उत्पन्न हुए। पृथक संस्करण के साथ, प्रतिभागियों ने केवल तभी सिद्धांत लिखे जब बॉट उनकी अपेक्षाओं से काफी विचलित हो गया, जिसके परिणामस्वरूप कुल मिलाकर काफी कम सिद्धांत लिखे गए। इसके विपरीत, संविधान निर्माता की स्थिति में, प्रतिभागी एक वर्कफ़्लो में लगे हुए थे जहाँ उन्होंने कई उम्मीदवारों की प्रतिक्रियाओं को स्कैन किया और उनकी पसंदीदा प्रतिक्रिया को यश दिया, जिससे समग्र रूप से अधिक सिद्धांत सामने आए। इन विभिन्न वर्कफ़्लोज़ ने लेखन सिद्धांतों में स्थिति-विशिष्ट चुनौतियाँ भी उत्पन्न कीं। पृथक संस्करण के साथ, उपयोगकर्ता अक्सर सिद्धांतों को कम निर्दिष्ट करेंगे; जबकि, संविधान निर्माता के साथ, उपयोगकर्ता कभी-कभी अपने सिद्धांतों को अधिक निर्दिष्ट करते हैं, हालांकि ऐसा कम ही होता है। अंततः, दोनों स्थितियाँ कभी-कभी ऐसे मुद्दे को जन्म देती हैं जहाँ दो या अधिक सिद्धांत एक-दूसरे के विरोध में होते हैं।
कुल मिलाकर, कॉन्स्टिट्यूशनमेकर के साथ, प्रतिभागियों ने महसूस किया कि उनके सिद्धांत चैटबॉट को बेहतर मार्गदर्शन कर सकते हैं, कि वे अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में बदल सकते हैं, और वे कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिख सकते हैं। कॉन्स्टिट्यूशनमेकर ने भी उनकी विचार प्रक्रियाओं का समर्थन किया क्योंकि उन्होंने प्रतिभागियों की मदद करके सिद्धांत लिखे थे 1) कई उम्मीदवारों की प्रतिक्रियाओं के माध्यम से उन तरीकों को पहचानना जिनसे प्रतिक्रियाएं बेहतर हो सकती हैं, 2) उनके अंतर्ज्ञान को मौखिक प्रतिक्रिया में परिवर्तित करें कि उन्हें प्रतिक्रिया क्यों पसंद या नापसंद है, और 3) इस प्रतिक्रिया को वाक्यांश दें एक विशिष्ट सिद्धांत के रूप में.
सामूहिक रूप से, यह कार्य निम्नलिखित योगदान देता है:
• चैटबॉट व्यवहार को संचालित करने के लिए प्रतिभागी किस प्रकार के सिद्धांतों को लिखना चाहते हैं, इसका एक वर्गीकरण।
• कॉन्स्टिट्यूशनमेकर का डिज़ाइन, चैटबॉट व्यवहार को संचालित करने के लिए उपयोगकर्ता प्रतिक्रिया को सिद्धांतों में परिवर्तित करने के लिए एक इंटरैक्टिव टूल। कॉन्स्टिट्यूशनमेकर ने तीन नवीन सिद्धांत अभिलक्षण विशेषताएं पेश की हैं: यश, आलोचना और पुनर्लेखन, जो प्रत्येक एक सिद्धांत उत्पन्न करते हैं जिसे चैटबॉट के प्रॉम्प्ट में डाला जाता है।
• 14-प्रतिभागी उपयोगकर्ता अध्ययन से निष्कर्ष, जहां प्रतिभागियों ने महसूस किया कि संविधान निर्माता ने उन्हें 1) ऐसे सिद्धांत लिखने में सक्षम बनाया जो चैटबॉट को बेहतर मार्गदर्शन करते हैं, 2) अपनी प्रतिक्रिया को अधिक आसानी से सिद्धांतों में परिवर्तित करते हैं, और 3) कम मानसिक मांग के साथ सिद्धांतों को अधिक कुशलता से लिखते हैं .
• हम वर्णन करते हैं कि कैसे संविधान निर्माता ने प्रतिभागियों की विचार प्रक्रियाओं का समर्थन किया, जिसमें उन्हें प्रतिक्रियाओं को बेहतर बनाने के तरीकों की पहचान करने, उनके अंतर्ज्ञान को प्राकृतिक भाषा प्रतिक्रिया में परिवर्तित करने और उनकी प्रतिक्रिया को विशिष्ट सिद्धांतों के रूप में व्यक्त करने में मदद करना शामिल है। हम यह भी वर्णन करते हैं कि कैसे दो प्रणालियों द्वारा सक्षम किए गए अलग-अलग वर्कफ़्लो ने सिद्धांतों और सिद्धांतों की सीमाओं को लिखने में विभिन्न चुनौतियों का सामना किया।
साथ में, ये निष्कर्ष इंटरैक्टिव आलोचना के माध्यम से एलएलएम आउटपुट को इंटरैक्टिव रूप से परिष्कृत करने के लिए भविष्य के टूल की जानकारी देते हैं।
[1] https://chat.openai.com/
[2] https://bard.google.com
यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।