लेखक:
(1) ज़ियाओफ़ेई सन, झेजियांग विश्वविद्यालय;
(2) ज़ियाओया ली, शैनन.एआई और बाइटडांस;
(3) शेंगयु झांग, झेजियांग विश्वविद्यालय;
(4) शुहे वांग, पेकिंग विश्वविद्यालय;
(5) फेई वू, झेजियांग विश्वविद्यालय;
(6) जिवेई ली, झेजियांग विश्वविद्यालय;
(7) तियानवेई झांग, नानयांग टेक्नोलॉजिकल यूनिवर्सिटी;
(8) गुओयिन वांग, शैनन.एआई और बाइटडांस।
भावना विश्लेषण के लिए एलएलएम वार्ता
भावना विश्लेषण (पैंग और ली, 2008; गो एट अल., 2009; मास एट अल., 2011ए; झांग और लियू, 2012; बैक्सीनेला एट अल., 2010; मेधात एट अल., 2014; बख्शी एट अल., 2016; झांग एट अल., 2018) एक कार्य है जिसका उद्देश्य किसी दिए गए पाठ की समग्र भावना ध्रुवता (जैसे, सकारात्मक, नकारात्मक, तटस्थ) को निर्धारित करना है। पहले के कार्यों ने अक्सर कार्य को दो-चरणीय समस्या के रूप में औपचारिक रूप दिया: (१) आरएनएन (सोचर एट अल., २०१३; कियान एट अल., २०१६; पेलेड एंड रीचर्ट, २०१७; वांग एट अल., २०१६बी; गुग्गिला एट अल., २०१६; वो और झांग, २०१५), सीएनएन (कल्चब्रेनर एट अल., २०१४; वांग एट अल., २०१६ए; गुआन एट अल., २०१६; यू और जियांग, २०१६; मिश्रा एट अल., २०१७), पूर्व प्रशिक्षित भाषा मॉडल (लिन एट अल., २०२१; सन एट अल., २०२१; फान और ओगुनबोना, २०२०; दाई एट अल., २०२१), आदि का उपयोग करके सुविधाएँ निकालना; और (2) पूर्व-परिभाषित भावनात्मक लेबल प्राप्त करने के लिए निकाले गए फीचर्स को क्लासिफायर में फीड करें।
हाल के वर्षों में, इन-कॉन्टेक्स्ट लर्निंग (ICL) ने बड़ी सफलता हासिल की है और NLP कार्यों के प्रतिमान को बदल दिया है। कई कार्य ICL को भावना विश्लेषण कार्य के अनुकूल बनाते हैं: किन एट अल. (2023b); सन एट अल. (2023a) भावना विश्लेषण कार्य पर चैटजीपीटी के प्रदर्शन को बेहतर बनाने के लिए रणनीतियों की एक श्रृंखला का प्रस्ताव करते हैं; फी एट अल. (2023) एक थ्रीहॉप रीजनिंग फ्रेमवर्क का प्रस्ताव करते हैं, जो निहित भावना विश्लेषण कार्य के लिए निहित पहलू, राय और अंततः भावना ध्रुवता को प्रेरित करता है; झांग एट अल. (2023d) पाते हैं कि LLM बाइनरी भावना वर्गीकरण कार्य पर संतोषजनक प्रदर्शन प्राप्त कर सकते हैं, लेकिन वे अधिक जटिल कार्यों (जैसे, बारीक भावना विश्लेषण) पर पर्यवेक्षित आधार रेखा से कम प्रदर्शन करते हैं, जिसके लिए गहन समझ या संरचित भावना जानकारी की आवश्यकता होती है।
बड़े भाषा मॉडल (एलएलएम) (वांग एट अल., 2022ए; झांग एट अल., 2023बी) स्व-पर्यवेक्षित शिक्षण तकनीकों के साथ बड़े पैमाने पर लेबल रहित टेक्स्ट कॉर्पोरा पर प्रशिक्षित मॉडल हैं। मॉडल आर्किटेक्चर के आधार पर, एलएलएम को तीन प्रकारों में वर्गीकृत किया जा सकता है: (1) एनकोडर-ओनली मॉडल, जिसमें एक टेक्स्ट एनकोडर होता है और इनपुट रिप्रेजेंटेशन उत्पन्न करता है, जैसे कि BERT (डेवलिन एट अल., 2018) और इसके वेरिएंट (लैन एट अल., 2019; लियू एट अल., 2019; सन एट अल., 2020; क्लार्क एट अल., 2020; फेंग एट अल., 2020; जोशी एट अल., 2020; सन एट अल., 2020, 2021); (2) डिकोडर-ओनली मॉडल, जिसमें एक डिकोडर होता है और जीपीटी-सीरीज़ मॉडल (रैडफ़ोर्ड एट अल., 2019; ब्राउन एट अल., 2020; केसकर एट अल., 2019; रैडफ़ोर्ड एट अल., 2019; चौधरी एट अल., 2022; ओयुयांग एट अल., 2022; झांग एट अल., 2022ए; स्को एट अल., 2022; ज़ेंग एट अल., 2022बी; टूव्रोन एट अल., 2023ए; पेंग एट अल., 2023; ओपनएआई, 2023) की तरह इनपुट टेक्स्ट के आधार पर टेक्स्ट जेनरेट करता है; और (3) एनकोडर-डिकोडर मॉडल, जिसमें एनकोडर-डिकोडर की एक जोड़ी होती है और इनपुट प्रतिनिधित्व पर सशर्त पाठ उत्पन्न करते हैं, जैसे कि टी 5 (रैफेल एट अल., 2020) और इसके वेरिएंट (लुईस एट अल., 2019; ज़ू एट अल., 2020)।
जीपीटी-३ (ब्राउन एट अल., २०२०) से शुरू करते हुए, एलएलएम ने उभरती हुई क्षमताएं दिखाई हैं (वेई एट अल., २०२२ए) और इनकॉन्टेक्स्ट लर्निंग (आईसीएल) के माध्यम से एनएलपी कार्यों को पूरा किया है, जहां एलएलएम बिना ग्रेडिएंट अपडेट के कुछ एनोटेट उदाहरणों के आधार पर लेबल-गहन पाठ उत्पन्न करते हैं। साहित्य में कई अध्ययन एनएलपी कार्यों पर आईसीएल प्रदर्शन में सुधार के लिए रणनीतियों का प्रस्ताव करते हैं। ली और लियांग (२०२१); शेवेलियर एट अल. (२०२३); म्यू एट अल. (२०२३) निरंतर स्थान में संकेतों को अनुकूलित करते हैं। लियू एट अल. (२०२१ए); वान एट अल. (२०२३); झांग एट अल. (२०२३ए) प्रदर्शन के रूप में एक परीक्षण इनपुट के निकटतम पड़ोसियों को पुनः प्राप्त करने के लिए ट्रेन सेट के माध्यम से खोज करते हैं। (2023) किसी कार्य को कुछ उप-कार्यों में विभाजित करें और उन्हें LLM-जनरेटेड रीजनिंग चेन पर आधारित अंतिम उत्तर की ओर चरण-दर-चरण हल करें। सन एट अल. (2023a); वांग एट अल. (2023) प्रॉम्प्टिंग के एक नए दौर का संचालन करके LLM के परिणामों को सत्यापित करने का प्रस्ताव करते हैं; लियू एट अल. (2021b); फेंग एट अल. (2023) प्राकृतिक भाषा ज्ञान कथनों को उत्पन्न करने और बाहरी ज्ञान कथनों को प्रॉम्प्ट में एकीकृत करने के लिए LLM का उपयोग करते हैं।
एलएलएम सहयोग में किसी दिए गए कार्य को हल करने के लिए कई एलएलएम एक साथ काम करते हैं। विशेष रूप से, कार्य को कई मध्यवर्ती कार्यों में विघटित किया जाता है, और प्रत्येक एलएलएम को एक मध्यवर्ती कार्य स्वतंत्र रूप से पूरा करने के लिए सौंपा जाता है। दिए गए कार्य को इन मध्यवर्ती परिणामों को एकीकृत या सारांशित करने के बाद हल किया जाता है। एलएलएम सहयोग दृष्टिकोण एलएलएम की क्षमताओं का फायदा उठा सकता है, जटिल कार्यों पर प्रदर्शन में सुधार कर सकता है और जटिल प्रणालियों का निर्माण करने में सक्षम हो सकता है। शिन एट अल। (2023); सुन एट अल। (2023a); गेरो एट अल। (2023); वांग और ली (2023); चेन एट अल। (2023b) सहायक कार्यों का निर्माण करते हैं (उदाहरण के लिए, प्रतिबिंब, सत्यापन कार्य) और सहायक कार्य के परिणाम का हवाला देते हुए मूल कार्य की प्रतिक्रिया को संशोधित करते हैं। तालेबिराड और नादिरी (2023); (2022); ज़ेंग एट अल. (2022a); चेन एट अल. (2023a); डू एट अल. (2023); लियांग एट अल. (2023) एक वाद-विवाद रणनीति का उपयोग करते हैं जिसमें कई अलग-अलग एलएलएम दिए गए कार्य के लिए अपनी प्रतिक्रियाएँ प्रस्तावित करते हैं और एक सामान्य अंतिम उत्तर प्राप्त होने तक कई बार बहस करते हैं। इसके अलावा, शेन एट अल. (2023); गाओ एट अल. (2023); जीई एट अल. (2023); झांग एट अल. (2023c); हाओ एट अल. (2023) एक एलएलएम को कार्य नियंत्रक के रूप में नियुक्त करते हैं, जो दिए गए कार्य के लिए एक योजना तैयार करता है, कार्यान्वयन के लिए विशेषज्ञ मॉडल का चयन करता है और मध्यवर्ती नियोजित कार्यों की प्रतिक्रियाओं का सारांश देता है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।