लेखक:
(1) आरव पटेल, एमिटी रीजनल हाई स्कूल – ईमेल: [email protected];
(2) पीटर ग्लोर, सेंटर फॉर कलेक्टिव इंटेलिजेंस, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी और संवाददाता लेखक – ईमेल: [email protected].
रैंडम फ़ॉरेस्ट रिग्रेशन मॉडल ने संभवतः सबसे अच्छा प्रदर्शन किया क्योंकि यह कई निर्णय वृक्षों की भविष्यवाणियों को मिलाकर काम करता है। यह इसकी सटीकता में सुधार करने और एक विशिष्ट वृक्ष पर ओवरफ़िटिंग को कम करने की अनुमति देता है, इस प्रकार बेहतर परिणाम देता है। रैंडम फ़ॉरेस्ट रिग्रेशन एल्गोरिदम में सांख्यिकीय रूप से महत्वपूर्ण R2 सहसंबंध 26.1% (p-मान <0.05) था, और इसका MAAE 13.4% कम था। ये परिणाम डेटा के अन्य स्रोतों (क्रैपेल एट अल., 2021) का उपयोग करके किए गए समान कार्य के अनुरूप हैं। उदाहरण के लिए, क्रैपेल एट अल. द्वारा एक पेपर ने मूलभूत डेटा (यानी, कंपनी के आस-पास के वित्तीय डेटा और सामान्य जानकारी) को एन्सेम्बल मशीन-लर्निंग एल्गोरिदम में फीड करके एक ESG भविष्यवाणी प्रणाली बनाई। उनके सबसे सटीक मॉडल को 54% का R2 सहसंबंध और 11.3% का MAAE प्राप्त हुआ। हालांकि प्रस्तावित एल्गोरिथ्म क्रैपेल एट अल के मॉडल के समान सहसंबंधित नहीं है, संभवतः इसलिए क्योंकि यह गुणात्मक डेटा का लाभ उठाता है, फिर भी यह ईएसजी के लिए एक प्रॉक्सी के रूप में सामाजिक भावना का उपयोग करने की व्यवहार्यता पर प्रकाश डालता है।
प्रस्तावित एल्गोरिदम ने उत्साहजनक परिणाम प्रदर्शित किए, जो ESG रेटिंग भविष्यवाणी में इसकी व्यवहार्यता को उजागर करता है। वर्तमान ESG मूल्यांकनकर्ताओं के विपरीत, जो स्व-प्रकट स्थिरता रिपोर्ट का उपयोग करके ESG निर्धारित करते हैं, प्रस्तावित एल्गोरिदम का डेटा-संचालित दृष्टिकोण अधिक समग्र और संतुलित मूल्यांकन की अनुमति देता है। सामाजिक भावना का उपयोग करने से अधिकारियों को यह मापने की भी अनुमति मिलती है कि लोग किन क्षेत्रों में कंपनी में सुधार चाहते हैं, जिससे परिवर्तन पर कार्रवाई पर ध्यान केंद्रित करने में मदद मिलती है। इसके अतिरिक्त, सिस्टम की वास्तुकला कम समय सीमा के भीतर स्कोर को अपडेट करने की अनुमति देती है। अंत में, अधिकारी एल्गोरिदम में इनपुट करके अतिरिक्त कीवर्ड का परीक्षण कर सकते हैं। ये विशेषताएँ सिस्टम की लचीलापन और पारंपरिक पद्धति पर लाभ को प्रदर्शित करती हैं।
हालाँकि, परिणामों की एक सीमा यह है कि इसका परीक्षण S&P 500 कंपनियों पर किया गया था। इसलिए, इस सूचकांक से नीचे की छोटी कंपनियों के लिए परिणाम आगे नहीं बढ़ सकते हैं। एक और सीमा सोशल नेटवर्क डेटा के भीतर गलत सूचना हो सकती है। जबकि इसे अन्य टिप्पणियों द्वारा कम किया जाना चाहिए, यह संभावित रूप से एल्गोरिदम की रेटिंग को बदल सकता है। इसके अतिरिक्त, फ्लेयर सेंटीमेंट एनालिसिस एल्गोरिदम कभी-कभी पोस्ट/आर्टिकल सेंटीमेंट को गलत तरीके से वर्गीकृत करता है, खासकर अगर पोस्ट/आर्टिकल में व्यंग्यात्मक रवैया हो। अंत में, इस शोध के लिए, कुछ भुगतान किए गए मूल API तक पहुँच उपलब्ध नहीं थी। परिणामस्वरूप, एकत्रित डेटा दर सीमित करने के कारण किसी कीवर्ड के लिए उपलब्ध सभी डेटा को शामिल नहीं कर सकता है।
जबकि एल्गोरिदम ने सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्रदर्शित किए हैं, भविष्य के शोध में सुधार की गुंजाइश है। इसमें से कुछ में अधिक डेटा एकत्र करना शामिल हो सकता है। यह S&P 500 से परे अधिक कंपनियों का विश्लेषण करके या अधिक कीवर्ड और ESG उप-विषयों के लिए डेटा एकत्र करके किया जा सकता है। यह प्रत्येक व्यक्तिगत कीवर्ड के लिए अधिक डेटापॉइंट एकत्र करने के लिए मूल API का उपयोग करके भी किया जा सकता है। इसके अतिरिक्त, मॉडल में अधिक डेटा स्रोतों को शामिल किया जा सकता है। यह अन्य सोशल नेटवर्क (यानी, रेडिट, ग्लासडोर) को शामिल करके या कंपनी की रिपोर्ट और सरकारी डेटाबेस से मात्रात्मक डेटा/आँकड़ों (यानी, बोर्ड के सदस्यों के रूप में महिलाओं का प्रतिशत, स्कोप 1 कार्बन उत्सर्जन की संख्या, आदि) को शामिल करके किया जा सकता है।
इसके अलावा, हाथ में मौजूद कार्य को बेहतर ढंग से फिट करने के लिए, NLP एल्गोरिदम को विशेष रूप से ESG के लिए बनाया जा सकता है। उदाहरण के लिए, जबकि वर्तमान विधि बहुत अधिक अप्रासंगिक डेटा को फ़िल्टर करती है, फिर भी कुछ असंबंधित डेटा पास हो जाता है। इसलिए, इसे हल करने के लिए, TF-IDF वेक्टराइजेशन का उपयोग करके टेक्स्ट के संबंधित निकायों की पहचान करने के लिए एक नए पर्यवेक्षित शिक्षण एल्गोरिदम को प्रशिक्षित किया जा सकता है। पहले से एकत्र किए गए डेटा को हैंडलेबल करके एल्गोरिदम को प्रशिक्षित किया जा सकता है। इसके अलावा, लॉन्ग-आर्टिकल/शॉर्ट-पोस्ट NLP एल्गोरिदम को और भी अनुकूलित किया जा सकता है। जबकि फ्लेयर पहले से ही संतोषजनक परिणाम दे सकता है, कुछ लेख गलत वर्गीकृत प्रतीत होते हैं, जो एल्गोरिदम के लिए त्रुटि का स्रोत हो सकता है। ESG वर्गीकरण के लिए विशेष रूप से तैयार किए गए सेंटीमेंट एनालिसिस एल्गोरिदम को बनाकर, लॉन्ग-आर्टिकल और शॉर्ट-पोस्ट NLP एल्गोरिदम की सटीकता को और बेहतर बनाया जा सकता है। यह या तो वज़न के साथ एक कस्टम ESG लेक्सिकॉन बनाकर या वर्गीकृत ESG डेटा के विरुद्ध एक नए NLP एल्गोरिदम को प्रशिक्षित करके किया जा सकता है।
अंत में, सुधार किए जाने वाला एक और क्षेत्र पोस्ट की विश्वसनीयता है: जबकि थोड़ी मात्रा में गलत सूचना से परिणामों में कोई खास बदलाव नहीं आएगा, फिर भी इस जोखिम को यथासंभव कम करना सबसे अच्छा है। सोशल नेटवर्क पर फर्जी खबरों की पहचान करने वाले साहित्य का एक बढ़ता हुआ समूह है। इसलिए, इन तरीकों का संभावित रूप से फर्जी पोस्ट/लेखों की पहचान करने के लिए इस्तेमाल किया जा सकता है (डी बीयर एट अल., 2020)। साथ ही, कंपनी फाइलिंग से "हार्ड" मात्रात्मक डेटा को एल्गोरिदम में जोड़ना एक अतिरिक्त सुरक्षा के रूप में इस्तेमाल किया जा सकता है। अंत में, एल्गोरिदम सुरक्षित आउटपुट प्राप्त करने के लिए दूसरों पर अधिक केंद्रीकृत/विश्वसनीय अभिनेताओं को प्राथमिकता दे सकता है।
कुल मिलाकर, यह शोध एक सामाजिक-नेटवर्क-आधारित ESG मूल्यांकन प्रणाली के लिए एक अवधारणा-सिद्धांत ढांचा प्रदान करता है। यह कार्य एक सामाजिक भावना ESG उत्पाद के लिए बैकएंड लॉजिक के रूप में काम कर सकता है जिसका उपयोग अंततः अधिकारियों द्वारा किया जा सकता है। जबकि प्रोटोटाइपिंग उद्देश्यों के लिए प्री-पैकेज्ड लाइब्रेरी का उपयोग किया गया था, भविष्य के कार्यों में, परियोजना के इन पहलुओं को अनुकूलित किया जा सकता है। मौजूदा ढाँचों के विपरीत जो स्व-रिपोर्ट की गई कंपनी फाइलिंग पर निर्भर करते हैं, प्रस्तावित मॉडल कंपनी के ESG सकारात्मक और नकारात्मक पहलुओं के बारे में अधिक संतुलित दृष्टिकोण रखते हैं। सामान्य तौर पर, यह एक ESG ग्राउंड ट्रुथ को समझने में मदद कर सकता है जो कंपनी के व्यवहारों को अधिक टिकाऊ बनाने के लिए बेहतर ढंग से प्रभावित कर सकता है।