लेखक:
(1) आरव पटेल, एमिटी रीजनल हाई स्कूल – ईमेल: [email protected];
(2) पीटर ग्लोर, सेंटर फॉर कलेक्टिव इंटेलिजेंस, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी और संवाददाता लेखक – ईमेल: [email protected].
इस परियोजना का निर्माण तीन चरणों में विभाजित किया गया था। पहला चरण विभिन्न सामाजिक नेटवर्क पर वेब स्क्रैपर्स के माध्यम से डेटा संग्रह था। इसके बाद, टेक्स्ट डेटा को प्री-प्रोसेस किया गया और नेचुरल लैंग्वेज प्रोसेसिंग का उपयोग करके उप-श्रेणी स्कोर में परिवर्तित किया गया। अंत में, एक सुसंगत ESG रेटिंग की गणना करने के लिए इस डेटा का उपयोग करके मशीन-लर्निंग एल्गोरिदम को प्रशिक्षित किया गया।
स्व-रिपोर्ट की गई कॉर्पोरेट फाइलिंग का उपयोग करने के बजाय, ESG को समग्र रूप से निर्धारित करने के लिए सोशल नेटवर्क डेटा का उपयोग किया गया। रुझानों की पहचान करने के लिए सोशल नेटवर्क विश्लेषण और वेब स्क्रैपिंग का उपयोग किया जा सकता है (ग्लोर एट अल., 2009)। ट्विटर, लिंक्डइन और गूगल न्यूज़ जैसे लोकप्रिय सोशल नेटवर्क में लगभग किसी भी विषय से संबंधित डेटा की भरमार है। यह डेटा कंपनी के ESG प्रथाओं का एक संतुलित दृष्टिकोण प्रदान कर सकता है, और यह अल्पकालिक और दीर्घकालिक कंपनी ESG रुझानों को कवर करने में मदद कर सकता है। यह ऐसे डेटा को भी इकट्ठा कर सकता है जो फाइलिंग में परिलक्षित नहीं हो सकते हैं। अंत में, यह डेटा सीधे बाहरी लोगों की चिंताओं को उजागर कर सकता है, जो कंपनी के ESG पहलों को अधिक प्रभावशाली बनाने के लिए बेहतर मार्गदर्शन कर सकता है।
ऐसा करने के लिए, ESG-प्रासंगिक कीवर्ड की एक व्यापक सूची बनाई गई (चित्र 3)। कीवर्ड की यह सूची वर्तमान ESG रेटिंग पद्धतियों में आमतौर पर उपयोग की जाने वाली उप-श्रेणियों से प्रेरित थी। इस सूची का उपयोग विकिपीडिया, लिंक्डइन, ट्विटर और गूगल समाचार से सार्वजनिक रूप से उपलब्ध कंपनी डेटा एकत्र करने में मदद करने के लिए किया गया था। डेटा एकत्र करने के लिए, पायथन में वेब स्क्रैपर्स विकसित किए गए थे। विकिपीडिया डेटा विकिपीडिया एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (API) का उपयोग करके एकत्र किया गया था। विकिपीडिया किसी कंपनी की प्रथाओं का सामान्य अवलोकन देने का काम करता है। Google खोज के आधार पर शीर्ष समाचार लेखों की पहचान करके Google समाचार डेटा एकत्र किया गया था। इन लेखों के लिंक संग्रहीत किए गए थे। समाचार उल्लेखनीय ESG विकास पर समग्र अपडेट देने का काम करता है। ट्विटर डेटा को स्नस्क्रैप लाइब्रेरी की मदद से एकत्र किया गया था। स्नस्क्रैप एक हल्का API है जो उपयोगकर्ताओं को लगभग किसी भी समय सीमा से लगभग असीमित ट्वीट (प्रति घंटे कितने एकत्र किए जा सकते हैं, इस पर कुछ प्रतिबंधों के साथ) एकत्र करने की अनुमति देता है। ट्विटर को मुख्य रूप से कंपनी की प्रथाओं पर उपभोक्ता-पक्षीय प्रतिक्रिया देने के लिए चुना गया था। चूंकि लिंक्डइन API लिंक्डइन पोस्ट के संग्रह का समर्थन नहीं करता है, इसलिए इसके बजाय ऐसा करने के लिए स्क्रैच से एक एल्गोरिथ्म बनाया गया था। एल्गोरिथ्म ने लिंक्डइन क्वेरी के माध्यम से स्क्रॉल करने वाले मानव का अनुकरण करने के लिए सेलेनियम क्रोमड्राइवर का उपयोग किया। इसके आधार पर, प्रत्येक पोस्ट का पाठ सुंदर सूप के माध्यम से HTML अनुरोधों का उपयोग करके एकत्र और संग्रहीत किया गया था। लिंक्डइन किसी कंपनी की प्रथाओं पर अधिक पेशेवर पक्षीय जानकारी प्रदान करने का काम करता है। यह डेटा संग्रह वास्तुकला आवश्यकतानुसार वास्तविक समय में रेटिंग को ताज़ा और उत्पन्न करने की अनुमति देता है। इसके बाद, प्रत्येक उप-श्रेणी के लिए डेटा CSV फ़ाइल में संग्रहीत किया गया था।
ये चार सोशल नेटवर्क कंपनी ESG डेटा की एक विस्तृत श्रृंखला को कवर करते हैं। अधिकांश S&P 500 कंपनियों (रियल एस्टेट को छोड़कर) के लिए डेटा एकत्र किया गया था। रियल एस्टेट को मुख्य रूप से बाहर रखा गया था क्योंकि इसे ESG मुद्दों (सतही-स्तर के विश्लेषण के आधार पर) से संबंधित उतना कवरेज नहीं मिला था, इसलिए यह प्रस्तावित प्रणाली के लिए व्यवहार्य नहीं लगा। यह सुनिश्चित करता है कि एकत्रित कंपनियाँ सभी क्षेत्रों और उद्योगों में अच्छी तरह से संतुलित थीं। वेब स्क्रैपर्स ने सोशल नेटवर्क पर प्रत्येक कीवर्ड के लिए ~100 पोस्ट/लेख एकत्र करने का प्रयास किया। हालाँकि, कभी-कभी API दर सीमाओं और कम-ज्ञात कंपनियों के लिए सीमित डेटा उपलब्धता के कारण कम डेटा एकत्र किया जाता था। संग्रह को गति देने के लिए, एक साथ कई स्क्रिप्ट चलाई गईं। सबसे पहले, प्रोग्राम अक्सर इतने कम समय में इतना डेटा एकत्र करने के लिए दर-सीमित हो जाते थे। इसे हल करने के लिए, प्रोग्राम को रोकने के लिए सुरक्षा उपाय जोड़े गए थे, ताकि ऐसा होने पर प्रोग्राम को रोका जा सके। सभी डेटा संग्रह प्रत्येक साइट के नियमों और शर्तों का पालन करते हुए किया गया था। कुल मिलाकर, लगभग ~937,400 कुल डेटा पॉइंट ~470 कंपनियों में एकत्र किए गए, जिसमें प्रति सोशल नेटवर्क कीवर्ड औसतन ~37 पॉइंट थे। इस डेटा का अधिकांश भाग 2021 में केंद्रित था। हालाँकि, एक सख्त तिथि सीमा लागू नहीं की गई थी क्योंकि यह कम-ज्ञात कंपनियों के डेटा बिंदुओं को हटा देगा जो पहले से ही पर्याप्त जानकारी इकट्ठा करने के लिए संघर्ष कर रहे थे।
एक बार जब सारा डेटा एकत्र हो गया, तो इसे आगे के विश्लेषण के लिए स्प्रेडशीट पर निर्यात किया गया। डेटा को RegEx (रेगुलर एक्सप्रेशन) का उपयोग करके प्रीप्रोसेस किया गया। सबसे पहले, URL और लिंक हटा दिए गए। नामों को अमूर्त बनाने के लिए उल्लेखों को एक सामान्य शब्द से बदल दिया गया। अंत में, असामान्य वर्ण और विराम चिह्न हटा दिए गए। इससे उन शब्दों/वर्णों को फ़िल्टर करने में मदद मिली जो NLP विश्लेषण में बाधा डाल सकते थे।
डेटा को साफ और व्यवस्थित करने के बाद, विश्लेषण के लिए एक NLP एल्गोरिदम बनाया गया। सबसे पहले, ESG प्रासंगिकता एल्गोरिदम बनाया गया था ताकि ESG अप्रासंगिक डेटा को फ़िल्टर किया जा सके जो परिणामों को बाधित कर सकता है। ऐसा करने के लिए, कीवर्ड डिटेक्शन का उपयोग यह देखने के लिए किया गया था कि क्या पोस्ट/लेख में वर्तमान कंपनी के साथ-साथ ESG उप-श्रेणियों में से एक या अधिक पर चर्चा की गई है। इसके बाद, पायथन के नेचुरल लैंग्वेज टूलकिट (NLTK) नेम्ड एंटिटी रिकॉग्निशन लाइब्रेरी का उपयोग यह निर्धारित करने के लिए किया गया था कि क्या कोई पोस्ट संगठन से संबंधित है ताकि अनपेक्षित डेटा को हटाया जा सके। उदाहरण के लिए, यदि क्वेरी "सेब की जलवायु" खोजी गई थी, तो एक पोस्ट आ सकती है जिसमें कहा गया हो कि "वसंत की जलवायु सेब के पेड़ उगाने का सबसे अच्छा समय है।" हालाँकि, नेम्ड एंटिटी रिकॉग्निशन यह पहचानने में सक्षम होगा कि यह वाक्य ESG प्रासंगिक नहीं है क्योंकि "सेब" का उपयोग विशेषण के रूप में किया जाता है। इसलिए, एल्गोरिदम इसे विश्लेषण से हटा देगा। दूसरी ओर, यदि पोस्ट में कहा गया है, "Apple जलवायु परिवर्तन के लिए पहल में 500 मिलियन डॉलर डाल रहा है," तो एल्गोरिथ्म यह निर्धारित करेगा कि पोस्ट Apple संगठन के बारे में बात कर रहा है। यह फ़िल्टरेशन चरण डेटा की गुणवत्ता में सुधार करने के लिए अप्रासंगिक जानकारी को हटाने में मदद करता है।
फ़िल्टरेशन के बाद, NLP भावना विश्लेषण का उपयोग यह स्कोर करने के लिए किया गया कि कोई पोस्ट ESG सकारात्मक है या नकारात्मक। ऐसा करने के लिए दो NLP एल्गोरिदम बनाए गए: शॉर्ट-पोस्ट NLP एल्गोरिदम ने टेक्स्ट के छोटे हिस्सों (ट्वीट्स, लिंक्डइन पोस्ट) का विश्लेषण किया, जबकि लॉन्ग-आर्टिकल NLP एल्गोरिदम ने लंबे हिस्सों (समाचार लेख, विकिपीडिया लेख) का विश्लेषण किया।
विभिन्न पायथन भावना विश्लेषण पुस्तकालयों का एक साहित्यिक विश्लेषण किया गया। TextBlob, VADER, FastText और Flair जैसे विभिन्न भावना विश्लेषण पुस्तकालयों की तुलना करने के बाद, यह पाया गया कि Flair ने अन्य क्लासिफायर से बेहतर प्रदर्शन किया। ऐसा संभवतः इसलिए है क्योंकि VADER या TextBlob जैसे सरल बैग-ऑफवर्ड्स क्लासिफायर, विभिन्न शब्दों के बीच के संबंधों की पहचान करने में विफल रहे। दूसरी ओर, Flair ने वाक्य के शब्द-स्तर और वर्ण-स्तर के संबंधों का विश्लेषण करने के लिए प्रासंगिक शब्द वैक्टर का उपयोग किया। संभवतः यही कारण है कि, जब इन एल्गोरिदम का परीक्षण स्टैनफोर्ड सेंटीमेंट ट्रीबैंक (SST) पर मूवी रिव्यू सेंटीमेंट को 1-5 के पैमाने पर रेट करने के लिए किया गया, तो पाया गया कि Flair एल्गोरिदम ने 49.90% (Akbik et al., 2018) (Rao et al., 2019) (चित्र 4) के F1 स्कोर के साथ सबसे अच्छा प्रदर्शन किया। इसलिए, शॉर्ट-पोस्ट एल्गोरिदम को Flair सेंटीमेंट विश्लेषण लाइब्रेरी का उपयोग करके बनाया गया था। दीर्घ-लेख एल्गोरिथ्म मूलतः लघु-पोस्ट एल्गोरिथ्म है, लेकिन यह किसी लेख के सभी प्रासंगिक मुख्य पैराग्राफों (अर्थात् कंपनी के नाम वाले पैराग्राफ) का औसत होता है।
इन अम्ब्रेला एल्गोरिदम को प्रत्येक विशिष्ट सोशल नेटवर्क के लिए और अधिक अनुकूलित किया गया। उदाहरण के लिए, लिंक्डइन एल्गोरिदम ने स्व-रिपोर्टिंग को खत्म करने के लिए लिंक्डइन पोस्ट के लेखक की प्रोफ़ाइल का विश्लेषण किया। ऐसा इसलिए है क्योंकि अधिकारी अक्सर अपनी सकारात्मक पहलों और लक्ष्यों पर चर्चा करते हैं, जो अन्य निष्पक्ष टिप्पणियों को कमजोर कर सकते हैं और इस प्रकार परिणामों की व्याख्या कर सकते हैं। इसके अतिरिक्त, ट्विटर और लिंक्डइन एल्गोरिदम के लिए, यदि पाठ के भीतर एक लिंक पता पाया गया था, तो एल्गोरिदम मूल्यांकन के लिए उस लेख का विश्लेषण करेगा।
शुरुआत में, विश्लेषण एल्गोरिथ्म बहुत धीमा था क्योंकि फ्लेयर को एक पोस्ट का विश्लेषण करने में 3-4 सेकंड लगते थे। इसलिए, "फ्लेयर सेंटीमेंट-फास्ट" नामक एक भिन्नता स्थापित की गई। इससे फ्लेयर बैच विश्लेषण करने में सक्षम हुआ, जहाँ यह एक साथ कई पोस्ट का विश्लेषण करता है। इसने विश्लेषण समय को काफी कम कर दिया, जबकि सटीकता का थोड़ा त्याग किया।
एक बार जब सभी कच्चे डेटा को स्कोर कर लिया गया, तो स्कोर को एक सुसंगत स्प्रेडशीट में औसत कर दिया गया। किसी भी छूटे हुए उप-स्कोर डेटा को भरने के लिए मीन इम्प्यूटिंग का उपयोग किया गया। ये उप-श्रेणी स्कोर अधिकारियों को प्रमुख मुद्दों पर सामाजिक भावना का विश्लेषण प्रदान कर सकते हैं, जिससे उन्हें ठोस जानकारी मिलती है चित्र 4: SST-5 डेटाबेस पर विभिन्न भावना विश्लेषण एल्गोरिदम की सटीकता की तुलना कि किन क्षेत्रों में सुधार करना है। इन स्कोर का उपयोग पहलों को निर्देशित करने में मदद करने के लिए कच्चे रूप में किया जा सकता है, या उन्हें ESG पूर्वानुमान प्रदान करने के लिए मशीन लर्निंग के माध्यम से आगे संकलित किया जा सकता है
डेटा संकलित करने के बाद, विभिन्न मशीन-लर्निंग मॉडल का परीक्षण किया गया। इन मॉडलों का लक्ष्य 0-100 के बीच ESG स्कोर की भविष्यवाणी करना था, जिसमें 0 सबसे खराब और 100 सबसे अच्छा था। इनमें से ज़्यादातर सुपरवाइज्ड लर्निंग मॉडल हल्के रिग्रेशन एल्गोरिदम थे जो सीमित डेटा के साथ गैर-रेखीय पैटर्न सीख सकते हैं। इनमें से कुछ एल्गोरिदम में रैंडम फ़ॉरेस्ट रिग्रेशन, सपोर्ट वेक्टर रिग्रेशन, K-निकटतम पड़ोसी रिग्रेशन और XGBoost (एक्सट्रीम ग्रेडिएंट बूस्टिंग) रिग्रेशन शामिल हैं। रैंडम फ़ॉरेस्ट रिग्रेशन प्रशिक्षण समय के दौरान कई निर्णय पेड़ों का निर्माण करके और औसत भविष्यवाणी (टिन काम हो, 1995) आउटपुट करके संचालित होता है। सपोर्ट वेक्टर रिग्रेशन मूल्यों की सीमा के भीतर सबसे अच्छी फ़िट लाइन की पहचान करता है (अवाड एट अल., 2015)। K-निकटतम पड़ोसी रिग्रेशन अपने पड़ोसी डेटा बिंदुओं के औसत मूल्य के आधार पर एक मूल्य की भविष्यवाणी करता है (क्रेमर, 2013)। एक्सजीबूस्ट (एक्सट्रीम ग्रेडिएंट बूस्टिंग) रिग्रेशन सरल रिग्रेशन वृक्षों के अनुमानों/पूर्वानुमानों को संयोजित करके ग्रेडिएंट बूस्टिंग का उपयोग करता है (चेन एट अल., 2016)।
इन रिग्रेशन एल्गोरिदम को 19 विशेषताओं का उपयोग करके प्रशिक्षित किया गया था। इन विशेषताओं में विकिपीडिया के लिए एक अतिरिक्त श्रेणी के साथ 18 कीवर्ड में से प्रत्येक के लिए औसत भावना शामिल है। उन्हें सार्वजनिक S&P ग्लोबल ESG रेटिंग के लिए कैलिब्रेट किया गया था ताकि यह सुनिश्चित किया जा सके कि वे मौजूदा समाधानों से बहुत अलग न हों। GitHub पर एक सार्वजनिक रूप से लाइसेंस प्राप्त ESG रेटिंग स्क्रैपर का उपयोग उन सभी कंपनियों के लिए S&P ग्लोबल ESG स्कोर प्राप्त करने के लिए किया गया था जिनका विश्लेषण किया गया था (श्वेता-29)। अधिक सटीकता के लिए ओवरफिटिंग को रोकने के लिए रेगुलराइजेशन जैसी अनुकूलन तकनीकों का उपयोग किया गया था।
एल्गोरिदम बनाने से पहले, ESG उपश्रेणी में 5 से कम लेख/पोस्ट वाली कंपनियों को फ़िल्टर किया गया। इससे विश्लेषण के लिए ~320 कंपनियाँ बचीं। एल्गोरिदम बनाने और उसका परीक्षण करने के लिए, ~256 कंपनियों को प्रशिक्षण डेटा के रूप में इस्तेमाल किया गया, जबकि ~64 कंपनियों को परीक्षण डेटा के रूप में इस्तेमाल किया गया। इन परिणामों का उपयोग एल्गोरिदम की पूर्वानुमान क्षमताओं को निर्धारित करने के लिए किया गया।