लेखक:
(1) अनीस बाकिर, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;
(2) एलेसेंड्रो गैलेज़ी, का फ़ोस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;
(3) फैबियाना ज़ोलो, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली और द न्यू इंस्टीट्यूट सेंटर फ़ॉर एनवायर्नमेंटल ह्यूमैनिटीज़, इटली।
डेटा को अकादमिक शोध के लिए आधिकारिक ट्विटर एपीआई [1] का उपयोग करके एकत्र किया गया था, जो संग्रह के समय शिक्षाविदों के लिए स्वतंत्र रूप से उपलब्ध था। न्यूज़गार्ड डेटासेट (तालिका 1 देखें) से प्राप्त खातों की सूची के आधार पर, हमने 2019 से 2021 तक तीन वर्षों में इटली, जर्मनी, फ्रांस और यूके में स्थित मीडिया स्रोतों की ट्विटर टाइमलाइन डाउनलोड की। न्यूज़गार्ड एक उपकरण है जो नौ पत्रकारिता मानदंडों के आधार पर समाचार आउटलेट की विश्वसनीयता का मूल्यांकन करता है। ऐसे मानदंडों का पालन करते हुए, पेशेवर और स्वतंत्र पत्रकारों की एक टीम प्रत्येक समाचार आउटलेट को 0 से 100 के बीच "ट्रस्ट स्कोर" प्रदान करती है। रेटिंग व्यक्तिगत, व्यंग्य सामग्री या ट्विटर, फेसबुक और यूट्यूब जैसे सोशल मीडिया प्लेटफॉर्म के लिए प्रदान नहीं की जाती है। समाचार स्रोतों को उनके स्कोर के आधार पर दो समूहों में वर्गीकृत किया जाता है
हमने सार्वजनिक Twitter खातों से केवल सार्वजनिक रूप से उपलब्ध सामग्री ही एकत्र की। डेटासेट में 01 जनवरी 2019 से 11 नवंबर 2021 की अवधि में चयनित खातों द्वारा प्रकाशित सभी ट्वीट शामिल थे, जिसके परिणामस्वरूप 25+ मिलियन ट्वीट हुए। तालिका 2 डेटा के विभाजन की रिपोर्ट करती है। कुल राशि में योगदान देने वाले प्रत्येक देश द्वारा पोस्ट का प्रतिशत कोष्ठक में दिखाया गया है।
यह सुनिश्चित करने के लिए कि हमारा विश्लेषण क्रॉस-कंट्री तुलना के लिए यूरोपीय स्तर पर बहस किए गए विषयों पर केंद्रित है, हमने अपने मूल डेटासेट पर कीवर्ड फ़िल्टर लागू किए। हमने अपने डेटासेट को तीन एक वर्षीय खंडों में विभाजित किया और प्रत्येक खंड को उस वर्ष के लिए यूरोपीय स्तर पर सबसे अधिक चर्चा किए गए विषय से संबंधित कीवर्ड की सूची के अनुसार फ़िल्टर किया। फ़िल्टर किए गए डेटा के आँकड़े तालिका 3 में पाए जा सकते हैं।
फ़िल्टर किए गए डेटासेट में मौजूद ट्वीट के लिए, हमने सभी रीट्वीट एकत्र किए। प्रत्येक विषय के लिए मूल ट्वीट और रीट्वीट की संख्या के बारे में विवरण तालिका 3 में पाया जा सकता है।
अंत में, हमने सभी 0-डिग्री नोड्स को बाहर कर दिया और सभी किनारों के भार के औसत से कम भार वाले सभी किनारों को हटा दिया। इस दृष्टिकोण ने हमें यूरोपीय संदर्भ में चयनित विषयों से संबंधित समाचार आउटलेट के दर्शकों के बीच सबसे मजबूत समानताओं को पकड़ने में सक्षम बनाया।
हमने BERTopic का उपयोग किया, जो एक विषय मॉडलिंग उपकरण है जो दस्तावेजों के संग्रह से अव्यक्त विषयों को निकालता है, ताकि जांच के तहत सभी देशों में प्रचलित गर्म विषयों की पहचान की जा सके। BERTopic एक टॉप2वेक मॉडल है जिसे प्रीट्रेन्ड सेंटेंस ट्रांसफॉर्मर्स (ग्रूटेन्डोर्स्ट, 2022) के लिए सामान्यीकृत किया गया है जिसने हाल ही में विभिन्न कार्यों में आशाजनक परिणाम प्रदर्शित किए हैं। BERTopic तीन चरणों के माध्यम से दस्तावेजों के सुसंगत क्लस्टर उत्पन्न करता है: 1) दस्तावेज़ एम्बेडिंग निकालना; 2) एम्बेडिंग को क्लस्टर करना; 3) क्लास-आधारित TF-IDF (सैममुट और वेब, 2011) (c-TF-IDF) का उपयोग करके विषय अभ्यावेदन बनाना। पहले चरण में, किसी भी पूर्व-प्रशिक्षित ट्रांसफॉर्मर-आधारित भाषा मॉडल का उपयोग किया जा सकता है, जिससे अत्याधुनिक एम्बेडिंग तकनीकों का उपयोग करने की अनुमति मिलती है। दूसरा चरण एम्बेडिंग के आयाम को कम करने के लिए यूनिफ़ॉर्म मैनिफ़ोल्ड सन्निकटन और प्रक्षेपण (UMAP) का उपयोग करता है (मैकइनेस एट अल., 2018), और दस्तावेजों के अर्थपूर्ण रूप से समान क्लस्टर बनाने के लिए शोर (HDBSCAN) के साथ अनुप्रयोगों के पदानुक्रमित घनत्व-आधारित स्थानिक क्लस्टरिंग (मैकइनेस एट अल., 2017)। विषयों में से एक को 'अन्य' के रूप में सेट किया गया है, और इसमें वे दस्तावेज़ शामिल हैं जो विभिन्न विषयों में शामिल नहीं हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] https://developer.twitter.com/en/docs/twitter-api