paint-brush
यूरोप में समाचार और गलत सूचना का उपभोग: सामग्री और विधियाँद्वारा@newsbyte
106 रीडिंग

यूरोप में समाचार और गलत सूचना का उपभोग: सामग्री और विधियाँ

द्वारा NewsByte.Tech3m2024/06/07
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने यूरोपीय समाचार उपभोग पैटर्न, गलत सूचना स्रोतों और ट्विटर पर दर्शकों के व्यवहार का विश्लेषण किया है।
featured image - यूरोप में समाचार और गलत सूचना का उपभोग: सामग्री और विधियाँ
NewsByte.Tech HackerNoon profile picture
0-item

लेखक:

(1) अनीस बाकिर, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;

(2) एलेसेंड्रो गैलेज़ी, का फ़ोस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;

(3) फैबियाना ज़ोलो, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली और द न्यू इंस्टीट्यूट सेंटर फ़ॉर एनवायर्नमेंटल ह्यूमैनिटीज़, इटली।

लिंक की तालिका

2। सामग्री और विधि

डेटा संग्रहण और प्रसंस्करण

डेटा को अकादमिक शोध के लिए आधिकारिक ट्विटर एपीआई [1] का उपयोग करके एकत्र किया गया था, जो संग्रह के समय शिक्षाविदों के लिए स्वतंत्र रूप से उपलब्ध था। न्यूज़गार्ड डेटासेट (तालिका 1 देखें) से प्राप्त खातों की सूची के आधार पर, हमने 2019 से 2021 तक तीन वर्षों में इटली, जर्मनी, फ्रांस और यूके में स्थित मीडिया स्रोतों की ट्विटर टाइमलाइन डाउनलोड की। न्यूज़गार्ड एक उपकरण है जो नौ पत्रकारिता मानदंडों के आधार पर समाचार आउटलेट की विश्वसनीयता का मूल्यांकन करता है। ऐसे मानदंडों का पालन करते हुए, पेशेवर और स्वतंत्र पत्रकारों की एक टीम प्रत्येक समाचार आउटलेट को 0 से 100 के बीच "ट्रस्ट स्कोर" प्रदान करती है। रेटिंग व्यक्तिगत, व्यंग्य सामग्री या ट्विटर, फेसबुक और यूट्यूब जैसे सोशल मीडिया प्लेटफॉर्म के लिए प्रदान नहीं की जाती है। समाचार स्रोतों को उनके स्कोर के आधार पर दो समूहों में वर्गीकृत किया जाता है


हमने सार्वजनिक Twitter खातों से केवल सार्वजनिक रूप से उपलब्ध सामग्री ही एकत्र की। डेटासेट में 01 जनवरी 2019 से 11 नवंबर 2021 की अवधि में चयनित खातों द्वारा प्रकाशित सभी ट्वीट शामिल थे, जिसके परिणामस्वरूप 25+ मिलियन ट्वीट हुए। तालिका 2 डेटा के विभाजन की रिपोर्ट करती है। कुल राशि में योगदान देने वाले प्रत्येक देश द्वारा पोस्ट का प्रतिशत कोष्ठक में दिखाया गया है।


यह सुनिश्चित करने के लिए कि हमारा विश्लेषण क्रॉस-कंट्री तुलना के लिए यूरोपीय स्तर पर बहस किए गए विषयों पर केंद्रित है, हमने अपने मूल डेटासेट पर कीवर्ड फ़िल्टर लागू किए। हमने अपने डेटासेट को तीन एक वर्षीय खंडों में विभाजित किया और प्रत्येक खंड को उस वर्ष के लिए यूरोपीय स्तर पर सबसे अधिक चर्चा किए गए विषय से संबंधित कीवर्ड की सूची के अनुसार फ़िल्टर किया। फ़िल्टर किए गए डेटा के आँकड़े तालिका 3 में पाए जा सकते हैं।


तालिका 1: न्यूज़गार्ड समाचार स्रोतों के डेटासेट का देश और विश्वसनीयता के अनुसार विभाजन


तालिका 2: देश के अनुसार ट्वीट की मात्रा और विश्वसनीयता


फ़िल्टर किए गए डेटासेट में मौजूद ट्वीट के लिए, हमने सभी रीट्वीट एकत्र किए। प्रत्येक विषय के लिए मूल ट्वीट और रीट्वीट की संख्या के बारे में विवरण तालिका 3 में पाया जा सकता है।


तालिका 3: देश और विषय के अनुसार फ़िल्टर किए गए डेटासेट का विभाजन।

समानता नेटवर्क


अंत में, हमने सभी 0-डिग्री नोड्स को बाहर कर दिया और सभी किनारों के भार के औसत से कम भार वाले सभी किनारों को हटा दिया। इस दृष्टिकोण ने हमें यूरोपीय संदर्भ में चयनित विषयों से संबंधित समाचार आउटलेट के दर्शकों के बीच सबसे मजबूत समानताओं को पकड़ने में सक्षम बनाया।

विषय मॉडलिंग

हमने BERTopic का उपयोग किया, जो एक विषय मॉडलिंग उपकरण है जो दस्तावेजों के संग्रह से अव्यक्त विषयों को निकालता है, ताकि जांच के तहत सभी देशों में प्रचलित गर्म विषयों की पहचान की जा सके। BERTopic एक टॉप2वेक मॉडल है जिसे प्रीट्रेन्ड सेंटेंस ट्रांसफॉर्मर्स (ग्रूटेन्डोर्स्ट, 2022) के लिए सामान्यीकृत किया गया है जिसने हाल ही में विभिन्न कार्यों में आशाजनक परिणाम प्रदर्शित किए हैं। BERTopic तीन चरणों के माध्यम से दस्तावेजों के सुसंगत क्लस्टर उत्पन्न करता है: 1) दस्तावेज़ एम्बेडिंग निकालना; 2) एम्बेडिंग को क्लस्टर करना; 3) क्लास-आधारित TF-IDF (सैममुट और वेब, 2011) (c-TF-IDF) का उपयोग करके विषय अभ्यावेदन बनाना। पहले चरण में, किसी भी पूर्व-प्रशिक्षित ट्रांसफॉर्मर-आधारित भाषा मॉडल का उपयोग किया जा सकता है, जिससे अत्याधुनिक एम्बेडिंग तकनीकों का उपयोग करने की अनुमति मिलती है। दूसरा चरण एम्बेडिंग के आयाम को कम करने के लिए यूनिफ़ॉर्म मैनिफ़ोल्ड सन्निकटन और प्रक्षेपण (UMAP) का उपयोग करता है (मैकइनेस एट अल., 2018), और दस्तावेजों के अर्थपूर्ण रूप से समान क्लस्टर बनाने के लिए शोर (HDBSCAN) के साथ अनुप्रयोगों के पदानुक्रमित घनत्व-आधारित स्थानिक क्लस्टरिंग (मैकइनेस एट अल., 2017)। विषयों में से एक को 'अन्य' के रूप में सेट किया गया है, और इसमें वे दस्तावेज़ शामिल हैं जो विभिन्न विषयों में शामिल नहीं हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] https://developer.twitter.com/en/docs/twitter-api