लेखक:  (1) अनीस बाकिर, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;  (2) एलेसेंड्रो गैलेज़ी, का फ़ोस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली;  (3) फैबियाना ज़ोलो, का' फ़ॉस्कारी यूनिवर्सिटी ऑफ़ वेनिस, इटली और द न्यू इंस्टीट्यूट सेंटर फ़ॉर एनवायर्नमेंटल ह्यूमैनिटीज़, इटली।  लिंक की तालिका   सार और परिचय   सामग्री और तरीके   परिणाम और चर्चा   निष्कर्ष और संदर्भ   पूरक जानकारी  2। सामग्री और विधि  डेटा संग्रहण और प्रसंस्करण  डेटा को अकादमिक शोध के लिए आधिकारिक ट्विटर एपीआई [1] का उपयोग करके एकत्र किया गया था, जो संग्रह के समय शिक्षाविदों के लिए स्वतंत्र रूप से उपलब्ध था। न्यूज़गार्ड डेटासेट (तालिका 1 देखें) से प्राप्त खातों की सूची के आधार पर, हमने 2019 से 2021 तक तीन वर्षों में इटली, जर्मनी, फ्रांस और यूके में स्थित मीडिया स्रोतों की ट्विटर टाइमलाइन डाउनलोड की। न्यूज़गार्ड एक उपकरण है जो नौ पत्रकारिता मानदंडों के आधार पर समाचार आउटलेट की विश्वसनीयता का मूल्यांकन करता है। ऐसे मानदंडों का पालन करते हुए, पेशेवर और स्वतंत्र पत्रकारों की एक टीम प्रत्येक समाचार आउटलेट को 0 से 100 के बीच "ट्रस्ट स्कोर" प्रदान करती है। रेटिंग व्यक्तिगत, व्यंग्य सामग्री या ट्विटर, फेसबुक और यूट्यूब जैसे सोशल मीडिया प्लेटफॉर्म के लिए प्रदान नहीं की जाती है। समाचार स्रोतों को उनके स्कोर के आधार पर दो समूहों में वर्गीकृत किया जाता है  हमने सार्वजनिक Twitter खातों से केवल सार्वजनिक रूप से उपलब्ध सामग्री ही एकत्र की। डेटासेट में 01 जनवरी 2019 से 11 नवंबर 2021 की अवधि में चयनित खातों द्वारा प्रकाशित सभी ट्वीट शामिल थे, जिसके परिणामस्वरूप 25+ मिलियन ट्वीट हुए। तालिका 2 डेटा के विभाजन की रिपोर्ट करती है। कुल राशि में योगदान देने वाले प्रत्येक देश द्वारा पोस्ट का प्रतिशत कोष्ठक में दिखाया गया है।  यह सुनिश्चित करने के लिए कि हमारा विश्लेषण क्रॉस-कंट्री तुलना के लिए यूरोपीय स्तर पर बहस किए गए विषयों पर केंद्रित है, हमने अपने मूल डेटासेट पर कीवर्ड फ़िल्टर लागू किए। हमने अपने डेटासेट को तीन एक वर्षीय खंडों में विभाजित किया और प्रत्येक खंड को उस वर्ष के लिए यूरोपीय स्तर पर सबसे अधिक चर्चा किए गए विषय से संबंधित कीवर्ड की सूची के अनुसार फ़िल्टर किया। फ़िल्टर किए गए डेटा के आँकड़े तालिका 3 में पाए जा सकते हैं।   फ़िल्टर किए गए डेटासेट में मौजूद ट्वीट के लिए, हमने सभी रीट्वीट एकत्र किए। प्रत्येक विषय के लिए मूल ट्वीट और रीट्वीट की संख्या के बारे में विवरण तालिका 3 में पाया जा सकता है।   समानता नेटवर्क   अंत में, हमने सभी 0-डिग्री नोड्स को बाहर कर दिया और सभी किनारों के भार के औसत से कम भार वाले सभी किनारों को हटा दिया। इस दृष्टिकोण ने हमें यूरोपीय संदर्भ में चयनित विषयों से संबंधित समाचार आउटलेट के दर्शकों के बीच सबसे मजबूत समानताओं को पकड़ने में सक्षम बनाया।  विषय मॉडलिंग  हमने BERTopic का उपयोग किया, जो एक विषय मॉडलिंग उपकरण है जो दस्तावेजों के संग्रह से अव्यक्त विषयों को निकालता है, ताकि जांच के तहत सभी देशों में प्रचलित गर्म विषयों की पहचान की जा सके। BERTopic एक टॉप2वेक मॉडल है जिसे प्रीट्रेन्ड सेंटेंस ट्रांसफॉर्मर्स (ग्रूटेन्डोर्स्ट, 2022) के लिए सामान्यीकृत किया गया है जिसने हाल ही में विभिन्न कार्यों में आशाजनक परिणाम प्रदर्शित किए हैं। BERTopic तीन चरणों के माध्यम से दस्तावेजों के सुसंगत क्लस्टर उत्पन्न करता है: 1) दस्तावेज़ एम्बेडिंग निकालना; 2) एम्बेडिंग को क्लस्टर करना; 3) क्लास-आधारित TF-IDF (सैममुट और वेब, 2011) (c-TF-IDF) का उपयोग करके विषय अभ्यावेदन बनाना। पहले चरण में, किसी भी पूर्व-प्रशिक्षित ट्रांसफॉर्मर-आधारित भाषा मॉडल का उपयोग किया जा सकता है, जिससे अत्याधुनिक एम्बेडिंग तकनीकों का उपयोग करने की अनुमति मिलती है। दूसरा चरण एम्बेडिंग के आयाम को कम करने के लिए यूनिफ़ॉर्म मैनिफ़ोल्ड सन्निकटन और प्रक्षेपण (UMAP) का उपयोग करता है (मैकइनेस एट अल., 2018), और दस्तावेजों के अर्थपूर्ण रूप से समान क्लस्टर बनाने के लिए शोर (HDBSCAN) के साथ अनुप्रयोगों के पदानुक्रमित घनत्व-आधारित स्थानिक क्लस्टरिंग (मैकइनेस एट अल., 2017)। विषयों में से एक को 'अन्य' के रूप में सेट किया गया है, और इसमें वे दस्तावेज़ शामिल हैं जो विभिन्न विषयों में शामिल नहीं हैं।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध  [1] https://developer.twitter.com/en/docs/twitter-api

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Tech NewsByte

NewsByte

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

यूरोप में समाचार और गलत सूचना का उपभोग: सामग्री और विधियाँ

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps