यह पेपर arxiv पर CC BY-NC-ND 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध है।
लेखक:
(1) बृषा जैन, स्वतंत्र शोधकर्ता भारत और [email protected];
(2) मैनाक मोंडल, आईआईटी खड़गपुर भारत और [email protected].
इस खंड में हम ट्विटर से डेटा संग्रह प्रक्रिया का वर्णन करते हैं। हमने खास तौर पर ट्विटर पर विशिष्ट भारतीय राजनेताओं और पत्रकारों के बीच बातचीत के बारे में डेटा एकत्र किया, जिसका नमूना उनकी लोकप्रियता और लिंग के आधार पर लिया गया। सबसे पहले, हम इस बात से शुरू करते हैं कि हमने अपने अध्ययन के लिए भारतीय पत्रकारों और राजनेताओं की सूची कैसे बनाई।
व्यक्तिगत भारतीय राजनेताओं के ट्विटर खातों की पहचान करना: हमने पाल एट अल [20] द्वारा पिछले शोध से भारतीय राजनेताओं के डेटासेट का लाभ उठाया। इस डेटासेट में कई भारतीय ट्विटर खातों के नाम और हैंडल थे जो राजनीति में शामिल हैं (राजनेता के रूप में लेबल किए गए)। हालांकि, हमने देखा कि इस डेटासेट में दोनों राजनीतिक संगठनों (जैसे, अंडमान और निकोबार द्वीप समूह के लिए भाजपा) के साथ-साथ व्यक्तियों के खाते भी थे। उस अंत तक, हमने सबसे पहले डेटासेट को साफ किया, इस डेटासेट के नामों को MyNeta [3] के नामों के साथ क्रॉस-मैच करके, जो कि भारतीय चुनावों में पारदर्शिता लाने के लिए एसोसिएशन फॉर डेमोक्रेटिक रिफॉर्म्स (ADR) द्वारा संचालित एक खुला डेटा संग्रह मंच है। पाल एट अल के डेटासेट में प्रत्येक भारतीय राजनीतिक खाते के लिए, हमने खाते के नाम से MyNeta मंच को खोजा।
व्यक्तिगत भारतीय राजनीतिक पत्रकारों के ट्विटर अकाउंट की पहचान करना: इसके बाद, हम पाल एट अल के पिछले शोध [3] (मीडिया हाउस के अकाउंट से अलग) द्वारा जारी किए गए ट्विटर प्रभावितों के डेटासेट से व्यक्तिगत पत्रकारों के रूप में चिह्नित ट्विटर अकाउंट पर ध्यान केंद्रित करते हैं। ऐसे 4,099 अकाउंट थे। हालाँकि, हमें फिर से एक चुनौती का सामना करना पड़ा- हम राजनीतिक पत्रकारों की पहचान कैसे कर सकते हैं? विशेष रूप से, हमने देखा कि इस सूची में कई पत्रकार शामिल हैं जो राजनीतिक रिपोर्टिंग से जुड़े नहीं हैं और मनोरंजन, खेल आदि जैसे क्षेत्रों पर ध्यान केंद्रित करते हैं। इस प्रकार, हमने राजनीतिक पत्रकारों की पहचान करने का लक्ष्य रखा- पत्रकार अकाउंट जिन्होंने किसी गैर-तुच्छ ट्वीट में सीधे राजनेताओं के अकाउंट का उल्लेख किया है (उदाहरण के लिए, केवल इमोजी, यूआरएल, जन्मदिन की शुभकामनाओं वाले ट्वीट को छोड़कर)। उस उद्देश्य के लिए, हमने क्रेप नामक एक ओपन-सोर्स टूल का उपयोग करके जनवरी 2020 और दिसंबर 2022 के बीच इन 4,099 अकाउंट द्वारा पोस्ट किए गए सभी ट्वीट एकत्र किए। फिर हमने केवल इमोजी, यूआरएल, शुभकामनाओं वाले ट्वीट को छोड़ दिया और जाँच की कि क्या अंतिम ट्वीट में किसी व्यक्तिगत भारतीय राजनेता के ट्विटर अकाउंट का उल्लेख किया गया है (जैसा कि ऊपर वर्णित है)। अंत में, हमने अपने डेटासेट में 3,214 पत्रकारों (78.4%) को राजनीतिक पत्रकारों के रूप में शामिल किया है।
ट्विटर खातों की सटीकता की पुष्टि: अंत में, हमने मैन्युअल रूप से सत्यापित किया कि क्या हमारे फ़िल्टरिंग दृष्टिकोण ने वास्तव में भारतीय राजनेताओं और राजनीतिक पत्रकारों के सही ट्विटर खातों की पहचान की है। हमने यादृच्छिक रूप से चालीस राजनेताओं और बीस पत्रकार खातों का नमूना लिया। फिर एक लेखक ने वास्तविक ट्विटर खातों पर जाकर पहले 20 ट्वीट पढ़े ताकि यह सुनिश्चित हो सके कि खाता वास्तव में किसी भारतीय राजनेता (या राजनीतिक पत्रकार) का है। यादृच्छिक नमूने के 92.5% में, हमारे फ़िल्टरिंग दृष्टिकोण ने भारतीय राजनेताओं (या राजनीतिक पत्रकारों) के ट्विटर खातों की सही पहचान की।
इसके बाद, हम पिछले अनुभाग में पहचाने गए भारतीय राजनेताओं (या राजनीतिक पत्रकारों) के ट्विटर खातों के लिंग का अनुमान लगाते हैं। इस उद्देश्य के लिए, हमने जेनेराइज़ [25] नामक एक सेवा का उपयोग किया। यह सेवा नामों को लिंगों से जोड़ती है, भारतीय नामों के लिए अनुकूलित है, और पिछले अध्ययनों ने इस सेवा से लिंग अनुमान की उच्च सटीकता की सूचना दी है [19]। एक बार जब हमने सभी खातों के लिंग का अनुमान लगा लिया, तो इस अध्ययन के लिए हमने सबसे लोकप्रिय (अनुयायियों की संख्या के अनुसार) राजनेता और पत्रकार खातों पर ध्यान केंद्रित किया। विशेष रूप से, हमने राजनेताओं के खातों को फ़ॉलोअर्स की संख्या के आधार पर क्रमबद्ध किया और पुरुष राजनेताओं और महिला राजनेताओं के लिए शीर्ष 50 खातों की पहचान की (जैसा कि जेंडराइज़ द्वारा पहचाना गया)। हमने इन 100 ट्विटर खातों के लिए अनुमानित लिंग की सटीकता को मैन्युअल रूप से सत्यापित किया।
अंत में, अपने शोध के सवालों के जवाब देने के लिए, हम भारतीय राजनेताओं और राजनीतिक पत्रकारों के अकाउंट के बीच इंटरैक्शन डेटा एकत्र करते हैं। विशेष रूप से, हमने 100 लोकप्रिय राजनीतिक पत्रकार अकाउंट द्वारा पोस्ट किए गए सभी ट्वीट एकत्र किए और फिर उन ट्वीट को फ़िल्टर किया जिनमें हमारे डेटासेट में 100 लोकप्रिय भारतीय राजनेताओं में से किसी का भी उल्लेख था। इस प्रकार, हमने अपने एकत्रित ट्वीट को निम्नलिखित चार श्रेणियों में विभाजित किया- पुरुष पत्रकारों के ट्वीट जिनमें पुरुष राजनेताओं का उल्लेख है ( एमजे-एमपी ), महिला पत्रकारों के ट्वीट जिनमें पुरुष राजनेताओं का उल्लेख है ( एफजे-एमपी ), पुरुष पत्रकारों के ट्वीट जिनमें महिला राजनेताओं का उल्लेख है ( एमजे-एफपी ) और महिला पत्रकारों के ट्वीट जिनमें महिला राजनेताओं का उल्लेख है ( एफजे-एफपी )। कुल मिलाकर हमने 21,188 अनूठे ट्वीट एकत्र किए। ध्यान दें कि एक ट्वीट में कई अकाउंट का उल्लेख हो सकता है।
हमने पाया कि, लिंग के आधार पर लगभग सभी सौ पत्रकारों ने सामूहिक रूप से अपने ट्वीट में हमारे चुने हुए लोकप्रिय राजनेताओं के अकाउंट का उल्लेख किया। इसके अलावा, तालिका 1 हमारी चार श्रेणियों में ट्वीट की संख्या प्रस्तुत करती है। उल्लेखनीय रूप से, महिला राजनेताओं के अकाउंट को पुरुष और महिला भारतीय पत्रकारों दोनों से काफी कम उल्लेख मिला। अब, हमने भारतीय ट्विटर में पत्रकार-राजनेता इंटरैक्शन में संभावित लिंग पूर्वाग्रह की पहचान करने के लिए ट्विटर से एकत्र किए गए इस इंटरैक्शन डेटा का विश्लेषण किया। इसके अलावा, तालिका 2 चार श्रेणियों में से प्रत्येक से ट्वीट के अंश प्रस्तुत करती है। ये उदाहरण प्रदर्शित करते हैं कि विभिन्न श्रेणियों में हमारे डेटासेट में कई ट्वीट नीतिगत निर्णयों और सामान्य शासन से संबंधित हैं।
[3] https://www.myneta.info/