paint-brush
भारतीय ट्विटर पर पत्रकार-राजनेता बातचीत में लैंगिक पूर्वाग्रह को उजागर करना: डेटा संग्रहद्वारा@mediabias
442 रीडिंग
442 रीडिंग

भारतीय ट्विटर पर पत्रकार-राजनेता बातचीत में लैंगिक पूर्वाग्रह को उजागर करना: डेटा संग्रह

द्वारा Tech Media Bias [Research Publication]4m2024/05/17
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने ट्विटर पर भारतीय राजनीतिक विमर्श में लैंगिक पूर्वाग्रह का विश्लेषण किया है तथा सोशल मीडिया में लैंगिक विविधता की आवश्यकता पर प्रकाश डाला है।
featured image - भारतीय ट्विटर पर पत्रकार-राजनेता बातचीत में लैंगिक पूर्वाग्रह को उजागर करना: डेटा संग्रह
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

यह पेपर arxiv पर CC BY-NC-ND 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध है।

लेखक:

(1) बृषा जैन, स्वतंत्र शोधकर्ता भारत और [email protected];

(2) मैनाक मोंडल, आईआईटी खड़गपुर भारत और [email protected].

लिंक की तालिका

3. डेटा संग्रहण

इस खंड में हम ट्विटर से डेटा संग्रह प्रक्रिया का वर्णन करते हैं। हमने खास तौर पर ट्विटर पर विशिष्ट भारतीय राजनेताओं और पत्रकारों के बीच बातचीत के बारे में डेटा एकत्र किया, जिसका नमूना उनकी लोकप्रियता और लिंग के आधार पर लिया गया। सबसे पहले, हम इस बात से शुरू करते हैं कि हमने अपने अध्ययन के लिए भारतीय पत्रकारों और राजनेताओं की सूची कैसे बनाई।

3.1. भारतीय राजनेताओं और पत्रकारों के ट्विटर अकाउंट की पहचान करना


व्यक्तिगत भारतीय राजनेताओं के ट्विटर खातों की पहचान करना: हमने पाल एट अल [20] द्वारा पिछले शोध से भारतीय राजनेताओं के डेटासेट का लाभ उठाया। इस डेटासेट में कई भारतीय ट्विटर खातों के नाम और हैंडल थे जो राजनीति में शामिल हैं (राजनेता के रूप में लेबल किए गए)। हालांकि, हमने देखा कि इस डेटासेट में दोनों राजनीतिक संगठनों (जैसे, अंडमान और निकोबार द्वीप समूह के लिए भाजपा) के साथ-साथ व्यक्तियों के खाते भी थे। उस अंत तक, हमने सबसे पहले डेटासेट को साफ किया, इस डेटासेट के नामों को MyNeta [3] के नामों के साथ क्रॉस-मैच करके, जो कि भारतीय चुनावों में पारदर्शिता लाने के लिए एसोसिएशन फॉर डेमोक्रेटिक रिफॉर्म्स (ADR) द्वारा संचालित एक खुला डेटा संग्रह मंच है। पाल एट अल के डेटासेट में प्रत्येक भारतीय राजनीतिक खाते के लिए, हमने खाते के नाम से MyNeta मंच को खोजा।


व्यक्तिगत भारतीय राजनीतिक पत्रकारों के ट्विटर अकाउंट की पहचान करना: इसके बाद, हम पाल एट अल के पिछले शोध [3] (मीडिया हाउस के अकाउंट से अलग) द्वारा जारी किए गए ट्विटर प्रभावितों के डेटासेट से व्यक्तिगत पत्रकारों के रूप में चिह्नित ट्विटर अकाउंट पर ध्यान केंद्रित करते हैं। ऐसे 4,099 अकाउंट थे। हालाँकि, हमें फिर से एक चुनौती का सामना करना पड़ा- हम राजनीतिक पत्रकारों की पहचान कैसे कर सकते हैं? विशेष रूप से, हमने देखा कि इस सूची में कई पत्रकार शामिल हैं जो राजनीतिक रिपोर्टिंग से जुड़े नहीं हैं और मनोरंजन, खेल आदि जैसे क्षेत्रों पर ध्यान केंद्रित करते हैं। इस प्रकार, हमने राजनीतिक पत्रकारों की पहचान करने का लक्ष्य रखा- पत्रकार अकाउंट जिन्होंने किसी गैर-तुच्छ ट्वीट में सीधे राजनेताओं के अकाउंट का उल्लेख किया है (उदाहरण के लिए, केवल इमोजी, यूआरएल, जन्मदिन की शुभकामनाओं वाले ट्वीट को छोड़कर)। उस उद्देश्य के लिए, हमने क्रेप नामक एक ओपन-सोर्स टूल का उपयोग करके जनवरी 2020 और दिसंबर 2022 के बीच इन 4,099 अकाउंट द्वारा पोस्ट किए गए सभी ट्वीट एकत्र किए। फिर हमने केवल इमोजी, यूआरएल, शुभकामनाओं वाले ट्वीट को छोड़ दिया और जाँच की कि क्या अंतिम ट्वीट में किसी व्यक्तिगत भारतीय राजनेता के ट्विटर अकाउंट का उल्लेख किया गया है (जैसा कि ऊपर वर्णित है)। अंत में, हमने अपने डेटासेट में 3,214 पत्रकारों (78.4%) को राजनीतिक पत्रकारों के रूप में शामिल किया है।


ट्विटर खातों की सटीकता की पुष्टि: अंत में, हमने मैन्युअल रूप से सत्यापित किया कि क्या हमारे फ़िल्टरिंग दृष्टिकोण ने वास्तव में भारतीय राजनेताओं और राजनीतिक पत्रकारों के सही ट्विटर खातों की पहचान की है। हमने यादृच्छिक रूप से चालीस राजनेताओं और बीस पत्रकार खातों का नमूना लिया। फिर एक लेखक ने वास्तविक ट्विटर खातों पर जाकर पहले 20 ट्वीट पढ़े ताकि यह सुनिश्चित हो सके कि खाता वास्तव में किसी भारतीय राजनेता (या राजनीतिक पत्रकार) का है। यादृच्छिक नमूने के 92.5% में, हमारे फ़िल्टरिंग दृष्टिकोण ने भारतीय राजनेताओं (या राजनीतिक पत्रकारों) के ट्विटर खातों की सही पहचान की।

3.2. भारतीय राजनेताओं और राजनीतिक पत्रकारों के लिंग का अनुमान लगाना

इसके बाद, हम पिछले अनुभाग में पहचाने गए भारतीय राजनेताओं (या राजनीतिक पत्रकारों) के ट्विटर खातों के लिंग का अनुमान लगाते हैं। इस उद्देश्य के लिए, हमने जेनेराइज़ [25] नामक एक सेवा का उपयोग किया। यह सेवा नामों को लिंगों से जोड़ती है, भारतीय नामों के लिए अनुकूलित है, और पिछले अध्ययनों ने इस सेवा से लिंग अनुमान की उच्च सटीकता की सूचना दी है [19]। एक बार जब हमने सभी खातों के लिंग का अनुमान लगा लिया, तो इस अध्ययन के लिए हमने सबसे लोकप्रिय (अनुयायियों की संख्या के अनुसार) राजनेता और पत्रकार खातों पर ध्यान केंद्रित किया। विशेष रूप से, हमने राजनेताओं के खातों को फ़ॉलोअर्स की संख्या के आधार पर क्रमबद्ध किया और पुरुष राजनेताओं और महिला राजनेताओं के लिए शीर्ष 50 खातों की पहचान की (जैसा कि जेंडराइज़ द्वारा पहचाना गया)। हमने इन 100 ट्विटर खातों के लिए अनुमानित लिंग की सटीकता को मैन्युअल रूप से सत्यापित किया।

3.3. पत्रकार-राजनेता ट्विटर इंटरैक्शन डेटा एकत्र करना

अंत में, अपने शोध के सवालों के जवाब देने के लिए, हम भारतीय राजनेताओं और राजनीतिक पत्रकारों के अकाउंट के बीच इंटरैक्शन डेटा एकत्र करते हैं। विशेष रूप से, हमने 100 लोकप्रिय राजनीतिक पत्रकार अकाउंट द्वारा पोस्ट किए गए सभी ट्वीट एकत्र किए और फिर उन ट्वीट को फ़िल्टर किया जिनमें हमारे डेटासेट में 100 लोकप्रिय भारतीय राजनेताओं में से किसी का भी उल्लेख था। इस प्रकार, हमने अपने एकत्रित ट्वीट को निम्नलिखित चार श्रेणियों में विभाजित किया- पुरुष पत्रकारों के ट्वीट जिनमें पुरुष राजनेताओं का उल्लेख है ( एमजे-एमपी ), महिला पत्रकारों के ट्वीट जिनमें पुरुष राजनेताओं का उल्लेख है ( एफजे-एमपी ), पुरुष पत्रकारों के ट्वीट जिनमें महिला राजनेताओं का उल्लेख है ( एमजे-एफपी ) और महिला पत्रकारों के ट्वीट जिनमें महिला राजनेताओं का उल्लेख है ( एफजे-एफपी )। कुल मिलाकर हमने 21,188 अनूठे ट्वीट एकत्र किए। ध्यान दें कि एक ट्वीट में कई अकाउंट का उल्लेख हो सकता है।


तालिका 1: भारतीय पत्रकारों द्वारा राजनेताओं का उल्लेख करते हुए पोस्ट किए गए ट्वीट्स की संख्या। महिला राजनेताओं के ट्वीट्स का उल्लेख अपेक्षाकृत कम हुआ।


हमने पाया कि, लिंग के आधार पर लगभग सभी सौ पत्रकारों ने सामूहिक रूप से अपने ट्वीट में हमारे चुने हुए लोकप्रिय राजनेताओं के अकाउंट का उल्लेख किया। इसके अलावा, तालिका 1 हमारी चार श्रेणियों में ट्वीट की संख्या प्रस्तुत करती है। उल्लेखनीय रूप से, महिला राजनेताओं के अकाउंट को पुरुष और महिला भारतीय पत्रकारों दोनों से काफी कम उल्लेख मिला। अब, हमने भारतीय ट्विटर में पत्रकार-राजनेता इंटरैक्शन में संभावित लिंग पूर्वाग्रह की पहचान करने के लिए ट्विटर से एकत्र किए गए इस इंटरैक्शन डेटा का विश्लेषण किया। इसके अलावा, तालिका 2 चार श्रेणियों में से प्रत्येक से ट्वीट के अंश प्रस्तुत करती है। ये उदाहरण प्रदर्शित करते हैं कि विभिन्न श्रेणियों में हमारे डेटासेट में कई ट्वीट नीतिगत निर्णयों और सामान्य शासन से संबंधित हैं।




[3] https://www.myneta.info/