paint-brush
बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: कॉर्पोरा संकलनद्वारा@mediabias
245 रीडिंग

बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: कॉर्पोरा संकलन

द्वारा Tech Media Bias [Research Publication]5m2024/05/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने प्रामाणिक समाचार आउटलेट रेटिंग का उपयोग करके विभिन्न भाषाओं में एआई-जनित समाचार लेखों की तटस्थता और रुख विकास का विश्लेषण किया है।
featured image - बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: कॉर्पोरा संकलन
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।

लिंक की तालिका

2. कॉर्पोरा संकलन

हम अपने कार्य को दो वर्गों के साथ एक वर्गीकरण समस्या के रूप में देखते हैं: बाएं (एल) और दाएं (आर) राजनीतिक झुकाव। यह वास्तविक समस्या का सरलीकरण है, जहां लेख तटस्थ भी हो सकते हैं और पूर्वाग्रहों की अलग-अलग डिग्री हो सकती है। पिछला काम 3 या 5 वर्गों पर निर्भर करता था, जिसमें हमेशा तटस्थ विकल्प शामिल होता था (बैली एट अल., 2020; अक्सेनोव एट अल., 2021)। इन कार्यों में, डेटा को मैन्युअल रूप से एनोटेट किया गया था जिससे उच्च गुणवत्ता वाला प्रशिक्षण डेटा तैयार हुआ, लेकिन साथ ही शामिल भाषाओं और देशों के संदर्भ में काम के दायरे को बहुत सीमित कर दिया गया। बारीक वर्गीकरण पैमाने का उपयोग करते समय, लेखक नए स्रोतों के लिए वर्गीकरणकर्ताओं के खराब सामान्यीकरण को स्वीकार करते हैं। दूसरी ओर, गार्सिया-डियाज़ एट अल. (2022) और रुसो एट अल. (2023) तटस्थ वर्ग को बाहर करते हैं और क्रमशः स्पेनिश और इतालवी राजनेताओं के ट्वीट्स के बाइनरी या मल्टीक्लास लेफ्ट-राइट वर्गीकरण के साथ काम करते हैं, लेकिन उनके काम में लंबे टेक्स्ट शामिल नहीं हैं। बाइनरी वर्गीकरण को उचित ठहराया जा सकता है क्योंकि उन्होंने ट्वीट के साथ काम किया, एक ऐसी शैली जहाँ लोग अधिक भावुक होते हैं और इसलिए संभवतः अधिक ध्रुवीकृत होते हैं। हमारे मामले में, हमें यह सुनिश्चित करने की आवश्यकता है कि क्लासिफायर अदृश्य स्रोतों के लिए अच्छी तरह से सामान्यीकृत हो और हम प्रशिक्षण में तटस्थ लेखों की संख्या को कम करते हुए 2-वर्ग कार्य पर टिके रहें (नीचे देखें)।


दूरस्थ पर्यवेक्षण। जहाँ तक हम जानते हैं, केवल अंग्रेजी में मैन्युअल रूप से एनोटेट किए गए समाचार पत्र कॉर्पस (बैली एट अल., 2020) और जर्मन में एक और (अक्सेनोव एट अल., 2021) उपलब्ध हैं। हम कुलकर्णी एट अल. (2018) और कीसेल एट अल. (2019) की भावना में एक अलग दृष्टिकोण का पालन करते हैं। हम किसी भी लेख को मैन्युअल रूप से एनोटेट नहीं करते हैं, लेकिन हम ऑलसाइड्स, एमबी/एफसी, पॉलिटिकल वॉच और विकिपीडिया (केवल उन मामलों में जहां पिछली साइटों में जानकारी उपलब्ध नहीं है) पर अखबार के पूर्वाग्रह के उनके वर्गीकरण के साथ भरोसा करते हैं। हम यूएसए, जर्मनी, स्पेन और कैटेलोनिया के समाचार पत्रों के लिए यह जानकारी निकालते हैं। समाचार पत्रों की सूची, उनके यूआरएल, [4] और उनके रुख के साथ, हम लेखों को पुनः प्राप्त करने के लिए कॉमन क्रॉल (ओर्टिज़ सुआरेज़ एट अल., 2019; अबादजी एट अल., 2021) को फ़िल्टर करके प्राप्त बहुभाषी कॉर्पस OSCAR का उपयोग करते हैं। परिशिष्ट A में इस कार्य में प्रयुक्त स्रोतों की सूची दी गई है: 47 अमेरिकी समाचार पत्र जिनमें 742,691 लेख हैं, 12 जर्मन समाचार पत्र जिनमें 143,200 लेख हैं, 38 स्पेनिश समाचार पत्र जिनमें 301,825 लेख हैं तथा 19 कैटलन समाचार पत्र जिनमें 70,496 लेख हैं।


विषय मॉडलिंग। सभी लेखों में पक्षपात नहीं होता, कुछ विषय दूसरों की तुलना में अधिक प्रवण होते हैं। जबकि समाचार पत्र का खेल अनुभाग आमतौर पर राजनीतिक पूर्वाग्रहों को दर्शाने के लिए कम प्रवण होता है, अंतर्राष्ट्रीय अनुभाग के साथ विपरीत होता है। इसलिए हम अपने बाइनरी वर्गीकरण के लिए प्रासंगिक प्रशिक्षण डेटा के सबसेट का चयन करने के लिए विषयों का उपयोग करते हैं। हम मैलेट (मैककैलम, 2002) का उपयोग करके OSCAR से निकाले गए लेखों पर विषय मॉडलिंग करते हैं जो गिब्स सैंपलिंग के साथ LDA लागू करता है। हम डेटा को प्रति भाषा 10 और 15 समूहों में समूहीकृत करते हैं, जो मोटे तौर पर एक समाचार पत्र के अनुभागों की संख्या के अनुरूप होता है। प्रत्येक विषय के लिए निकाले गए कीवर्ड परिशिष्ट बी में सूचीबद्ध हैं। हम उन लेखों को चुनते हैं जो हमारे द्वारा लेबल किए गए विषयों जैसे अंतर्राष्ट्रीय, सरकार, कानून और न्याय, अर्थव्यवस्था, लाइव साइंस/पारिस्थितिकी, और विशिष्ट भाषा-निर्भर विषयों जैसे अंग्रेजी के लिए आव्रजन और हिंसा, जर्मन के लिए नाज़ीवाद और स्पेनिश के लिए सामाजिक के अंतर्गत आते हैं। कीवर्ड के निरीक्षण के बाद चयन किया जाता है। अंतिम डेटासेट के लिए, हम चयनित लेखों का 10 और 15 विषयों में समूहीकृत करते हैं। इस प्रक्रिया से 49% स्पेनिश लेख, 39% जर्मन लेख तथा 31% अंग्रेजी लेख फ़िल्टर हो जाते हैं।


प्रीप्रोसेसिंग और सफाई। हम सफाई से पहले 2000 से ज़्यादा या 20 से कम शब्दों वाले लेखों को हटा देते हैं। उसके बाद, हम हेडर, फ़ुटर और किसी भी बॉयलरप्लेट टेक्स्ट को हटा देते हैं। इस टेक्स्ट में न्यूरल क्लासिफायर को गुमराह करने की क्षमता है, क्योंकि यह क्लासिफायर को अख़बारों के बीच अंतर करना सीखने के लिए प्रोत्साहित कर सकता है, बजाय उनके राजनीतिक रुख पर ध्यान केंद्रित करने के। हम परीक्षण के लिए भाषा और रुख के अनुसार एक अख़बार चुनते हैं और उनके लेखों को मैन्युअल रूप से साफ़ करते हैं। प्रत्येक भाषा के लिए एक संतुलित प्रशिक्षण कॉर्पस बनाने के लिए, हम शेष संग्रह से समान संख्या में बाएं और दाएं-उन्मुख लेखों का यादृच्छिक रूप से चयन करते हैं। इस संतुलित डेटासेट को प्रशिक्षण और सत्यापन में विभाजित किया गया है जैसा कि तालिका 1 (शीर्ष पंक्तियाँ) में दिखाया गया है।


चैटजीपीटी/बार्ड कॉर्पस। हम 101 लेखों के साथ एक बहुभाषी डेटासेट बनाते हैं। इसके लिए, हम आवास की कीमतों, गर्भपात, तंबाकू, बराक ओबामा आदि सहित 101 विषयों को परिभाषित करते हैं और उन्हें 4 भाषाओं में मैन्युअल रूप से अनुवादित करते हैं (परिशिष्ट डी देखें)। विषयों में राजनीतिक रुख रखने वाले विषयों पर विचार किया जाता है जैसे कि नारीवाद, पूंजीवाद, पारिस्थितिकी, प्रौद्योगिकी आदि से संबंधित विषय। हम विचाराधीन 4 देशों के लोगों के उचित नाम भी शामिल करते हैं, जिनकी जीवनी लेखक के राजनीतिक रुख के आधार पर भिन्न हो सकती है। इन विषयों को टेम्पलेट प्रॉम्प्ट में डाला जाता है (और जर्मन, स्पेनिश और कैटलन में इसके अनुवाद):[5] [SUBJECT]en पर एक समाचार पत्र लेख लिखें


तालिका 1: लेखों की संख्या (औसत शब्द गणना कोष्ठक में) को बाएं (बाएं) और दाएं अभिविन्यास (आर) के साथ समाचार पत्र से संबंधित लेखों के रूप में विभाजित किया गया है। परीक्षण के लिए, हम प्रशिक्षण या सत्यापन में नहीं देखे गए समाचार पत्रों का उपयोग करते हैं: यूएसए के लिए स्लेट (बाएं) और द नेशनल पल्स (आर), जर्मनी के लिए माई हेमाट (बाएं) और डाई प्रीसिस्चे अल्गेमाइन ज़ितुंग (आर),


हमने चार समय अवधियों में एक ही विषय का उपयोग करके पांच बार ChatGPT (GPT-3.5-Turbo) को प्रॉम्प्ट किया। हमने 13 फरवरी (v02), 23 मार्च (v03), 24 मई (v05) और 3 अगस्त (v08) के ChatGPT संस्करणों के साथ डेटासेट तैयार किया; हमने केवल अंतिम दो के साथ 4 भाषाओं को एक साथ कवर किया। ChatGPTv05 अन्य की तुलना में काफी लंबे टेक्स्ट तैयार करता है, जिसमें लेखक के नाम, तिथि और/या शहर से भरे जाने वाले स्लॉट के साथ एक लेख-उन्मुख संरचना होती है। बहुभाषी बार्ड बाद में उपलब्ध था, और हमने इसे ChatGPTv8 के समान अवधि के दौरान दो बार प्रॉम्प्ट किया।[6] तालिका 1 इस कॉर्पस के लिए आँकड़े दिखाती है।




[4] इसका तात्पर्य किसी समाचार आउटलेट के डोमेन नाम के अंतर्गत आने वाले सभी लेखों का चयन करना है, चाहे वे समाचार हों या नहीं।


[5] चैटजीपीटी के पहले संस्करणों के लिए अधिक विशिष्ट संकेतों ने अलग-अलग शैलियों को जन्म नहीं दिया, पिछले एक के लिए हमने अधिक जानकारी जोड़ी जैसे कि ... बिना उपशीर्षक के। अत्यधिक उपखंड और/या बुलेट पॉइंट से बचने के लिए। न तो चैटजीपीटी और न ही बार्ड ने हमेशा निर्देशों का ठीक से पालन किया। हमारे द्वारा प्रदान किए गए डेटासेट में हमारे द्वारा उपयोग किए गए संकेत शामिल हैं।


[6] 14-21 अगस्त 2023 को बर्लिन से अंग्रेजी और जर्मन के लिए और बार्सिलोना से स्पेनिश और कैटलन के लिए प्रेरित किया गया, क्योंकि चैटजीपीटी के विपरीत, पीढ़ी स्थान पर निर्भर करती है।