paint-brush
बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सीमाएँ और नैतिकता वक्तव्यद्वारा@mediabias
120 रीडिंग

बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सीमाएँ और नैतिकता वक्तव्य

द्वारा Tech Media Bias [Research Publication]2m2024/05/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने प्रामाणिक समाचार आउटलेट रेटिंग का उपयोग करके विभिन्न भाषाओं में एआई-जनित समाचार लेखों की तटस्थता और रुख विकास का विश्लेषण किया है।
featured image - बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सीमाएँ और नैतिकता वक्तव्य
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।

लिंक की तालिका

5.1 सीमाएं

हम यह मान रहे हैं कि सभी मीडिया स्रोतों में एक संपादकीय लाइन और एक संबद्ध पूर्वाग्रह है , और हम ILM को किसी अन्य मीडिया स्रोत की तरह ही मानते हैं। हम चैटजीपीटी या बार्ड लेख के निष्पक्ष होने की संभावना पर विचार नहीं करते हैं। यह डेटा एकत्र करने के लिए उपयोग की जाने वाली दूरस्थ पर्यवेक्षण विधि से संबंधित है जो वर्तमान में बाइनरी राजनीतिक रुख एनोटेशन की अनुमति देता है। चूंकि वास्तव में बहुभाषी सेटिंग में राजनीतिक पूर्वाग्रहों वाले सैकड़ों हज़ारों लेखों को मैन्युअल रूप से एनोटेट करना निकट भविष्य में संभव नहीं लगता है, इसलिए हमने पूरी तरह से डेटा-आधारित विधि को लागू करने और इसकी भाषा और संस्कृति हस्तांतरण क्षमताओं का अध्ययन करने का निर्णय लिया।


हालांकि, लेख स्तर पर राजनीतिक रुख का पता लगाने के लिए दूरस्थ पर्यवेक्षण का उपयोग करना एक नाजुक विषय है। सबसे पहले, क्योंकि एक ही अखबार समय के साथ विचारधारा बदल सकता है। दूसरा, और यह एक व्यक्तिगत लेख की सामग्री से अधिक संबंधित है, गैर-विवादास्पद विषयों में पूर्वाग्रह नहीं हो सकता है। यहां तक कि उन मामलों में भी जहां पूर्वाग्रह मौजूद है, दो विचारधाराओं के बीच स्पष्ट विभाजन के बजाय, चरम वाम से चरम दक्षिणपंथ तक का एक स्पेक्ट्रम है।


वर्तमान सीमाओं को मापने और यदि संभव हो तो कम करने के लिए, हम मानव-एनोटेट किए गए कॉर्पोरा (बैली एट अल., 2020; अक्सेनोव एट अल., 2021) का एक शैलीगत विश्लेषण करने और इसे हमारे अर्ध-स्वचालित रूप से एनोटेट किए गए कॉर्पस से तुलना करने की योजना बना रहे हैं। इस कार्य के अनुवर्ती के रूप में, हम ILM-जनरेटेड टेक्स्ट का एक शैलीगत विश्लेषण भी करेंगे क्योंकि अच्छे सामान्यीकरण और हस्तांतरण क्षमताओं को सुनिश्चित करने के लिए प्रशिक्षण डेटा और इन टेक्स्ट के बीच एक समान शैली की आवश्यकता है।

5.2. नैतिकता वक्तव्य

हम अपने परीक्षण डेटा को बनाने के लिए जनरेटिव भाषा मॉडल, ChatGPT और Bard का उपयोग करते हैं। चूँकि हम कई विवादास्पद विषयों (मृत्यु दंड, यौन उत्पीड़न, ड्रग्स, आदि) से निपटते हैं, इसलिए स्वचालित जनरेशन हानिकारक पाठ उत्पन्न कर सकता है। यहाँ प्रस्तुत डेटा में कोई मानवीय संशोधन नहीं किया गया है। हम विश्लेषण करते हैं और कॉर्पस को उसी रूप में प्रदान करते हैं, जैसा कि इसे उत्पन्न किया गया था, साथ ही उपयोग किए गए सिस्टम संस्करण का संकेत भी देते हैं।