यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।
हम यह मान रहे हैं कि सभी मीडिया स्रोतों में एक संपादकीय लाइन और एक संबद्ध पूर्वाग्रह है , और हम ILM को किसी अन्य मीडिया स्रोत की तरह ही मानते हैं। हम चैटजीपीटी या बार्ड लेख के निष्पक्ष होने की संभावना पर विचार नहीं करते हैं। यह डेटा एकत्र करने के लिए उपयोग की जाने वाली दूरस्थ पर्यवेक्षण विधि से संबंधित है जो वर्तमान में बाइनरी राजनीतिक रुख एनोटेशन की अनुमति देता है। चूंकि वास्तव में बहुभाषी सेटिंग में राजनीतिक पूर्वाग्रहों वाले सैकड़ों हज़ारों लेखों को मैन्युअल रूप से एनोटेट करना निकट भविष्य में संभव नहीं लगता है, इसलिए हमने पूरी तरह से डेटा-आधारित विधि को लागू करने और इसकी भाषा और संस्कृति हस्तांतरण क्षमताओं का अध्ययन करने का निर्णय लिया।
हालांकि, लेख स्तर पर राजनीतिक रुख का पता लगाने के लिए दूरस्थ पर्यवेक्षण का उपयोग करना एक नाजुक विषय है। सबसे पहले, क्योंकि एक ही अखबार समय के साथ विचारधारा बदल सकता है। दूसरा, और यह एक व्यक्तिगत लेख की सामग्री से अधिक संबंधित है, गैर-विवादास्पद विषयों में पूर्वाग्रह नहीं हो सकता है। यहां तक कि उन मामलों में भी जहां पूर्वाग्रह मौजूद है, दो विचारधाराओं के बीच स्पष्ट विभाजन के बजाय, चरम वाम से चरम दक्षिणपंथ तक का एक स्पेक्ट्रम है।
वर्तमान सीमाओं को मापने और यदि संभव हो तो कम करने के लिए, हम मानव-एनोटेट किए गए कॉर्पोरा (बैली एट अल., 2020; अक्सेनोव एट अल., 2021) का एक शैलीगत विश्लेषण करने और इसे हमारे अर्ध-स्वचालित रूप से एनोटेट किए गए कॉर्पस से तुलना करने की योजना बना रहे हैं। इस कार्य के अनुवर्ती के रूप में, हम ILM-जनरेटेड टेक्स्ट का एक शैलीगत विश्लेषण भी करेंगे क्योंकि अच्छे सामान्यीकरण और हस्तांतरण क्षमताओं को सुनिश्चित करने के लिए प्रशिक्षण डेटा और इन टेक्स्ट के बीच एक समान शैली की आवश्यकता है।
हम अपने परीक्षण डेटा को बनाने के लिए जनरेटिव भाषा मॉडल, ChatGPT और Bard का उपयोग करते हैं। चूँकि हम कई विवादास्पद विषयों (मृत्यु दंड, यौन उत्पीड़न, ड्रग्स, आदि) से निपटते हैं, इसलिए स्वचालित जनरेशन हानिकारक पाठ उत्पन्न कर सकता है। यहाँ प्रस्तुत डेटा में कोई मानवीय संशोधन नहीं किया गया है। हम विश्लेषण करते हैं और कॉर्पस को उसी रूप में प्रदान करते हैं, जैसा कि इसे उत्पन्न किया गया था, साथ ही उपयोग किए गए सिस्टम संस्करण का संकेत भी देते हैं।