यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।
हम अपने कार्य को दो वर्गों के साथ एक वर्गीकरण समस्या के रूप में देखते हैं: बाएं (एल) और दाएं (आर) राजनीतिक झुकाव। यह वास्तविक समस्या का सरलीकरण है, जहां लेख तटस्थ भी हो सकते हैं और पूर्वाग्रहों की अलग-अलग डिग्री हो सकती है। पिछला काम 3 या 5 वर्गों पर निर्भर करता था, जिसमें हमेशा तटस्थ विकल्प शामिल होता था (बैली एट अल., 2020; अक्सेनोव एट अल., 2021)। इन कार्यों में, डेटा को मैन्युअल रूप से एनोटेट किया गया था जिससे उच्च गुणवत्ता वाला प्रशिक्षण डेटा तैयार हुआ, लेकिन साथ ही शामिल भाषाओं और देशों के संदर्भ में काम के दायरे को बहुत सीमित कर दिया गया। बारीक वर्गीकरण पैमाने का उपयोग करते समय, लेखक नए स्रोतों के लिए वर्गीकरणकर्ताओं के खराब सामान्यीकरण को स्वीकार करते हैं। दूसरी ओर, गार्सिया-डियाज़ एट अल. (2022) और रुसो एट अल. (2023) तटस्थ वर्ग को बाहर करते हैं और क्रमशः स्पेनिश और इतालवी राजनेताओं के ट्वीट्स के बाइनरी या मल्टीक्लास लेफ्ट-राइट वर्गीकरण के साथ काम करते हैं, लेकिन उनके काम में लंबे टेक्स्ट शामिल नहीं हैं। बाइनरी वर्गीकरण को उचित ठहराया जा सकता है क्योंकि उन्होंने ट्वीट के साथ काम किया, एक ऐसी शैली जहाँ लोग अधिक भावुक होते हैं और इसलिए संभवतः अधिक ध्रुवीकृत होते हैं। हमारे मामले में, हमें यह सुनिश्चित करने की आवश्यकता है कि क्लासिफायर अदृश्य स्रोतों के लिए अच्छी तरह से सामान्यीकृत हो और हम प्रशिक्षण में तटस्थ लेखों की संख्या को कम करते हुए 2-वर्ग कार्य पर टिके रहें (नीचे देखें)।
दूरस्थ पर्यवेक्षण। जहाँ तक हम जानते हैं, केवल अंग्रेजी में मैन्युअल रूप से एनोटेट किए गए समाचार पत्र कॉर्पस (बैली एट अल., 2020) और जर्मन में एक और (अक्सेनोव एट अल., 2021) उपलब्ध हैं। हम कुलकर्णी एट अल. (2018) और कीसेल एट अल. (2019) की भावना में एक अलग दृष्टिकोण का पालन करते हैं। हम किसी भी लेख को मैन्युअल रूप से एनोटेट नहीं करते हैं, लेकिन हम ऑलसाइड्स, एमबी/एफसी, पॉलिटिकल वॉच और विकिपीडिया (केवल उन मामलों में जहां पिछली साइटों में जानकारी उपलब्ध नहीं है) पर अखबार के पूर्वाग्रह के उनके वर्गीकरण के साथ भरोसा करते हैं। हम यूएसए, जर्मनी, स्पेन और कैटेलोनिया के समाचार पत्रों के लिए यह जानकारी निकालते हैं। समाचार पत्रों की सूची, उनके यूआरएल, [4] और उनके रुख के साथ, हम लेखों को पुनः प्राप्त करने के लिए कॉमन क्रॉल (ओर्टिज़ सुआरेज़ एट अल., 2019; अबादजी एट अल., 2021) को फ़िल्टर करके प्राप्त बहुभाषी कॉर्पस OSCAR का उपयोग करते हैं। परिशिष्ट A में इस कार्य में प्रयुक्त स्रोतों की सूची दी गई है: 47 अमेरिकी समाचार पत्र जिनमें 742,691 लेख हैं, 12 जर्मन समाचार पत्र जिनमें 143,200 लेख हैं, 38 स्पेनिश समाचार पत्र जिनमें 301,825 लेख हैं तथा 19 कैटलन समाचार पत्र जिनमें 70,496 लेख हैं।
विषय मॉडलिंग। सभी लेखों में पक्षपात नहीं होता, कुछ विषय दूसरों की तुलना में अधिक प्रवण होते हैं। जबकि समाचार पत्र का खेल अनुभाग आमतौर पर राजनीतिक पूर्वाग्रहों को दर्शाने के लिए कम प्रवण होता है, अंतर्राष्ट्रीय अनुभाग के साथ विपरीत होता है। इसलिए हम अपने बाइनरी वर्गीकरण के लिए प्रासंगिक प्रशिक्षण डेटा के सबसेट का चयन करने के लिए विषयों का उपयोग करते हैं। हम मैलेट (मैककैलम, 2002) का उपयोग करके OSCAR से निकाले गए लेखों पर विषय मॉडलिंग करते हैं जो गिब्स सैंपलिंग के साथ LDA लागू करता है। हम डेटा को प्रति भाषा 10 और 15 समूहों में समूहीकृत करते हैं, जो मोटे तौर पर एक समाचार पत्र के अनुभागों की संख्या के अनुरूप होता है। प्रत्येक विषय के लिए निकाले गए कीवर्ड परिशिष्ट बी में सूचीबद्ध हैं। हम उन लेखों को चुनते हैं जो हमारे द्वारा लेबल किए गए विषयों जैसे अंतर्राष्ट्रीय, सरकार, कानून और न्याय, अर्थव्यवस्था, लाइव साइंस/पारिस्थितिकी, और विशिष्ट भाषा-निर्भर विषयों जैसे अंग्रेजी के लिए आव्रजन और हिंसा, जर्मन के लिए नाज़ीवाद और स्पेनिश के लिए सामाजिक के अंतर्गत आते हैं। कीवर्ड के निरीक्षण के बाद चयन किया जाता है। अंतिम डेटासेट के लिए, हम चयनित लेखों का 10 और 15 विषयों में समूहीकृत करते हैं। इस प्रक्रिया से 49% स्पेनिश लेख, 39% जर्मन लेख तथा 31% अंग्रेजी लेख फ़िल्टर हो जाते हैं।
प्रीप्रोसेसिंग और सफाई। हम सफाई से पहले 2000 से ज़्यादा या 20 से कम शब्दों वाले लेखों को हटा देते हैं। उसके बाद, हम हेडर, फ़ुटर और किसी भी बॉयलरप्लेट टेक्स्ट को हटा देते हैं। इस टेक्स्ट में न्यूरल क्लासिफायर को गुमराह करने की क्षमता है, क्योंकि यह क्लासिफायर को अख़बारों के बीच अंतर करना सीखने के लिए प्रोत्साहित कर सकता है, बजाय उनके राजनीतिक रुख पर ध्यान केंद्रित करने के। हम परीक्षण के लिए भाषा और रुख के अनुसार एक अख़बार चुनते हैं और उनके लेखों को मैन्युअल रूप से साफ़ करते हैं। प्रत्येक भाषा के लिए एक संतुलित प्रशिक्षण कॉर्पस बनाने के लिए, हम शेष संग्रह से समान संख्या में बाएं और दाएं-उन्मुख लेखों का यादृच्छिक रूप से चयन करते हैं। इस संतुलित डेटासेट को प्रशिक्षण और सत्यापन में विभाजित किया गया है जैसा कि तालिका 1 (शीर्ष पंक्तियाँ) में दिखाया गया है।
चैटजीपीटी/बार्ड कॉर्पस। हम 101 लेखों के साथ एक बहुभाषी डेटासेट बनाते हैं। इसके लिए, हम आवास की कीमतों, गर्भपात, तंबाकू, बराक ओबामा आदि सहित 101 विषयों को परिभाषित करते हैं और उन्हें 4 भाषाओं में मैन्युअल रूप से अनुवादित करते हैं (परिशिष्ट डी देखें)। विषयों में राजनीतिक रुख रखने वाले विषयों पर विचार किया जाता है जैसे कि नारीवाद, पूंजीवाद, पारिस्थितिकी, प्रौद्योगिकी आदि से संबंधित विषय। हम विचाराधीन 4 देशों के लोगों के उचित नाम भी शामिल करते हैं, जिनकी जीवनी लेखक के राजनीतिक रुख के आधार पर भिन्न हो सकती है। इन विषयों को टेम्पलेट प्रॉम्प्ट में डाला जाता है (और जर्मन, स्पेनिश और कैटलन में इसके अनुवाद):[5] [SUBJECT]en पर एक समाचार पत्र लेख लिखें
हमने चार समय अवधियों में एक ही विषय का उपयोग करके पांच बार ChatGPT (GPT-3.5-Turbo) को प्रॉम्प्ट किया। हमने 13 फरवरी (v02), 23 मार्च (v03), 24 मई (v05) और 3 अगस्त (v08) के ChatGPT संस्करणों के साथ डेटासेट तैयार किया; हमने केवल अंतिम दो के साथ 4 भाषाओं को एक साथ कवर किया। ChatGPTv05 अन्य की तुलना में काफी लंबे टेक्स्ट तैयार करता है, जिसमें लेखक के नाम, तिथि और/या शहर से भरे जाने वाले स्लॉट के साथ एक लेख-उन्मुख संरचना होती है। बहुभाषी बार्ड बाद में उपलब्ध था, और हमने इसे ChatGPTv8 के समान अवधि के दौरान दो बार प्रॉम्प्ट किया।[6] तालिका 1 इस कॉर्पस के लिए आँकड़े दिखाती है।
[4] इसका तात्पर्य किसी समाचार आउटलेट के डोमेन नाम के अंतर्गत आने वाले सभी लेखों का चयन करना है, चाहे वे समाचार हों या नहीं।
[5] चैटजीपीटी के पहले संस्करणों के लिए अधिक विशिष्ट संकेतों ने अलग-अलग शैलियों को जन्म नहीं दिया, पिछले एक के लिए हमने अधिक जानकारी जोड़ी जैसे कि ... बिना उपशीर्षक के। अत्यधिक उपखंड और/या बुलेट पॉइंट से बचने के लिए। न तो चैटजीपीटी और न ही बार्ड ने हमेशा निर्देशों का ठीक से पालन किया। हमारे द्वारा प्रदान किए गए डेटासेट में हमारे द्वारा उपयोग किए गए संकेत शामिल हैं।
[6] 14-21 अगस्त 2023 को बर्लिन से अंग्रेजी और जर्मन के लिए और बार्सिलोना से स्पेनिश और कैटलन के लिए प्रेरित किया गया, क्योंकि चैटजीपीटी के विपरीत, पीढ़ी स्थान पर निर्भर करती है।