यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।
तटस्थता हासिल करना मुश्किल है और राजनीति में, व्यक्तिपरक है। पारंपरिक मीडिया आमतौर पर एक संपादकीय लाइन अपनाता है जिसका उपयोग उनके संभावित पाठकों द्वारा मीडिया पूर्वाग्रह के संकेतक के रूप में किया जा सकता है। कई प्लेटफ़ॉर्म वर्तमान में समाचार आउटलेट को उनके राजनीतिक पूर्वाग्रह के अनुसार रेट करते हैं। संपादकीय लाइन और रेटिंग पाठकों को समाचार के बारे में संतुलित दृष्टिकोण प्राप्त करने में मदद करती हैं। लेकिन निर्देश-अनुसरण भाषा मॉडल के आगमन में, समाचार पत्र लेख लिखने जैसे कार्य कंप्यूटर को सौंपे जा सकते हैं। पक्षपाती व्यक्तित्व को लागू किए बिना, पूर्वाग्रह रेटिंग के भीतर एक AI-आधारित समाचार आउटलेट कहाँ होगा? इस कार्य में, हम स्वचालित रूप से निकाले गए विषय एनोटेशन के साथ मोटे रुख एनोटेशन (बाएं और दाएं) के साथ समाचारों का एक बहुभाषी कॉर्पस बनाने के लिए प्रामाणिक समाचार आउटलेट की रेटिंग का उपयोग करते हैं। हम दिखाते हैं कि इस डेटा पर प्रशिक्षित क्लासिफायर अंग्रेजी, जर्मन, स्पेनिश और कैटलन में सबसे अनदेखे समाचार पत्रों की संपादकीय लाइन की पहचान करने में सक्षम हैं। फिर हम अलग-अलग समय अवधि में 4 भाषाओं में ChatGPT और Bard द्वारा लिखे गए 101 समाचार पत्र जैसे लेखों पर क्लासिफायर लागू करते हैं। हमने पाया कि पारंपरिक समाचार पत्रों की तरह ही चैटजीपीटी की संपादकीय लाइन भी समय के साथ विकसित होती है और चूंकि यह एक डेटा-संचालित प्रणाली है, इसलिए तैयार किए गए लेखों का रुख विभिन्न भाषाओं में भिन्न होता है।
निर्देश-अनुसरण भाषा मॉडल (ILM) सर्वव्यापी हैं। उनका उपयोग अभी तक खोज इंजन जितना व्यापक नहीं है, लेकिन अल्पाका (ताओरी एट अल., 2023), बार्ड (गूगल, 2023), ब्लूमज़ और mT0 (मुएनिगॉफ़ एट अल., 2023), चैटजीपीटी (ओपनएआई, 2023), लामा 2-चैट (टूवरन एट अल., 2023), या कोआला (गेंग एट अल., 2023) जैसे सिस्टम और मॉडल की उपलब्धता और उच्च गुणवत्ता के कारण, निकट भविष्य में उनका उपयोग अधिक आम होने की उम्मीद है। इन मॉडलों को कई समस्याओं का सामना करना पड़ता है, जिनमें सबसे अधिक प्रासंगिक विश्वसनीयता की कमी है (वैन डिस एट अल., 2023; हुआंग एट अल., 2023; वांग एट अल., 2023ए)। यदि उनके आउटपुट की तथ्य-जांच नहीं की जाती है, तो वे विश्वसनीय जानकारी के स्रोत के रूप में उपयोग करने के लिए तैयार नहीं हैं। भाषा मॉडल (एलएम) पर आधारित प्रणालियों के साथ दूसरा बड़ा मुद्दा यह है कि वे प्रशिक्षण डेटा (नेविगली एट अल., 2023) में मौजूद पूर्वाग्रहों को पुन: पेश कर सकते हैं। पूर्वाग्रहों में डेटा असंतुलन के कारण सांस्कृतिक गलत प्रतिनिधित्व से लेकर लिखित ग्रंथों से पुन: पेश किए गए आक्रामक व्यवहार तक शामिल हैं। एलएम को इनपुट-आउटपुट जोड़े और एक निर्देश (वेई एट अल., 2022; वांग एट अल., 2022, 2023 बी) का उपयोग करके या मानव प्रतिक्रिया (ओयांग एट अल., 2022; नाकानो एट अल., 2021) से सुदृढीकरण सीखने के साथ पर्यवेक्षित तरीके से आईएलएम में फाइनट्यून किया जाता है। दोनों मामलों में, फाइनट्यूनिंग से पूर्वाग्रह को दूर करने में मदद मिलनी चाहिए। लेकिन तटस्थता हासिल करना बहुत मुश्किल है, उन मनुष्यों के लिए भी जो पर्यवेक्षी डेटा उत्पन्न करते हैं। इसलिए फाइनट्यूनिंग चरण मूल पूर्वाग्रहों को ठीक कर सकता है या नए पेश कर सकता है। एलएम के साथ ही पर्यवेक्षण डेटा उत्पन्न करने वाली विधियों के लिए, मूल पूर्वाग्रह विरासत में मिल सकते हैं। हम ILM के एक विशिष्ट उपयोग पर ध्यान केंद्रित करते हैं: समाचार पत्र लेख लिखना। पत्रिकाएँ और समाचार पत्र एक संपादकीय लाइन का पालन करते हैं जो आम तौर पर पाठक को पता होती है। इसके अलावा, AllSides [1] Media Bias Fact Check [2] (MB/FC), या Ad Fontes Media [3] जैसी साइटें (ज्यादातर USA) मीडिया स्रोतों के राजनीतिक पूर्वाग्रह और तथ्यात्मक जानकारी के संबंध में उनकी गुणवत्ता के बारे में रेटिंग प्रदान करती हैं। इन रेटिंग्स के साथ, ईमानदार पाठक संतुलित दृष्टिकोण प्राप्त करने के लिए किस मीडिया आउटलेट को चुनना है, इस बारे में सूचित निर्णय ले सकते हैं। लेकिन क्या होता है जब पत्रकार अपने लेखन में सहायता के लिए ChatGPT या Bard जैसी प्रणालियों का उपयोग करते हैं? जैसा कि ऊपर कहा गया है, मनुष्यों में भी पूर्वाग्रह होते हैं, खतरा उनके बारे में अनजान होने में है, क्योंकि वे उपयोगकर्ता/पाठक के दृष्टिकोण को प्रभावित कर सकते हैं (जेकश एट अल., 2023; कैरोल एट अल., 2023)। ChatGPT अपने उपयोगकर्ताओं को गलत सूचना के बारे में पहले से ही चेतावनी देता है। हालाँकि, राजनीतिक पूर्वाग्रह, यदि कोई हो, तो उपयोगकर्ता की व्यक्तिपरक धारणा के अलावा ज्ञात नहीं है।
हम ChatGPT और Bard द्वारा चार भाषाओं में तैयार किए गए लेखों के लिए उपरोक्त प्रश्न का उत्तर देते हैं: अंग्रेजी, जर्मन, स्पेनिश और कैटलन। हम इसे स्वचालित और व्यवस्थित तरीके से करते हैं, जिसमें लगभग कोई मानवीय हस्तक्षेप नहीं होता है, ताकि इस पद्धति को कम प्रयास के साथ नई भाषाओं और अन्य ILM में आसानी से विस्तारित किया जा सके। हमारा उद्देश्य व्यक्तिगत लेखों को उनके विशिष्ट पूर्वाग्रह के आधार पर वर्गीकृत करना नहीं है, बल्कि मीडिया स्रोत (इस मामले में एक ILM) को उसी तरह से वाम या दक्षिणपंथी के रूप में वर्गीकृत करना है, जैसा कि मीडिया पूर्वाग्रह वाली साइटें समाचार पत्रों और अन्य मीडिया आउटलेट के लिए करती हैं।