paint-brush
बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सार और परिचयद्वारा@mediabias
175 रीडिंग

बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सार और परिचय

द्वारा Tech Media Bias [Research Publication]4m2024/05/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने प्रामाणिक समाचार आउटलेट रेटिंग का उपयोग करके विभिन्न भाषाओं में एआई-जनित समाचार लेखों की तटस्थता और रुख विकास का विश्लेषण किया है।
featured image - बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सार और परिचय
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।

लिंक की तालिका


अमूर्त

तटस्थता हासिल करना मुश्किल है और राजनीति में, व्यक्तिपरक है। पारंपरिक मीडिया आमतौर पर एक संपादकीय लाइन अपनाता है जिसका उपयोग उनके संभावित पाठकों द्वारा मीडिया पूर्वाग्रह के संकेतक के रूप में किया जा सकता है। कई प्लेटफ़ॉर्म वर्तमान में समाचार आउटलेट को उनके राजनीतिक पूर्वाग्रह के अनुसार रेट करते हैं। संपादकीय लाइन और रेटिंग पाठकों को समाचार के बारे में संतुलित दृष्टिकोण प्राप्त करने में मदद करती हैं। लेकिन निर्देश-अनुसरण भाषा मॉडल के आगमन में, समाचार पत्र लेख लिखने जैसे कार्य कंप्यूटर को सौंपे जा सकते हैं। पक्षपाती व्यक्तित्व को लागू किए बिना, पूर्वाग्रह रेटिंग के भीतर एक AI-आधारित समाचार आउटलेट कहाँ होगा? इस कार्य में, हम स्वचालित रूप से निकाले गए विषय एनोटेशन के साथ मोटे रुख एनोटेशन (बाएं और दाएं) के साथ समाचारों का एक बहुभाषी कॉर्पस बनाने के लिए प्रामाणिक समाचार आउटलेट की रेटिंग का उपयोग करते हैं। हम दिखाते हैं कि इस डेटा पर प्रशिक्षित क्लासिफायर अंग्रेजी, जर्मन, स्पेनिश और कैटलन में सबसे अनदेखे समाचार पत्रों की संपादकीय लाइन की पहचान करने में सक्षम हैं। फिर हम अलग-अलग समय अवधि में 4 भाषाओं में ChatGPT और Bard द्वारा लिखे गए 101 समाचार पत्र जैसे लेखों पर क्लासिफायर लागू करते हैं। हमने पाया कि पारंपरिक समाचार पत्रों की तरह ही चैटजीपीटी की संपादकीय लाइन भी समय के साथ विकसित होती है और चूंकि यह एक डेटा-संचालित प्रणाली है, इसलिए तैयार किए गए लेखों का रुख विभिन्न भाषाओं में भिन्न होता है।


1 परिचय

निर्देश-अनुसरण भाषा मॉडल (ILM) सर्वव्यापी हैं। उनका उपयोग अभी तक खोज इंजन जितना व्यापक नहीं है, लेकिन अल्पाका (ताओरी एट अल., 2023), बार्ड (गूगल, 2023), ब्लूमज़ और mT0 (मुएनिगॉफ़ एट अल., 2023), चैटजीपीटी (ओपनएआई, 2023), लामा 2-चैट (टूवरन एट अल., 2023), या कोआला (गेंग एट अल., 2023) जैसे सिस्टम और मॉडल की उपलब्धता और उच्च गुणवत्ता के कारण, निकट भविष्य में उनका उपयोग अधिक आम होने की उम्मीद है। इन मॉडलों को कई समस्याओं का सामना करना पड़ता है, जिनमें सबसे अधिक प्रासंगिक विश्वसनीयता की कमी है (वैन डिस एट अल., 2023; हुआंग एट अल., 2023; वांग एट अल., 2023ए)। यदि उनके आउटपुट की तथ्य-जांच नहीं की जाती है, तो वे विश्वसनीय जानकारी के स्रोत के रूप में उपयोग करने के लिए तैयार नहीं हैं। भाषा मॉडल (एलएम) पर आधारित प्रणालियों के साथ दूसरा बड़ा मुद्दा यह है कि वे प्रशिक्षण डेटा (नेविगली एट अल., 2023) में मौजूद पूर्वाग्रहों को पुन: पेश कर सकते हैं। पूर्वाग्रहों में डेटा असंतुलन के कारण सांस्कृतिक गलत प्रतिनिधित्व से लेकर लिखित ग्रंथों से पुन: पेश किए गए आक्रामक व्यवहार तक शामिल हैं। एलएम को इनपुट-आउटपुट जोड़े और एक निर्देश (वेई एट अल., 2022; वांग एट अल., 2022, 2023 बी) का उपयोग करके या मानव प्रतिक्रिया (ओयांग एट अल., 2022; नाकानो एट अल., 2021) से सुदृढीकरण सीखने के साथ पर्यवेक्षित तरीके से आईएलएम में फाइनट्यून किया जाता है। दोनों मामलों में, फाइनट्यूनिंग से पूर्वाग्रह को दूर करने में मदद मिलनी चाहिए। लेकिन तटस्थता हासिल करना बहुत मुश्किल है, उन मनुष्यों के लिए भी जो पर्यवेक्षी डेटा उत्पन्न करते हैं। इसलिए फाइनट्यूनिंग चरण मूल पूर्वाग्रहों को ठीक कर सकता है या नए पेश कर सकता है। एलएम के साथ ही पर्यवेक्षण डेटा उत्पन्न करने वाली विधियों के लिए, मूल पूर्वाग्रह विरासत में मिल सकते हैं। हम ILM के एक विशिष्ट उपयोग पर ध्यान केंद्रित करते हैं: समाचार पत्र लेख लिखना। पत्रिकाएँ और समाचार पत्र एक संपादकीय लाइन का पालन करते हैं जो आम तौर पर पाठक को पता होती है। इसके अलावा, AllSides [1] Media Bias Fact Check [2] (MB/FC), या Ad Fontes Media [3] जैसी साइटें (ज्यादातर USA) मीडिया स्रोतों के राजनीतिक पूर्वाग्रह और तथ्यात्मक जानकारी के संबंध में उनकी गुणवत्ता के बारे में रेटिंग प्रदान करती हैं। इन रेटिंग्स के साथ, ईमानदार पाठक संतुलित दृष्टिकोण प्राप्त करने के लिए किस मीडिया आउटलेट को चुनना है, इस बारे में सूचित निर्णय ले सकते हैं। लेकिन क्या होता है जब पत्रकार अपने लेखन में सहायता के लिए ChatGPT या Bard जैसी प्रणालियों का उपयोग करते हैं? जैसा कि ऊपर कहा गया है, मनुष्यों में भी पूर्वाग्रह होते हैं, खतरा उनके बारे में अनजान होने में है, क्योंकि वे उपयोगकर्ता/पाठक के दृष्टिकोण को प्रभावित कर सकते हैं (जेकश एट अल., 2023; कैरोल एट अल., 2023)। ChatGPT अपने उपयोगकर्ताओं को गलत सूचना के बारे में पहले से ही चेतावनी देता है। हालाँकि, राजनीतिक पूर्वाग्रह, यदि कोई हो, तो उपयोगकर्ता की व्यक्तिपरक धारणा के अलावा ज्ञात नहीं है।


हम ChatGPT और Bard द्वारा चार भाषाओं में तैयार किए गए लेखों के लिए उपरोक्त प्रश्न का उत्तर देते हैं: अंग्रेजी, जर्मन, स्पेनिश और कैटलन। हम इसे स्वचालित और व्यवस्थित तरीके से करते हैं, जिसमें लगभग कोई मानवीय हस्तक्षेप नहीं होता है, ताकि इस पद्धति को कम प्रयास के साथ नई भाषाओं और अन्य ILM में आसानी से विस्तारित किया जा सके। हमारा उद्देश्य व्यक्तिगत लेखों को उनके विशिष्ट पूर्वाग्रह के आधार पर वर्गीकृत करना नहीं है, बल्कि मीडिया स्रोत (इस मामले में एक ILM) को उसी तरह से वाम या दक्षिणपंथी के रूप में वर्गीकृत करना है, जैसा कि मीडिया पूर्वाग्रह वाली साइटें समाचार पत्रों और अन्य मीडिया आउटलेट के लिए करती हैं।



1. https://www.allsides.com

2. https://mediabiasfactcheck.com

3. https://adfontesmedia.com