175 रीडिंग

बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सार और परिचय

द्वारा Tech Media Bias [Research Publication]4m2024/05/19

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने प्रामाणिक समाचार आउटलेट रेटिंग का उपयोग करके विभिन्न भाषाओं में एआई-जनित समाचार लेखों की तटस्थता और रुख विकास का विश्लेषण किया है।

featured image - बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: सार और परिचय

‘media and politics’ Image created by HackerNoon AI Image Generator

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।

लिंक की तालिका

अमूर्त

तटस्थता हासिल करना मुश्किल है और राजनीति में, व्यक्तिपरक है। पारंपरिक मीडिया आमतौर पर एक संपादकीय लाइन अपनाता है जिसका उपयोग उनके संभावित पाठकों द्वारा मीडिया पूर्वाग्रह के संकेतक के रूप में किया जा सकता है। कई प्लेटफ़ॉर्म वर्तमान में समाचार आउटलेट को उनके राजनीतिक पूर्वाग्रह के अनुसार रेट करते हैं। संपादकीय लाइन और रेटिंग पाठकों को समाचार के बारे में संतुलित दृष्टिकोण प्राप्त करने में मदद करती हैं। लेकिन निर्देश-अनुसरण भाषा मॉडल के आगमन में, समाचार पत्र लेख लिखने जैसे कार्य कंप्यूटर को सौंपे जा सकते हैं। पक्षपाती व्यक्तित्व को लागू किए बिना, पूर्वाग्रह रेटिंग के भीतर एक AI-आधारित समाचार आउटलेट कहाँ होगा? इस कार्य में, हम स्वचालित रूप से निकाले गए विषय एनोटेशन के साथ मोटे रुख एनोटेशन (बाएं और दाएं) के साथ समाचारों का एक बहुभाषी कॉर्पस बनाने के लिए प्रामाणिक समाचार आउटलेट की रेटिंग का उपयोग करते हैं। हम दिखाते हैं कि इस डेटा पर प्रशिक्षित क्लासिफायर अंग्रेजी, जर्मन, स्पेनिश और कैटलन में सबसे अनदेखे समाचार पत्रों की संपादकीय लाइन की पहचान करने में सक्षम हैं। फिर हम अलग-अलग समय अवधि में 4 भाषाओं में ChatGPT और Bard द्वारा लिखे गए 101 समाचार पत्र जैसे लेखों पर क्लासिफायर लागू करते हैं। हमने पाया कि पारंपरिक समाचार पत्रों की तरह ही चैटजीपीटी की संपादकीय लाइन भी समय के साथ विकसित होती है और चूंकि यह एक डेटा-संचालित प्रणाली है, इसलिए तैयार किए गए लेखों का रुख विभिन्न भाषाओं में भिन्न होता है।

1 परिचय

निर्देश-अनुसरण भाषा मॉडल (ILM) सर्वव्यापी हैं। उनका उपयोग अभी तक खोज इंजन जितना व्यापक नहीं है, लेकिन अल्पाका (ताओरी एट अल., 2023), बार्ड (गूगल, 2023), ब्लूमज़ और mT0 (मुएनिगॉफ़ एट अल., 2023), चैटजीपीटी (ओपनएआई, 2023), लामा 2-चैट (टूवरन एट अल., 2023), या कोआला (गेंग एट अल., 2023) जैसे सिस्टम और मॉडल की उपलब्धता और उच्च गुणवत्ता के कारण, निकट भविष्य में उनका उपयोग अधिक आम होने की उम्मीद है। इन मॉडलों को कई समस्याओं का सामना करना पड़ता है, जिनमें सबसे अधिक प्रासंगिक विश्वसनीयता की कमी है (वैन डिस एट अल., 2023; हुआंग एट अल., 2023; वांग एट अल., 2023ए)। यदि उनके आउटपुट की तथ्य-जांच नहीं की जाती है, तो वे विश्वसनीय जानकारी के स्रोत के रूप में उपयोग करने के लिए तैयार नहीं हैं। भाषा मॉडल (एलएम) पर आधारित प्रणालियों के साथ दूसरा बड़ा मुद्दा यह है कि वे प्रशिक्षण डेटा (नेविगली एट अल., 2023) में मौजूद पूर्वाग्रहों को पुन: पेश कर सकते हैं। पूर्वाग्रहों में डेटा असंतुलन के कारण सांस्कृतिक गलत प्रतिनिधित्व से लेकर लिखित ग्रंथों से पुन: पेश किए गए आक्रामक व्यवहार तक शामिल हैं। एलएम को इनपुट-आउटपुट जोड़े और एक निर्देश (वेई एट अल., 2022; वांग एट अल., 2022, 2023 बी) का उपयोग करके या मानव प्रतिक्रिया (ओयांग एट अल., 2022; नाकानो एट अल., 2021) से सुदृढीकरण सीखने के साथ पर्यवेक्षित तरीके से आईएलएम में फाइनट्यून किया जाता है। दोनों मामलों में, फाइनट्यूनिंग से पूर्वाग्रह को दूर करने में मदद मिलनी चाहिए। लेकिन तटस्थता हासिल करना बहुत मुश्किल है, उन मनुष्यों के लिए भी जो पर्यवेक्षी डेटा उत्पन्न करते हैं। इसलिए फाइनट्यूनिंग चरण मूल पूर्वाग्रहों को ठीक कर सकता है या नए पेश कर सकता है। एलएम के साथ ही पर्यवेक्षण डेटा उत्पन्न करने वाली विधियों के लिए, मूल पूर्वाग्रह विरासत में मिल सकते हैं। हम ILM के एक विशिष्ट उपयोग पर ध्यान केंद्रित करते हैं: समाचार पत्र लेख लिखना। पत्रिकाएँ और समाचार पत्र एक संपादकीय लाइन का पालन करते हैं जो आम तौर पर पाठक को पता होती है। इसके अलावा, AllSides [1] Media Bias Fact Check [2] (MB/FC), या Ad Fontes Media [3] जैसी साइटें (ज्यादातर USA) मीडिया स्रोतों के राजनीतिक पूर्वाग्रह और तथ्यात्मक जानकारी के संबंध में उनकी गुणवत्ता के बारे में रेटिंग प्रदान करती हैं। इन रेटिंग्स के साथ, ईमानदार पाठक संतुलित दृष्टिकोण प्राप्त करने के लिए किस मीडिया आउटलेट को चुनना है, इस बारे में सूचित निर्णय ले सकते हैं। लेकिन क्या होता है जब पत्रकार अपने लेखन में सहायता के लिए ChatGPT या Bard जैसी प्रणालियों का उपयोग करते हैं? जैसा कि ऊपर कहा गया है, मनुष्यों में भी पूर्वाग्रह होते हैं, खतरा उनके बारे में अनजान होने में है, क्योंकि वे उपयोगकर्ता/पाठक के दृष्टिकोण को प्रभावित कर सकते हैं (जेकश एट अल., 2023; कैरोल एट अल., 2023)। ChatGPT अपने उपयोगकर्ताओं को गलत सूचना के बारे में पहले से ही चेतावनी देता है। हालाँकि, राजनीतिक पूर्वाग्रह, यदि कोई हो, तो उपयोगकर्ता की व्यक्तिपरक धारणा के अलावा ज्ञात नहीं है।

हम ChatGPT और Bard द्वारा चार भाषाओं में तैयार किए गए लेखों के लिए उपरोक्त प्रश्न का उत्तर देते हैं: अंग्रेजी, जर्मन, स्पेनिश और कैटलन। हम इसे स्वचालित और व्यवस्थित तरीके से करते हैं, जिसमें लगभग कोई मानवीय हस्तक्षेप नहीं होता है, ताकि इस पद्धति को कम प्रयास के साथ नई भाषाओं और अन्य ILM में आसानी से विस्तारित किया जा सके। हमारा उद्देश्य व्यक्तिगत लेखों को उनके विशिष्ट पूर्वाग्रह के आधार पर वर्गीकृत करना नहीं है, बल्कि मीडिया स्रोत (इस मामले में एक ILM) को उसी तरह से वाम या दक्षिणपंथी के रूप में वर्गीकृत करना है, जैसा कि मीडिया पूर्वाग्रह वाली साइटें समाचार पत्रों और अन्य मीडिया आउटलेट के लिए करती हैं।

1. https://www.allsides.com

2. https://mediabiasfactcheck.com

3. https://adfontesmedia.com

L O A D I N G
. . . comments & more!

About Author

Tech Media Bias [Research Publication]@mediabias

We publish deeply researched (and often vastly underread) academic papers about our collective omnipresent media bias.

Read my stories

लेबल

tech-stories #neutrality-in-news #media-bias #stance-evolution #news-classification #political-bias #language-models #ai-based-news #ai-generated-content

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas