এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
নিরপেক্ষতা অর্জন করা কঠিন এবং রাজনীতিতে বিষয়ভিত্তিক। প্রথাগত মিডিয়া সাধারণত একটি সম্পাদকীয় লাইন গ্রহণ করে যা তাদের সম্ভাব্য পাঠকরা মিডিয়া পক্ষপাতের সূচক হিসাবে ব্যবহার করতে পারে। বেশ কিছু প্ল্যাটফর্ম বর্তমানে তাদের রাজনৈতিক পক্ষপাত অনুযায়ী সংবাদ আউটলেটকে রেট দেয়। সম্পাদকীয় লাইন এবং রেটিং পাঠকদের সংবাদের ভারসাম্যপূর্ণ দৃষ্টিভঙ্গি সংগ্রহ করতে সহায়তা করে। কিন্তু নির্দেশনা-অনুসরণকারী ভাষার মডেলের আবির্ভাবে, সংবাদপত্রের নিবন্ধ লেখার মতো কাজগুলি কম্পিউটারে অর্পণ করা যেতে পারে। পক্ষপাতদুষ্ট ব্যক্তিত্ব আরোপ না করে, একটি AI-ভিত্তিক সংবাদ আউটলেট পক্ষপাতী রেটিং এর মধ্যে কোথায় থাকবে? এই কাজে, আমরা স্বয়ংক্রিয়ভাবে বের করা বিষয়ের টীকাগুলির সাথে মোটা স্ট্যান্স টীকা (বাম এবং ডান) সহ সংবাদের একটি বহুভাষিক কর্পাস তৈরি করতে প্রামাণিক সংবাদ আউটলেটগুলির রেটিং ব্যবহার করি। আমরা দেখাই যে এই ডেটাতে প্রশিক্ষিত শ্রেণিবিন্যাসকারীরা ইংরেজি, জার্মান, স্প্যানিশ এবং কাতালান ভাষায় বেশিরভাগ অদেখা সংবাদপত্রের সম্পাদকীয় লাইন সনাক্ত করতে সক্ষম। তারপরে আমরা বিভিন্ন সময়ে 4টি ভাষায় ChatGPT এবং Bard দ্বারা লিখিত 101টি সংবাদপত্রের মতো নিবন্ধগুলিতে শ্রেণিবদ্ধকরণ প্রয়োগ করি। আমরা লক্ষ্য করি যে, ঐতিহ্যবাহী সংবাদপত্রের মতোই, ChatGPT সম্পাদকীয় লাইন সময়ের সাথে বিকশিত হয় এবং, একটি ডেটা-চালিত সিস্টেম হওয়ায়, উত্পন্ন নিবন্ধগুলির অবস্থান ভাষার মধ্যে ভিন্ন হয়।
নির্দেশ-অনুসরণ করা ভাষা মডেল (ILMs) সর্বব্যাপী। তাদের ব্যবহার এখনও সার্চ ইঞ্জিনের মতো প্রসারিত হয়নি, তবে আল্পকা (টাওরি এট আল।, 2023), বার্ড (গুগল, 2023), ব্লুমজেড এবং এমটি0 (মুয়েনিঘফ এট) এর মতো সিস্টেম এবং মডেলগুলির উপলব্ধতা এবং উচ্চ মানের কারণে। al., 2023), ChatGPT (OpenAI, 2023), Llama 2-chat (Touvron et al., 2023), অথবা Koala (Geng et al., 2023), অদূর ভবিষ্যতে তাদের ব্যবহার আরও সাধারণ হবে বলে আশা করা হচ্ছে। এই মডেলগুলি বিশ্বাসযোগ্যতার অভাব সবচেয়ে প্রাসঙ্গিক হওয়ায় বিভিন্ন সমস্যার সম্মুখীন হয় (ভ্যান ডিস এট আল।, 2023; হুয়াং এট আল।, 2023; ওয়াং এট আল।, 2023a)। তারা নির্ভরযোগ্য তথ্যের উৎস হিসাবে ব্যবহার করার জন্য প্রস্তুত নয় যদি তাদের আউটপুটগুলি সত্য-পরীক্ষা না করা হয়। ভাষা মডেল (LM) এর উপর ভিত্তি করে সিস্টেমগুলির সাথে একটি দ্বিতীয় বড় সমস্যা হল যে তারা প্রশিক্ষণের ডেটাতে উপস্থিত পক্ষপাতগুলি পুনরুত্পাদন করতে পারে (Navigli et al., 2023)। তথ্যের ভারসাম্যহীনতার কারণে সাংস্কৃতিক মিস-প্রেজেন্টেশন থেকে শুরু করে লিখিত পাঠ থেকে পুনরুত্পাদিত আপত্তিকর আচরণ পর্যন্ত পক্ষপাতিত্ব। ইনপুট-আউটপুট জোড়া এবং একটি নির্দেশনা (ওয়েই এট আল।, 2022; ওয়াং এট আল।, 2022, 2023বি) ব্যবহার করে বা মানুষের প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শেখার সাহায্যে LM গুলিকে ILM-এ পরিপূর্ণ করা হয় (Ouyang et al., 2022; Nakano et al., 2021)। উভয় ক্ষেত্রেই, ফাইনটিউনিং পক্ষপাত দূর করতে সাহায্য করবে। কিন্তু নিরপেক্ষতা অর্জন করা খুব কঠিন কিছু, এছাড়াও মানুষের জন্য যারা সুপারভাইজরি ডেটা তৈরি করে। তাই ফাইনটিউনিং পর্বটি মূল পক্ষপাতগুলিকে সংশোধন করতে পারে বা নতুনগুলি প্রবর্তন করতে পারে। যে পদ্ধতিগুলি LM-এর সাথে তত্ত্বাবধানের ডেটা তৈরি করে তার জন্য, মূল পক্ষপাতগুলি উত্তরাধিকারসূত্রে প্রাপ্ত হতে পারে। আমরা ILM-এর একটি নির্দিষ্ট ব্যবহারের উপর ফোকাস করি: সংবাদপত্রের নিবন্ধ লেখা। জার্নাল এবং সংবাদপত্র একটি সম্পাদকীয় লাইন অনুসরণ করে যা পাঠকের কাছে সাধারণভাবে পরিচিত। এছাড়াও, AllSides [1] মিডিয়া বায়াস ফ্যাক্ট চেক [2] (MB/FC), বা Ad Fontes Media [3] সাইটগুলি (বেশিরভাগ মার্কিন যুক্তরাষ্ট্র) মিডিয়া উত্সগুলির রাজনৈতিক পক্ষপাত এবং বাস্তব তথ্যের ক্ষেত্রে তাদের গুণমান সম্পর্কে রেটিং প্রদান করে। এই রেটিংগুলির মাধ্যমে, বিবেকবান পাঠকরা একটি ভারসাম্যপূর্ণ দৃষ্টিভঙ্গি পাওয়ার জন্য কোন মিডিয়া আউটলেটগুলি বেছে নেবেন সে সম্পর্কে অবহিত সিদ্ধান্ত নিতে পারেন। কিন্তু সাংবাদিকরা যখন তাদের লেখায় সাহায্য করার জন্য ChatGPT বা Bard এর মতো সিস্টেম ব্যবহার করে তখন কী হয়? উপরে যেমন বলা হয়েছে, মানুষেরও পক্ষপাত রয়েছে, বিপদ তাদের সম্পর্কে অজানা থাকার মধ্যেই রয়েছে, কারণ তারা ব্যবহারকারীর/পাঠকের দৃষ্টিভঙ্গিকে প্রভাবিত করতে পারে (জ্যাকেশ এট আল।, 2023; ক্যারল এট আল।, 2023)। ChatGPT ইতিমধ্যেই তার ব্যবহারকারীদের ভুল তথ্য সম্পর্কে সতর্ক করেছে। যাইহোক, রাজনৈতিক পক্ষপাত, যদি থাকে, একজন ব্যবহারকারীর বিষয়গত উপলব্ধি ছাড়া পরিচিত নয়।
আমরা চারটি ভাষায় চ্যাটজিপিটি এবং বার্ড দ্বারা উত্পন্ন নিবন্ধগুলির জন্য উপরের প্রশ্নটি সম্বোধন করি: ইংরেজি, জার্মান, স্প্যানিশ এবং কাতালান৷ আমরা এটি একটি স্বয়ংক্রিয় এবং পদ্ধতিগত উপায়ে করি যা প্রায় কোনও মানুষের হস্তক্ষেপ ছাড়াই হয় যাতে পদ্ধতিটি অল্প প্রচেষ্টায় সহজেই নতুন ভাষা এবং অন্যান্য আইএলএমগুলিতে প্রসারিত করা যায়। আমরা পৃথক নিবন্ধগুলিকে তাদের নির্দিষ্ট পক্ষপাতের সাথে শ্রেণীবদ্ধ করার লক্ষ্য রাখি না, তবে মিডিয়া উত্সকে (এই ক্ষেত্রে একটি ILM) বাম বা ডান-ভিত্তিক হিসাবে শ্রেণীবদ্ধ করা যেমন সংবাদপত্র এবং অন্যান্য মিডিয়া আউটলেটগুলির জন্য মিডিয়া পক্ষপাত সাইটগুলি করে।