এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
আমরা ধরে নিচ্ছি যে সমস্ত মিডিয়া উত্সের একটি সম্পাদকীয় লাইন এবং একটি সংশ্লিষ্ট পক্ষপাত রয়েছে এবং আমরা ILM কে অন্য কোনো মিডিয়া উত্স হিসাবে বিবেচনা করি৷ আমরা একটি ChatGPT বা বার্ড নিবন্ধ নিরপেক্ষ হওয়ার সম্ভাবনা বিবেচনা করি না। এটি ডেটা সংগ্রহ করতে ব্যবহৃত দূরবর্তী তত্ত্বাবধান পদ্ধতির সাথে সম্পর্কিত যা বর্তমানে একটি বাইনারি রাজনৈতিক অবস্থানের টীকা দেওয়ার অনুমতি দেয়। যেহেতু সত্যিকারের বহুভাষিক সেটিংয়ে রাজনৈতিক পক্ষপাত সহ কয়েক হাজার নিবন্ধ ম্যানুয়ালি টীকা করা অদূর ভবিষ্যতে সম্ভব নয় বলে মনে হয়, তাই আমরা একটি সম্পূর্ণ ডেটা-ভিত্তিক পদ্ধতি প্রয়োগ করার এবং এর ভাষা ও সংস্কৃতি স্থানান্তর ক্ষমতা অধ্যয়ন করার সিদ্ধান্ত নিয়েছি।
নিবন্ধ স্তরে রাজনৈতিক অবস্থান সনাক্ত করার জন্য দূরবর্তী তত্ত্বাবধান ব্যবহার করা যদিও একটি সূক্ষ্ম বিষয়। প্রথমত, কারণ একই সংবাদপত্র সময়ের সাথে সাথে আদর্শ পরিবর্তন করতে পারে। দ্বিতীয়ত, এবং এটি একটি পৃথক নিবন্ধের বিষয়বস্তুর সাথে আরও সম্পর্কিত, অ-বিতর্কিত বিষয়গুলির পক্ষপাত নাও থাকতে পারে। এমনকি যেসব ক্ষেত্রে পক্ষপাতিত্ব বিদ্যমান, সেখানে দুটি মতাদর্শের মধ্যে একটি স্পষ্ট বিভাজনের পরিবর্তে চরম বাম থেকে চরম ডান পর্যন্ত একটি বর্ণালী রয়েছে।
বর্তমান সীমাবদ্ধতাগুলি পরিমাপ করতে এবং সম্ভব হলে প্রশমিত করার জন্য, আমরা মানব-টীকাযুক্ত কর্পোরার একটি শৈলীগত বিশ্লেষণ পরিচালনা করার পরিকল্পনা করি (বালি এট আল।, 2020; আকসেনভ এট আল।, 2021) এবং এটিকে আমাদের আধা-স্বয়ংক্রিয়ভাবে টীকা করা কর্পাসের সাথে তুলনা করব। . এই কাজের ফলো-আপ হিসাবে, আমরা ILM-উত্পাদিত পাঠ্যগুলির একটি শৈলীগত বিশ্লেষণ সম্পাদন করব এবং প্রশিক্ষণের ডেটার মধ্যে একটি অনুরূপ শৈলী হিসাবে এবং এই পাঠ্যগুলি ভাল সাধারণীকরণ এবং স্থানান্তর ক্ষমতা নিশ্চিত করার জন্য প্রয়োজন।
আমরা আমাদের পরীক্ষার ডেটা তৈরি করতে জেনারেটিভ ল্যাঙ্গুয়েজ মডেল, ChatGPT এবং Bard ব্যবহার করি। যেহেতু আমরা বেশ কিছু বিতর্কিত বিষয় নিয়ে কাজ করি (মৃত্যুদণ্ড, যৌন হয়রানি, মাদক, ইত্যাদি) স্বয়ংক্রিয় প্রজন্ম ক্ষতিকারক পাঠ্য তৈরি করতে পারে। এখানে উপস্থাপিত তথ্য কোনো মানবিক সংশোধনের মধ্য দিয়ে যায়নি। আমরা ব্যবহার করা সিস্টেম সংস্করণের ইঙ্গিত সহ এটি তৈরি করা হয়েছিল বলে বিশ্লেষণ করি এবং প্রদান করি।