এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
মিডিয়া উত্সগুলির একটি সম্পাদকীয় লাইন এবং একটি সংশ্লিষ্ট পক্ষপাত রয়েছে। রাজনৈতিক পক্ষপাত থেকে পরিত্রাণ পাওয়া মানুষের পক্ষে কঠিন, কিন্তু সেগুলি সম্পর্কে সচেতন হওয়া আমাদের সংবাদের বিশ্বব্যাপী দৃষ্টিভঙ্গি পেতে সাহায্য করে৷ পক্ষপাতগুলি কখনও কখনও স্পষ্ট এবং/অথবা ক্ষতিকারক পাঠ্যের আকারে প্রদর্শিত হয়, তবে কখনও কখনও সূক্ষ্ম এবং সনাক্ত করা কঠিন। এই সূক্ষ্ম লুকানো পক্ষপাতগুলি সম্ভাব্য বিপজ্জনক এবং যখনই আমরা সেগুলি সম্পর্কে সচেতন না হই তখনই এটি ম্যানিপুলেশনের দিকে পরিচালিত করে৷ এই কাজে, আমরা নিয়মতান্ত্রিকভাবে ChatGPT এবং Bard-এর পিছনে সূক্ষ্ম রাজনৈতিক পক্ষপাতগুলি অধ্যয়ন করেছি, যেগুলি কোনও ব্যক্তিত্বের ভূমিকা না রেখেই প্রদর্শিত হয় (দেশপান্ডে এট আল।, 2023)। আমরা দেখিয়েছি যে ChatGPT এর অভিযোজন সময়ের সাথে পরিবর্তিত হয় এবং এটি বিভিন্ন ভাষায় ভিন্ন। ফেব্রুয়ারী এবং আগস্ট 2023 এর মধ্যে, ChatGPT একটি বাম থেকে নিরপেক্ষ রাজনৈতিক অভিমুখে রূপান্তরিত হয়েছে, ইংরেজি এবং স্প্যানিশের জন্য মাঝখানে একটি ডানদিকে ঝুঁকে পড়া সময়। বার্ডের বিবর্তন এখনও অধ্যয়ন করা যাবে না। 2023 সালের আগস্ট পর্যন্ত এর বর্তমান সংস্করণটি অধ্যয়নাধীন 4টি ভাষার জন্য ধারাবাহিকভাবে বাম-ঝুঁকে দেখায়। এই পক্ষপাতটি মডেলটি তৈরি করা বাস্তবিক ভুলগুলির উপর স্বাধীন, এবং এটির ব্যবহারকারীদের দ্বারাও বিবেচনা করা উচিত। আমরা শূন্য-শট পদ্ধতি ব্যবহার করে মার্কিন যুক্তরাষ্ট্র, জার্মানি এবং স্পেনের পাশাপাশি ঘনিষ্ঠভাবে সম্পর্কিত রাজনৈতিক প্রেক্ষাপট এবং ভাষাগুলিতে নিয়মিতভাবে পাঠ্য প্রজন্মের পক্ষপাত পরীক্ষা করার জন্য মডেলগুলি সরবরাহ করি।
আমাদের বিশ্লেষণের একটি উপজাত হিসাবে, আমরা রাজনৈতিক অবস্থান এবং বিষয়ের মোটা টীকা সহ 1.2M সংবাদপত্রের নিবন্ধগুলির একটি বহুভাষিক কর্পাস তৈরি করেছি৷ আমরা দেখাই যে দূরবর্তী তত্ত্বাবধান আমাদেরকে মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগের জন্য অর্থপূর্ণ মডেল তৈরি করতে দেয় যতক্ষণ না কর্পাস বৈচিত্র্যময় হয়। আমরা জেনোডো (España-Bonet, 2023) এবং Github-এর মাধ্যমে LMs প্রজন্ম এবং আমাদের কোডের সাথে একসাথে এই ডেটা উপলব্ধ করি।
[১২] https://github.com/cristinae/docTransformer