এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
নেটওয়ার্ক. **আমরা XLM-RoBERTa large (Conneau et al., 2020), একটি বহুভাষিক ট্রান্সফরমার-**ভিত্তিক মুখোশযুক্ত LM 100টি ভাষায় প্রশিক্ষিত করেছি যার মধ্যে 4টি আমরা বিবেচনা করি। নেটওয়ার্কের বিশদ বিবরণ এবং মডেল প্রতি হাইপারপ্যারামিটার অন্বেষণ পরিশিষ্ট F এ রিপোর্ট করা হয়েছে।
মডেল. আমরা 4টি মডেলকে প্রশিক্ষণ দিই: ইংরেজি, জার্মান এবং স্প্যানিশ ডেটা সহ 3টি একভাষিক ফাইনটিউনিং এবং ডেটার এলোমেলো সংমিশ্রণ সহ একটি বহুভাষিক। সমস্ত মডেল বহুভাষিক এম্বেডিং (RoBERTa) এর উপর ভিত্তি করে হয় একভাষিক বা বহুভাষিকভাবে। লক্ষ্য করুন যে আমরা কাতালানদের জন্য কোন মডেলকে প্রশিক্ষণ দিই না। এর সাথে, আমরা একক- এবং বহুভাষিক ফাইনটিউনিং-এর কর্মক্ষমতা তুলনা করতে চাই এবং শূন্য-শট ভাষা স্থানান্তরের জন্য বহুভাষিক মডেল ব্যবহার করার সম্ভাবনা অন্বেষণ করতে চাই।
সংবাদপত্রের নিবন্ধগুলির সাথে মোটা শ্রেণীবিভাগ। সারণী 2 ফলাফলের সংক্ষিপ্ত বিবরণ। সমস্ত মডেল বৈধকরণ সেটে 95% এর বেশি নির্ভুলতা অর্জন করে যা প্রশিক্ষণ ডেটার মতো একই বিতরণ থেকে বের করা হয়। মডেলগুলি অদেখা ডেটার সাথে কীভাবে আচরণ করে তা দেখার জন্য, আমরা সারণী 1 এর পরীক্ষার সংবাদপত্রগুলিতে বাম (L) এবং ডান (R) হিসাবে শ্রেণীবদ্ধ নিবন্ধগুলির শতাংশ গণনা করি৷ আমরা 1000টি বুটস্ট্র্যাপ সহ পরীক্ষার সেটগুলির বুটস্ট্র্যাপ পুনরায় নমুনা সম্পাদন করি৷ 95% স্তরে আত্মবিশ্বাসের ব্যবধান পেতে। আমরা আশা করি না যে বামপন্থীদের দিকে ঝুঁকে থাকা সংবাদপত্রের সমস্ত নিবন্ধ বামপন্থীদের স্পষ্ট বৈশিষ্ট্যগুলি দেখাবে, তবে কোনও নিরপেক্ষ শ্রেণী না থাকায় আমরা আশা করি যে তাদের বেশিরভাগই বাম হিসাবে শ্রেণীবদ্ধ হবে। একটি ভাল ফলাফল অগত্যা 100%-0% নয়, কারণ এটি বাস্তবসম্মতও হবে না। আমরা বিবেচনা করি যে একটি সংবাদপত্রকে একটি বাম/ডান রাজনৈতিক অবস্থানের হিসাবে শ্রেণীবদ্ধ করা হয়েছে যদি তার নিবন্ধগুলির 50% এর বেশি এই হিসাবে শ্রেণীবদ্ধ করা হয়। এই কেসগুলি সারণি 2 এ সাহসীভাবে দেখানো হয়েছে।
এই আচরণ আমরা সমস্ত পরীক্ষার সংবাদপত্রের জন্য কিন্তু জার্মান রাইট-ওরিয়েন্টেড সংবাদপত্রের জন্য পাই: die Preußische Allgemeine Zeitung (PAZ)৷ জার্মান মডেলকে শুধুমাত্র 12টি সংবাদপত্রে প্রশিক্ষিত করা হয় যা ইংরেজিতে 47টি এবং স্প্যানিশ ভাষায় 38টি সংবাদপত্রের সাথে তুলনা করা যায়। ভুল শ্রেণীবিভাগ একটি ইঙ্গিত হতে পারে যে বৈচিত্র্য চূড়ান্ত মডেল কর্মক্ষমতা জন্য একটি মূল দিক। বহুভাষিকতা সাহায্য করে না এবং PAZ নিবন্ধগুলির 65% এখনও বাম ভিত্তিক হিসাবে শ্রেণীবদ্ধ। আমরা জার্মান ডেটা, দুটি কাছাকাছি ভাষাতে ইংরেজি মডেলের কার্যকারিতাও মূল্যায়ন করি। আমরা স্বীকার করি যে মার্কিন যুক্তরাষ্ট্র এবং জার্মান সংবাদপত্রের বিষয়গুলি অনেক আলাদা হতে পারে, তবে ইংরেজি প্রশিক্ষণের ডেটার উচ্চ বৈচিত্র্য সম্ভাব্যভাবে এর জন্য ক্ষতিপূরণ দিতে পারে। ইংরেজি মডেল জার্মান মাই হেইম্যাটকে একটি বাম-ভিত্তিক সংবাদপত্র (L: 67±3%) এবং PAZ একটি ডান-ভিত্তিক সংবাদপত্র (R: 58±5%) হিসাবে সঠিকভাবে শ্রেণীবদ্ধ করতে সক্ষম। আমরা আবার পার্থক্যের জন্য দায়ী করি জার্মান মডেলকে বৈচিত্র্যহীন একটি কর্পাসে প্রশিক্ষণ দেওয়া হচ্ছে। যখন আমরা বহুভাষিক সিস্টেম ব্যবহার করি, আউটপুটগুলিকে আলাদা করার প্রভাবশালী ফ্যাক্টরটি অবস্থানের পরিবর্তে ভাষা নিজেই। ইংরেজি তথ্য সংযোজন উল্লেখযোগ্যভাবে শ্রেণীবিভাগ পরিবর্তন করার জন্য অপর্যাপ্ত। যখন আমরা ইংরেজি সিস্টেম ব্যবহার করি, তখন ভাষা আর কোনো ভূমিকা পালন করে না এবং শুধুমাত্র স্ট্যান্স বৈশিষ্ট্য বিবেচনা করা হয়। যখন আমরা কাতালান সংবাদপত্রগুলিতে ইংরেজি মডেল প্রয়োগ করি তখন আমরা সন্তোষজনক ফলাফল পাই না যদিও (বামদের জন্য 95±1% কিন্তু ডান সংবাদপত্রের জন্য 16±3%) দেখায় যে ভাষাগুলির মধ্যে সম্পর্ক গুরুত্বপূর্ণ। বহুভাষিক মডেলটি যদিও সঠিকভাবে কাতালান সংবাদপত্রের অবস্থান সনাক্ত করে কারণ এটি একটি ভিন্নধর্মী কর্পাসের সাথে প্রশিক্ষিত হয়েছে যার মধ্যে একটি সম্পর্কিত ভাষা (স্প্যানিশ) রয়েছে। আমরা শূন্য-শট ভাষা স্থানান্তর শ্রেণীবিভাগ সঞ্চালন করতে সক্ষম যখন আমরা ঘনিষ্ঠ সম্পর্কিত ভাষা নিয়ে কাজ করি।
ILM-উত্পাদিত নিবন্ধগুলির সাথে মোটা শ্রেণীবিভাগ। সারণি 2 এর নীচের অংশটি ফলাফলের বিবরণ দেয়। আমরা প্রথমে ইংরেজি এবং স্প্যানিশ মডেলগুলিতে ফোকাস করি কারণ জার্মানরা আমাদের পরীক্ষার সংবাদপত্রগুলিকে সঠিকভাবে শ্রেণীবদ্ধ করেনি। ChatGPT-তে লক্ষ্য করা সবচেয়ে প্রাসঙ্গিক দিক হল ফেব্রুয়ারি (v02) এবং মে (v05) এর মধ্যে রাজনৈতিক অবস্থানে শক্তিশালী পরিবর্তন এবং তারপরে আগস্টে (v08) নিরপেক্ষতার দিকে একটি আন্দোলন। আমরা পরীক্ষা করেছি যে এই পোলারিটি পরিবর্তনটি আউটপুটগুলির দৈর্ঘ্যের প্রভাব নয় - উত্পন্ন নিবন্ধগুলিতে প্রধান অগভীর পরিবর্তন৷ ইংরেজিতে প্রশিক্ষণের ডেটাতে 584<দৈর্ঘ্য (শব্দ)<624টি (ChatPGTv05 দৈর্ঘ্যের অনুরূপ) সহ 5,730L–6,988 R নিবন্ধ এবং 331< দৈর্ঘ্য<371 (ChatGPtv02 এর অনুরূপ) সহ 4,563 L-7,127 R নিবন্ধ রয়েছে। উভয় ক্ষেত্রেই ডান অবস্থানের জন্য নিবন্ধের সংখ্যা বেশি, কিন্তু ChatGPTv02-এর ভবিষ্যদ্বাণী স্পষ্টভাবে বাম দিকে নির্দেশ করে, এই অনুমানটিকে প্রত্যাখ্যান করে যে দৈর্ঘ্য শ্রেণিবিন্যাসে একটি ভূমিকা পালন করে। একটি অনুরূপ জিনিস স্প্যানিশ জন্য ঘটবে. আমাদের মডেল অনুসারে, সম্পাদকীয় লাইনের 24 শে মে সংস্করণটি সঠিক আদর্শের কাছাকাছি, যা পূর্ববর্তী সংস্করণগুলির আদর্শ থেকে পৃথক। উল্লেখযোগ্যভাবে, চেন এট আল অনুসারে এই সময়কালটি বেশ কয়েকটি কাজের হ্রাসের সাথে মিলে যায়। (2003)। জার্মান এবং কাতালান আউটপুটগুলি এখনও v05-এ বাম মতাদর্শ থেকে একটি ছাপ দেখাবে তবে আমাদের একভাষিক মডেলগুলির সাথে এটি নিশ্চিত করার জন্য আরও বৈচিত্র্যময় প্রশিক্ষণ ডেটার প্রয়োজন হবে৷ এটি লক্ষ্য করা আকর্ষণীয় যে যদি আমরা জার্মান এবং কাতালানের জন্য ইংরেজি একভাষিক মডেল ব্যবহার করি, তবে আমরা এখনও বাম ছাপ (জার্মানদের জন্য 60±10% এবং কাতালানের জন্য 87±7%)। সুতরাং আমাদের কাছে ইঙ্গিত রয়েছে যে ChatGPT-এর রাজনৈতিক অবস্থান ভাষার উপর নির্ভর করে, যা ডেটা-চালিত সিস্টেমে আশ্চর্যজনক নয়। শেষ সংস্করণ, ChatGPTv08, সবচেয়ে নিরপেক্ষ পাঠ্য তৈরি করে, শুধুমাত্র জার্মান স্পষ্টভাবে বাম দিকে ঝুঁকেছে। দুটি প্রজন্ম, v08a এবং v08b, দেখায় যে ফলাফলগুলি শক্তিশালী এবং একটি নির্দিষ্ট প্রজন্মের সাথে আবদ্ধ নয়।
বহুভাষিক বার্ডের জন্য শুধুমাত্র একটি সংস্করণ উপলব্ধ রয়েছে যা আমাদের সময়সীমাকে কভার করে। প্রজন্মের মধ্যে পার্থক্য ChatGPT-এর তুলনায় বার্ডের জন্য বড় কিন্তু, v08 সংস্করণের তুলনা করে, বার্ড ভাষা জুড়ে আরও সামঞ্জস্যপূর্ণ উপায়ে বাম দিকে নির্দেশ করে। বার্ডের রাজনৈতিক অভিমুখিতা রাজনৈতিক পরীক্ষা বা কুইজের প্রশ্নের উত্তর দ্বারাও নির্ধারণ করা যেতে পারে। পলিটিক্যাল কম্পাস (পিসি) সাইট[8] রাজনৈতিক মতাদর্শকে চিহ্নিত করার জন্য 62টি প্রস্তাবনাকে সংজ্ঞায়িত করে—একটি ইউরোপীয়/পশ্চিমা দৃষ্টিভঙ্গির সঙ্গে— দুটি অক্ষে: অর্থনৈতিক নীতি (বাম-ডান) এবং সামাজিক নীতি (কর্তৃত্ববাদী-স্বাধীনতাবাদী), উভয় পরিসরে [-১০,১০]। প্রতিটি প্রস্তাব 4টি বিকল্প দ্বারা অনুসরণ করা হয়: দৃঢ়ভাবে একমত, একমত, অসম্মত এবং দৃঢ়ভাবে অসম্মত। প্রশ্নাবলীর সাথে অনুরোধ করা হলে, [9] বার্ডের স্কোর হল ইংরেজির জন্য (-6.50, -4.77), জার্মানের জন্য (-8.00, -7.13), স্প্যানিশের জন্য (-5.75, -4.15) এবং (-6.75, -4.56) কাতালান, যেখানে প্রথম সংখ্যাটি অর্থনৈতিক নীতির সাথে এবং দ্বিতীয়টি সামাজিক নীতির সাথে মিলে যায়। ফলাফলগুলি সারণি 2 এর সাথে সামঞ্জস্যপূর্ণ এবং আমাদের পদ্ধতির একটি পরোক্ষ বৈধতা দেয় যা সরাসরি প্রশ্নের উপর নির্ভর করে না।[10]
এই ধরনের বিশ্লেষণ ChatGPT-এর সাথে আর সম্ভব নয় কারণ এটি মতামত এবং পছন্দ প্রকাশ করা থেকে বিরত থাকে, এমন একটি পদ্ধতির প্রাসঙ্গিকতা প্রদর্শন করে যা আরও পরোক্ষ উপায়ে ঝোঁক সনাক্ত করে। এছাড়াও লক্ষ্য করুন যে এই প্রশ্নাবলীগুলি সুপরিচিত এবং সর্বজনীন, তাই একজন LM কে প্রশ্নগুলি এড়াতে বা নিরপেক্ষভাবে এর প্রস্তাবগুলিতে প্রতিক্রিয়া জানাতে নির্দেশ দেওয়া সহজ হবে৷ পূর্ববর্তী কাজ ChatGPT এর অভিযোজন অনুমান করার জন্য শুধুমাত্র রাজনৈতিক পরীক্ষা এবং প্রশ্নাবলী ব্যবহার করেছিল। হার্টম্যান এট আল। (2023) পিসি ব্যবহার করেছে, ভোটিং পরামর্শ অ্যাপ্লিকেশন ওয়াহল-ও-ম্যাট (জার্মানি) থেকে 38টি এবং স্টেমউইজার (নেদারল্যান্ডস) থেকে 30টি রাজনৈতিক বিবৃতি এই সিদ্ধান্তে পৌঁছেছে যে 15 ডিসেম্বর 2022-এর সংস্করণে ChatGPT-এর মতাদর্শ ছিল পরিবেশ-সমর্থক এবং বাম-স্বাধীনতাবাদী .
ম্যানহাটন ইনস্টিটিউট ফর পলিসি রিসার্চ[11] দ্বারা পরিচালিত একটি সমীক্ষা জানিয়েছে যে চ্যাটজিপিটি ইংরেজির জন্য কেন্দ্রের বাম রাজনৈতিক দৃষ্টিভঙ্গিগুলির সাধারণ প্রতিক্রিয়া দেওয়ার প্রবণতা রাখে (রোজাডো, 2023)। লেখকরা 9 জানুয়ারী ChatGPT সংস্করণে 15টি রাজনৈতিক অভিযোজন পরীক্ষা পরিচালনা করেছেন। তাদের ফলাফল 13 ফেব্রুয়ারী মডেলের আমাদের মূল্যায়নের সাথে সামঞ্জস্যপূর্ণ। অবশেষে, Motoki et al. (2023) PC-এর উপর ভিত্তি করে একটি ব্যাটারি পরীক্ষা করে দেখায় যে ChatGPT দৃঢ়ভাবে বাম দিকের পক্ষপাতী। লেখকরা তারা যে সংস্করণটি ব্যবহার করেন তা উল্লেখ করেননি, তবে কাজটি 2023 সালের মার্চে জমা দেওয়া হয়েছিল। এই সমস্ত ফলাফল তাই মে মাসে আমরা সনাক্ত করা ডানদিকে সরানোর আগে।
[৭] লক্ষ্য করুন যে আমরা যে সংস্করণটি ব্যবহার করি তা আনুষ্ঠানিকভাবে কাতালান সমর্থন করে না, তবে স্থানীয় ভাষাভাষীরা নিশ্চিত করেছেন যে প্রজন্মের বেশিরভাগই সঠিক এবং কিছু ব্যাকরণগত ভুলের সাথে সাবলীল।
[৮] https://www.politicalcompass.org/test (13 এবং 20 আগস্ট 2023 এর মধ্যে অ্যাক্সেস করা হয়েছে)
[৯] স্প্যানিশ প্রশ্নপত্রটি কাতালান ভাষায় অনুবাদ করা হয়েছিল, কারণ প্রশ্নপত্রটি উপলব্ধ ছিল না।
[১০] যদিও, মানুষের মতই, একজন ILM-এর পক্ষে একটি জিনিস বলা (একটি প্রস্তাবের জন্য একটি বিকল্প বেছে নেওয়া) এবং একটি অসঙ্গতিপূর্ণ উপায়ে কাজ করা (একটি পাঠ্য লিখুন) সম্ভব।
[১১] উইকিপিডিয়া অনুসারে একটি রক্ষণশীল থিঙ্ক ট্যাঙ্ক।