Bu makale arxiv'de CC BY-NC-SA 4.0 DEED lisansı altında mevcuttur.
Yazarlar:
(1) Cristina España-Bonet, DFKI GmbH, Saarland Bilişim Kampüsü.
Ağ. **Değerlendirdiğimiz 4 dil de dahil olmak üzere 100 dilde eğitim almış, çok dilli, transformatör**tabanlı maskeli bir LM olan XLM-RoBERTa Large'a (Conneau ve diğerleri, 2020) ince ayar yaptık. Ağın ayrıntıları ve model başına hiperparametre keşfi Ek F'de rapor edilmiştir.
Modeller. 4 modeli eğitiyoruz: İngilizce, Almanca ve İspanyolca verileriyle 3 tek dilli ince ayar, artı verilerin karıştırılmış birleşimiyle çok dilli bir model. Tüm modeller, tek dilli veya çok dilli olarak ince ayarlı çok dilli yerleştirmelere (RoBERTa) dayanmaktadır. Katalanca için herhangi bir model eğitmediğimize dikkat edin. Bununla tek dilli ve çok dilli ince ayarların performansını karşılaştırmak ve sıfır atışlı dil aktarımı için çok dilli modellerin kullanılma olasılığını araştırmak istiyoruz.
Gazete Yazılarıyla Kaba Sınıflandırma. Tablo 2 sonuçları özetlemektedir. Tüm modeller, eğitim verileriyle aynı dağılımdan çıkarılan doğrulama setinde %95'in üzerinde doğruluk elde ediyor. Modellerin görünmeyen verilerle nasıl davrandığını görmek için Tablo 1'deki test gazetelerinde Sol (L) ve Sağ (R) olarak sınıflandırılan makalelerin yüzdesini hesaplıyoruz. 1000 önyüklemeli test setlerinin önyükleme yeniden örneklemesini gerçekleştiriyoruz %95 seviyesinde güven aralıkları elde etmek. Sola yönelen bir gazetenin tüm yazılarının Sol'un belirgin özelliklerini göstermesini beklemiyoruz ancak tarafsız bir sınıf olmadığı için çoğunluğunun Sol olarak sınıflandırılmasını bekliyoruz. İyi bir sonuç mutlaka %100-%0 olmak zorunda değildir, çünkü bu da gerçekçi olmayacaktır. Bir gazetenin makalelerinin %50'sinden fazlası Sol/Sağ siyasi duruşuna sahip olarak sınıflandırılmışsa, bu gazetenin Sol/Sağ siyasi duruşa sahip olarak sınıflandırıldığını düşünüyoruz. Bu durumlar Tablo 2'de kalın harflerle gösterilmiştir.
Bu, sağ eğilimli Alman gazetesi hariç tüm test gazeteleri için elde ettiğimiz davranıştır: die Preußische Allgemeine Zeitung (PAZ). Alman modeli yalnızca 12 gazete üzerinde eğitilirken, İngilizce'de 47 ve İspanyolca'da 38 gazete bulunuyor. Yanlış sınıflandırma, çeşitliliğin nihai model performansı açısından önemli bir husus olduğunun göstergesi olabilir. Çok dillilik yardımcı olmuyor ve PAZ makalelerinin %65'i hâlâ Sol odaklı olarak sınıflandırılıyor. Ayrıca İngilizce modelinin iki yakın dil olan Almanca verileri üzerindeki etkinliğini de değerlendiriyoruz. ABD ve Alman gazetelerinin konularının çok farklı olabileceğinin farkındayız, ancak İngilizce eğitim verilerinin yüksek çeşitliliği potansiyel olarak bunu telafi edebilir. İngiliz modeli, Alman My Heimat gazetesini Sol odaklı bir gazete (L: %67±3) ve PAZ'ı Sağ odaklı bir gazete (R: %58±5) olarak doğru bir şekilde sınıflandırabiliyor. Farklılığı yine Alman modelinin çeşitlilikten yoksun bir bütünle eğitilmiş olmasına bağlıyoruz. Çok dilli sistemi kullandığımızda çıktıları ayırt eden baskın faktör, duruştan ziyade dilin kendisidir. İngilizce verilerin eklenmesi sınıflandırmayı önemli ölçüde değiştirmek için yeterli değildir. İngilizce sistemini kullandığımızda artık dilin bir rolü kalmıyor ve sadece duruş özellikleri dikkate alınıyor. İngiliz modelini Katalan gazetelerine uyguladığımızda, diller arasındaki ilişkinin önemli olduğunu gösteren tatmin edici sonuçlar (Sol gazete için %95±1, Sağ gazete için %16±3) elde edemiyoruz. Ancak çok dilli model Katalan gazetelerinin duruşunu doğru bir şekilde tespit ediyor çünkü muhtemelen ilgili bir dili (İspanyolca) içeren heterojen bir külliyatla eğitilmiş. Yakın akraba dillerle uğraştığımızda sıfır atışlı dil aktarımı sınıflandırması yapabiliyoruz.
ILM tarafından oluşturulan Makalelerle Kaba Sınıflandırma. Tablo 2'nin alt kısmı sonuçları detaylandırmaktadır. Alman modeli test gazetelerimizi doğru şekilde sınıflandırmadığından öncelikle İngilizce ve İspanyolca modellere odaklanıyoruz. ChatGPT'de dikkat edilmesi gereken en önemli husus, Şubat (v02) ile Mayıs (v05) arasındaki siyasi duruştaki güçlü değişiklik ve ardından Ağustos'ta (v08) tarafsızlığa yönelik bir harekettir. Bu kutupsallık değişiminin çıktıların uzunluğunun bir etkisi olmadığını kontrol ettik; bu, oluşturulan makalelerdeki en büyük sığ değişimdir. İngilizce eğitim verileri, 584<uzunluk (kelimeler)<624 (ChatPGTv05 uzunluğuna benzer) olan 5.730L–6.988 R makalesine ve 331< uzunluk<371 (ChatGPtv02'ye benzer) sahip 4.563 L-7.127 R makalesine sahiptir. Her iki durumda da makale sayısı Sağ görüşler için daha fazla, ancak ChatGPTv02'ye yönelik tahmin açıkça Sol'a işaret ediyor ve uzunluğun sınıflandırmada rol oynadığı hipotezini reddediyor. Benzer şeyler İspanyolca için de geçerli. Bizim modellerimize göre, 24 Mayıs tarihli yayın çizgisi sağ ideolojiye yakın, önceki versiyonların ideolojisinden farklı. Özellikle Chen ve arkadaşlarına göre bu dönem birçok görevde düşüşe karşılık geliyor. (2003). Almanca ve Katalanca çıktılar v05'te de Sol ideolojinin izlerini göstermeye devam edecek ancak bunu tek dilli modellerimizle doğrulamak için daha çeşitli eğitim verilerine ihtiyaç duyulacak. Almanca ve Katalanca için İngilizce tek dilli modeli kullanırsak, hâlâ Sol damgayı taşıdığımızı fark etmek ilginçtir (Almanca için %60±10 ve Katalanca için %87±7). Yani ChatGPT'nin siyasi duruşunun dile bağlı olduğuna dair göstergelerimiz var ki bu, veri odaklı bir sistemde şaşırtıcı değil. Son sürüm olan ChatGPTv08, en tarafsız metinleri üretiyor ve yalnızca Almanca açıkça sola doğru eğiliyor. İki nesil, v08a ve v08b, sonuçların sağlam olduğunu ve belirli bir nesle bağlı olmadığını gösteriyor.
Bard'ın yalnızca çok dilli, bizim zaman çerçevemizi kapsayan bir sürümü mevcuttur.[7] Nesiller arasındaki fark, Bard'da ChatGPT'ye göre daha fazladır ancak v08 versiyonları karşılaştırıldığında Bard, diller arasında daha tutarlı bir şekilde Sola işaret etmektedir. Bard'ın siyasi yönelimi, siyasi test veya sınav sorularına verdiği yanıtlarla da belirlenebilir. Siyasi Pusula (PC) sitesi[8] siyasi ideolojiyi -Avrupa/Batılı bakış açısıyla- iki eksende tanımlamak için 62 önerme tanımlar: ekonomi politikası (Sol-Sağ) ve sosyal politika (Otoriter-Özgürlükçü), her ikisi de bu aralıktadır [-10,10]. Her önermenin ardından 4 alternatif gelmektedir: Tamamen katılıyorum, katılıyorum, katılmıyorum ve kesinlikle katılmıyorum. Ankette sorulduğunda Bard'ın puanları İngilizce için (-6,50, -4,77), Almanca için (-8,00, -7,13), İspanyolca için (-5,75, -4,15) ve İspanyolca için (-6,75, -4,56) şeklindedir. Katalancada ilk sayı ekonomi politikasına, ikincisi ise sosyal politikaya karşılık gelir. Sonuçlar Tablo 2 ile uyumludur ve doğrudan sorulara dayanmayan yöntemimizin dolaylı bir doğrulamasını sağlar.[10]
Bu tür bir analiz, görüş ve tercihleri ifade etmekten kaçındığı için ChatGPT ile artık mümkün değil, bu da eğilimi daha dolaylı bir şekilde tespit eden bir yaklaşımın uygunluğunu ortaya koyuyor. Ayrıca bu anketlerin iyi bilindiğini ve kamuya açık olduğunu unutmayın; dolayısıyla bir LM'ye sorulardan kaçınması veya önerilerine tarafsız bir şekilde tepki vermesi talimatını vermek kolay olacaktır. Önceki çalışmalarda ChatGPT'nin yönelimini tahmin etmek için yalnızca siyasi testler ve anketler kullanıldı. Hartmann ve ark. (2023), ChatGPT'nin 15 Aralık 2022 sürümündeki ideolojisinin çevre yanlısı ve sol-özgürlükçü olduğu sonucuna varmak için PC'yi, oylama tavsiyesi uygulaması Wahl-O-Mat'tan (Almanya) 38 siyasi ifadeyi ve StemWijzer'den (Hollanda) 30 siyasi ifadeyi kullandı. .
Manhattan Politika Araştırma Enstitüsü[11] tarafından yürütülen bir araştırma, ChatGPT'nin İngilizce için merkezin solundaki siyasi bakış açılarına özgü yanıtlar verme eğiliminde olduğunu bildirdi (Rozado, 2023). Yazarlar, 9 Ocak'taki ChatGPT sürümüne 15 siyasi yönelim testi uyguladılar. Bunların sonuçları, 13 Şubat modeliyle ilgili değerlendirmemizle tutarlı. Son olarak Motoki ve ark. (2023), ChatGPT'nin güçlü bir şekilde Sola eğilimli olduğunu göstermek için PC'ye dayalı bir dizi test gerçekleştirdi. Yazarlar kullandıkları sürümü belirtmiyor ancak çalışma Mart 2023'te teslim edildi. Dolayısıyla tüm bu sonuçlar, Mayıs ayında tespit ettiğimiz sağa doğru hareketten önce.
[7] Kullandığımız sürümün resmi olarak Katalancayı desteklemediğine dikkat edin, ancak anadili konuşanlar nesillerin çoğunlukla doğru ve akıcı olduğunu ve birkaç gramer hatası olduğunu doğruladılar.
[8] https://www.politicalcompass.org/test (13 ile 20 Ağustos 2023 arasında erişildi)
[9] İspanyolca anket, anket mevcut olmadığından Katalancaya çevrildi.
[10] Her ne kadar insanlara benzer şekilde bir ILM'nin de bir şeyi söylemesi (bir teklif için bir seçenek seçmesi) ve tutarsız bir şekilde hareket etmesi (bir metin yazması) mümkündür.
[11] Wikipedia'ya göre muhafazakar bir düşünce kuruluşu.