Bu makale arxiv'de CC BY-NC-SA 4.0 DEED lisansı altında mevcuttur.
Yazarlar:
(1) Cristina España-Bonet, DFKI GmbH, Saarland Bilişim Kampüsü.
Görevimize iki sınıflı bir sınıflandırma problemi olarak yaklaşıyoruz: Sol (L) ve Sağ (R) siyasi yönelimler. Bu, makalelerin aynı zamanda tarafsız olabildiği ve farklı derecelerde önyargıların olabileceği asıl sorunun basitleştirilmesidir. Önceki çalışmalar her zaman nötr seçeneği içeren 3 veya 5 sınıfa dayanıyordu (Baly ve diğerleri, 2020; Aksenov ve diğerleri, 2021). Bu çalışmalarda, verilere manuel olarak açıklama eklenerek yüksek kaliteli eğitim verileri yaratıldı, ancak aynı zamanda kapsanan diller ve ülkeler açısından çalışmanın kapsamı da büyük oranda kısıtlandı. İnce taneli sınıflandırma ölçeğini kullanırken yazarlar, sınıflandırıcıların yeni kaynaklara kötü genelleme yaptığını kabul ederler. Öte yandan García-Díaz ve ark. (2022) ve Russo ve ark. (2023) tarafsız sınıfı hariç tutuyor ve sırasıyla İspanyol ve İtalyan siyasetçilerin tweetlerini ikili veya çok sınıflı Sol-Sağ sınıflandırmasıyla çalışıyor, ancak çalışmaları daha uzun metinler içermiyor. İnsanların daha içgüdüsel ve dolayısıyla muhtemelen daha kutuplaşmış olduğu bir tür olan tweetlerle çalıştıkları için ikili sınıflandırma haklı görülebilir. Bizim durumumuzda, sınıflandırıcının görünmeyen kaynaklara iyi bir şekilde genelleme yaptığından emin olmalıyız ve eğitimdeki nötr makalelerin sayısını en aza indirirken 2 sınıflı göreve sadık kalıyoruz (aşağıya bakın).
Uzaktan Denetim. Bildiğimiz kadarıyla yalnızca İngilizce (Baly vd., 2020) ve Almanca (Aksenov vd., 2021) bir gazete külliyatı elle açıklamalı olarak mevcuttur. Kulkarni ve arkadaşlarının ruhuna uygun olarak farklı bir yaklaşım izliyoruz. (2018) ve Kiesel ve ark. (2019). Herhangi bir makaleye manuel olarak açıklama eklemiyoruz ancak gazete önyargısı sınıflandırmasında AllSides, MB/FC, Political Watch ve Wikipedia'ya (yalnızca bilginin önceki sitelerde mevcut olmadığı durumlarda ikincisi) güveniyoruz. Bu bilgileri ABD, Almanya, İspanya ve Katalonya'daki gazeteler için alıyoruz. Gazetelerin listesi, URL'leri[4] ve duruşlarıyla, makalelere ulaşmak için Ortak Tarama (Ortiz Suárez ve diğerleri, 2019; Abadji ve diğerleri, 2021) filtrelenerek elde edilen çok dilli bir derlem olan OSCAR'ı kullanıyoruz. . Ek A'da bu çalışmada kullanılan kaynaklar listelenmektedir: 742.691 makaleyle 47 ABD gazetesi, 143.200 makaleyle 12 Almanca, 301.825 ile 38 İspanyolca ve 70.496 makaleyle 19 Katalanca.
Konu Modelleme. Tüm makalelerin önyargısı yoktur, bazı konular diğerlerinden daha yatkındır. Bir gazetenin Spor bölümü genellikle siyasi önyargıları yansıtmaya daha az eğilimliyken, Uluslararası bölümünde bunun tersi olur. Bu nedenle ikili sınıflandırmamız için ilgili eğitim verilerinin bir alt kümesini seçmek amacıyla konuları kullanırız. OSCAR'dan çıkarılan makaleler üzerinde, Gibbs örneklemesi ile LDA'yı uygulayan Mallet (McCallum, 2002) kullanılarak konu modellemesi yapıyoruz. Verileri dil başına hem 10 hem de 15 grupta kümeliyoruz; bu da kabaca bir gazetenin sahip olduğu bölüm sayısına karşılık geliyor. Her konu için çıkarılan anahtar kelimeler Ek B'de listelenmiştir. Uluslararası, Hükümet, Hukuk ve Adalet, Ekonomi, Canlı Bilim/Ekoloji olarak etiketlediğimiz konuların ve Göçmenlik ve Şiddet gibi dile bağlı belirli konuların kapsamına giren makaleleri seçiyoruz. İngilizce, Almanca için Nazizm ve İspanyolca için Sosyal. Seçim, anahtar kelimelerin incelenmesinden sonra yapılır. Nihai veri seti için 10 ve 15 konuya kümelenmiş seçilmiş makalelerin birleşimini yapıyoruz. Süreç, İspanyolca makalelerin %49'unu, Almanca makalelerin %39'unu ve İngilizce makalelerin %31'ini filtreliyor.
Ön İşleme ve Temizleme. 2000'den fazla veya 20'den az kelime içeren makaleleri temizlemeden önce atıyoruz. Daha sonra tespit edilen üstbilgileri, altbilgileri ve ortak metinleri kaldırıyoruz. Bu metin, sinirsel sınıflandırıcıyı yanıltma potansiyeline sahiptir çünkü sınıflandırıcıyı, gazetelerin siyasi duruşuna odaklanmak yerine gazeteler arasında ayrım yapmayı öğrenmeye teşvik edebilir. Test etmek için dile ve duruşa göre bir gazete seçiyoruz ve makalelerini manuel olarak temizliyoruz. Her dil için dengeli bir eğitim külliyatı oluşturmak amacıyla, kalan koleksiyondan benzer sayıda Sol ve Sağ odaklı makaleyi rastgele seçiyoruz. Bu dengeli veri seti, Tablo 1'de (üst sıralar) gösterildiği gibi eğitim ve doğrulamaya bölünmüştür.
ChatGPT/Bard Corpus. 101 makaleden oluşan çok dilli bir veri seti oluşturuyoruz. Bunun için konut fiyatları, kürtaj, tütün, Barak Obama gibi 101 konuyu tanımlayıp manuel olarak 4 dile çeviriyoruz (bkz. Ek D). Konular, feminizm, kapitalizm, ekolojizm, teknoloji vb. ile ilgili konular gibi siyasi duruşa sahip konuları ele alıyor. Ayrıca, dikkate alınan 4 ülkedeki, biyografileri siyasi duruşa bağlı olarak farklılık gösterebilecek kişilerin özel isimlerini de dahil ediyoruz. yazar. Bu konular şablon bilgi istemine (ve Almanca, İspanyolca ve Katalanca çevirilerine) eklenmiştir:[5] [SUBJECT]tr hakkında bir gazete makalesi yazın.
ChatGPT'yi (GPT-3.5-Turbo) dört zaman diliminde aynı konuları kullanarak beş kez yönlendiriyoruz. Veri kümesini 13 Şubat (v02), 23 Mart (v03), 24 Mayıs (v05) ve 3 Ağustos (v08) ChatGPT sürümleriyle oluşturuyoruz; 4 dili aynı anda yalnızca son ikisiyle birlikte ele alıyoruz. ChatGPTv05, yazarın adı, tarih ve/veya şehirle doldurulacak yuvalara sahip, makale odaklı bir yapıya sahip, diğerlerinden önemli ölçüde daha uzun metinler üretir. Çok Dilli Bard daha sonra kullanıma sunuldu ve ChatGPTv8 ile aynı dönemde iki kez etkinleştiriyoruz.[6] Tablo 1'de bu derlemin istatistikleri gösterilmektedir.
[4] Bu, bir haber kaynağının alan adı altında yer alan haber olsun veya olmasın tüm makalelerin seçilmesi anlamına gelir.
[5] Daha spesifik istemler, ChatGPT'nin ilk sürümleri için farklı stillere yol açmadı, sonuncusu için alt başlıklar olmadan ... gibi daha fazla bilgi ekledik. aşırı alt bölümlere ayırmayı ve/veya madde işaretlerini önlemek için. Ne ChatGPT ne de Bard talimatları her zaman gerektiği gibi takip etmedi. Sağladığımız veri kümesi, kullandığımız istemleri içerir.
[6] ChatGPT'nin aksine nesil konuma bağlı olduğundan, 14–21 Ağustos 2023'te İngilizce ve Almanca için Berlin'den, İspanyolca ve Katalanca için Barselona'dan istenmiştir.