Yazarlar:
(1) Anees Baqir, Venedik Ca' Foscari Üniversitesi, İtalya;
(2) Alessandro Galeazzi, Venedik Ca' Foscari Üniversitesi, İtalya;
(3) Fabiana Zollo, Venedik Ca' Foscari Üniversitesi, İtalya ve Yeni Çevresel Beşeri Bilimler Enstitüsü Merkezi, İtalya.
Veriler, toplanma sırasında akademisyenlerin kullanımına ücretsiz olarak sunulan, akademik araştırmalara yönelik resmi Twitter API'si [1] kullanılarak toplanmıştır. NewsGuard veri kümesinden alınan hesapların listesine dayanarak (bkz. Tablo 1), İtalya, Almanya, Fransa ve Birleşik Krallık'ta bulunan medya kaynaklarının Twitter zaman çizelgelerini 2019'dan 2021'e kadar üç yıl boyunca indirdik. NewsGuard, hesapları değerlendiren bir araçtır. haber kaynaklarının güvenilirliği dokuz gazetecilik kriterine dayanmaktadır. Profesyonel ve bağımsız gazetecilerden oluşan bir ekip, bu kriterlerin ardından her haber kaynağına 0 ile 100 arasında bir “güven puanı” veriyor. Derecelendirmeler bireylere, hiciv içeriklerine veya Twitter, Facebook ve YouTube gibi sosyal medya platformlarına verilmemektedir. Haber kaynakları puanlarına göre iki gruba ayrılır: Güvenilir (güven puanı 60'a eşit veya büyük) ve Şüpheli (güven puanı 60'tan az). Eşik, değerlendirme kriterlerine göre NewsGuard tarafından belirlenir.
Herkese açık Twitter hesaplarından yalnızca herkese açık içeriği topladık. Veri seti, 01 Ocak 2019'dan 11 Kasım 2021'e kadar seçilen hesaplar tarafından yayınlanan tüm tweet'leri içeriyordu ve sonuçta 25 Milyondan fazla tweet oluştu. Tablo 2'de verilerin dökümü verilmektedir. Her ülkenin toplam miktara katkıda bulunan gönderilerin yüzdesi parantez içinde gösterilir.
Analizimizin ülkeler arası karşılaştırmalar için Avrupa düzeyinde tartışılan konulara odaklanmasını sağlamak için orijinal veri kümemize anahtar kelime filtreleri uyguladık. Veri setimizi birer yıllık üç bölüme ayırdık ve her bir bölümü, o yıl için Avrupa düzeyinde en çok tartışılan konuyla ilgili anahtar kelimeler listesine göre filtreledik. Filtrelenen verilere ilişkin istatistikler Tablo 3'te bulunabilir.
Filtrelenen veri kümesindeki tweetler için tüm retweetleri topladık. Her konuya ilişkin orijinal tweet ve retweet sayılarına ilişkin ayrıntılar Tablo 3'te bulunabilir.
Son olarak, tüm 0 derecelik düğümleri hariç tuttuk ve ağırlığı tüm kenar ağırlıklarının ortancasının altında olan tüm kenarları sildik. Bu yaklaşım, Avrupa bağlamında seçilmiş konularla ilgili haber kuruluşlarının izleyici kitlesi arasındaki en güçlü benzerlikleri yakalamamızı sağladı.
İncelenen tüm ülkelerde yaygın olan hararetli konuları belirlemek için bir belge koleksiyonundan gizli konuları çıkaran bir konu modelleme aracı olan BERTopic'i kullandık. BERTopic, yakın zamanda çeşitli görevlerde umut verici sonuçlar ortaya koyan, önceden eğitilmiş cümle transformatörleri (Grootendorst, 2022) için genelleştirilmiş bir top2vec modelidir. BERTopic, üç adım aracılığıyla tutarlı belge kümeleri oluşturur: 1) belge yerleştirmelerinin çıkarılması; 2) kümeleme yerleştirmeleri; 3) sınıf tabanlı TF-IDF (Sammut ve Webb, 2011) (c-TF-IDF) kullanarak konu temsilleri oluşturmak. İlk adımda, önceden eğitilmiş herhangi bir transformatör tabanlı dil modeli kullanılabilir ve bu da son teknoloji gömme tekniklerinin kullanılmasına olanak tanır. İkinci adımda, yerleştirmelerin boyutunu azaltmak için tekdüze manifold yaklaşımı ve projeksiyonu (UMAP) (McInnes ve diğerleri, 2018) ve semantik olarak benzer belge kümeleri oluşturmak için uygulamaların Gürültüyle (HDBSCAN) hiyerarşik yoğunluk tabanlı uzamsal kümelenmesi (McInnes) kullanılır. ve diğerleri, 2017). Konulardan biri 'diğerleri' olarak belirlenmiş olup, farklı konularda yer almayan dokümanları içermektedir.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .
[1] https://developer.twitter.com/en/docs/twitter-api