tác giả:
(1) Anees Baqir, Đại học Ca' Foscari ở Venice, Ý;
(2) Alessandro Galeazzi, Đại học Ca' Foscari ở Venice, Ý;
(3) Fabiana Zollo, Đại học Ca' Foscari ở Venice, Ý và Viện Mới về Nhân văn Môi trường, Ý.
Dữ liệu được thu thập bằng API Twitter chính thức dành cho nghiên cứu học thuật [1], được cung cấp miễn phí cho các học giả tại thời điểm thu thập. Dựa trên danh sách các tài khoản được lấy từ tập dữ liệu NewsGuard (xem Bảng 1), chúng tôi đã tải xuống dòng thời gian Twitter của các nguồn truyền thông có trụ sở tại Ý, Đức, Pháp và Vương quốc Anh trong ba năm từ 2019 đến 2021. NewsGuard là một công cụ đánh giá độ tin cậy của các hãng tin tức dựa trên chín tiêu chí báo chí. Tuân theo những tiêu chí như vậy, một nhóm các nhà báo chuyên nghiệp và độc lập sẽ ấn định “điểm tin cậy” từ 0 đến 100 cho mỗi cơ quan báo chí. Xếp hạng không được cung cấp cho các cá nhân, nội dung châm biếm hoặc các nền tảng truyền thông xã hội như Twitter, Facebook và YouTube. Các nguồn tin tức được phân loại thành hai nhóm dựa trên điểm số của chúng: Đáng tin cậy (điểm tin cậy lớn hơn hoặc bằng 60) và Có thể nghi vấn (điểm tin cậy dưới 60). Ngưỡng được NewsGuard đặt ra dựa trên tiêu chí đánh giá.
Chúng tôi chỉ thu thập nội dung có sẵn công khai từ các tài khoản Twitter công khai. Tập dữ liệu bao gồm tất cả các tweet được xuất bản bởi các tài khoản đã chọn trong khoảng thời gian từ ngày 01 tháng 1 năm 2019 đến ngày 11 tháng 11 năm 2021, tạo ra hơn 25 triệu tweet. Bảng 2 trình bày chi tiết dữ liệu. Tỷ lệ bài viết của mỗi quốc gia đóng góp vào tổng số tiền được hiển thị trong ngoặc đơn.
Để đảm bảo rằng phân tích của chúng tôi tập trung vào các chủ đề được tranh luận ở cấp độ Châu Âu để so sánh giữa các quốc gia, chúng tôi đã áp dụng bộ lọc từ khóa cho tập dữ liệu ban đầu của mình. Chúng tôi chia tập dữ liệu của mình thành ba phân đoạn một năm và lọc từng phân đoạn theo danh sách từ khóa liên quan đến chủ đề được thảo luận nhiều nhất ở cấp độ Châu Âu trong năm đó. Số liệu thống kê cho dữ liệu được lọc có thể được tìm thấy trong Bảng 3.
Đối với các tweet trong tập dữ liệu đã lọc, chúng tôi đã thu thập tất cả các tweet lại. Thông tin chi tiết về số lượng tweet gốc và số lượng tweet lại cho từng chủ đề có thể được tìm thấy trong Bảng 3.
Cuối cùng, chúng tôi loại trừ tất cả các nút 0 độ và xóa tất cả các cạnh có trọng số dưới mức trung bình của tất cả các trọng số cạnh. Cách tiếp cận này cho phép chúng tôi nắm bắt được những điểm tương đồng mạnh mẽ nhất giữa khán giả của các hãng tin tức liên quan đến các chủ đề được chọn trong bối cảnh Châu Âu.
Chúng tôi đã sử dụng BERTopic, một công cụ lập mô hình chủ đề giúp trích xuất các chủ đề tiềm ẩn từ một bộ sưu tập tài liệu, để xác định các chủ đề nóng phổ biến ở tất cả các quốc gia được kiểm tra. BERTopic là một mô hình top2vec được tổng quát hóa cho các trình biến đổi câu được huấn luyện trước (Grootendorst, 2022) gần đây đã cho thấy kết quả đầy hứa hẹn trong nhiều nhiệm vụ khác nhau. BERTopic tạo ra các cụm tài liệu mạch lạc thông qua ba bước: 1) trích xuất các phần nhúng tài liệu; 2) nhúng cụm; 3) tạo các biểu diễn chủ đề bằng cách sử dụng TF-IDF dựa trên lớp (Sammut và Webb, 2011) (c-TF-IDF). Trong bước đầu tiên, bất kỳ mô hình ngôn ngữ dựa trên máy biến áp được đào tạo trước nào cũng có thể được sử dụng, cho phép sử dụng các kỹ thuật nhúng hiện đại nhất. Bước thứ hai sử dụng phép chiếu và xấp xỉ đa tạp thống nhất (UMAP) để giảm kích thước của các phần nhúng (McInnes và cộng sự, 2018) và phân cụm không gian dựa trên mật độ phân cấp của các ứng dụng có Nhiễu (HDBSCAN) để tạo ra các cụm tài liệu tương tự về mặt ngữ nghĩa (McInnes và cộng sự, 2017). Một trong các chủ đề được đặt là 'khác' và bao gồm các tài liệu không có trong các chủ đề khác nhau.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
[1] https://developer.twitter.com/en/docs/twitter-api