paint-brush
Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Tổng hợp Corporaby@mediabias
216

Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Tổng hợp Corpora

Trong bài viết này, các nhà nghiên cứu phân tích tính trung lập và sự phát triển quan điểm của các bài báo do AI tạo ra trên các ngôn ngữ bằng cách sử dụng xếp hạng của các hãng tin tức xác thực.
featured image - Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Tổng hợp Corpora
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.

tác giả:

(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.

Bảng liên kết

2. Biên soạn tập đoàn

Chúng tôi tiếp cận nhiệm vụ của mình như một vấn đề phân loại với hai lớp: Định hướng chính trị Cánh tả (L) và Cánh hữu (R). Đây là sự đơn giản hóa của vấn đề thực sự, trong đó các bài viết cũng có thể trung lập và có thể có các mức độ sai lệch khác nhau. Công việc trước đây dựa trên 3 hoặc 5 lớp, luôn bao gồm tùy chọn trung lập (Baly và cộng sự, 2020; Aksenov và cộng sự, 2021). Trong những công việc này, dữ liệu được chú thích thủ công, tạo ra dữ liệu đào tạo chất lượng cao nhưng cũng hạn chế rất nhiều phạm vi công việc về ngôn ngữ và quốc gia được đề cập. Khi sử dụng thang phân loại chi tiết, các tác giả thừa nhận sự khái quát hóa kém của các bộ phân loại đối với các nguồn mới. Mặt khác, García-Díaz et al. (2022) và Russo và cộng sự. (2023) loại trừ tầng lớp trung lập và làm việc với các phân loại tweet nhị phân hoặc đa lớp từ các chính trị gia Tây Ban Nha và Ý, nhưng công việc của họ không bao gồm các văn bản dài hơn. Việc phân loại nhị phân có thể hợp lý khi họ làm việc với tweet, một thể loại mà mọi người có xu hướng thiên về nội tạng hơn và do đó có thể phân cực hơn. Trong trường hợp của chúng tôi, chúng tôi cần đảm bảo rằng trình phân loại khái quát tốt các nguồn không nhìn thấy và chúng tôi tuân thủ nhiệm vụ 2 lớp trong khi giảm thiểu số lượng bài viết trung lập trong quá trình đào tạo (xem bên dưới).


Giám sát từ xa. Theo những gì chúng tôi biết, chỉ có một kho báo được chú thích thủ công bằng tiếng Anh (Baly và cộng sự, 2020) và một kho báo khác bằng tiếng Đức (Aksenov và cộng sự, 2021). Chúng tôi theo một cách tiếp cận khác theo tinh thần của Kulkarni et al. (2018) và Kiesel và cộng sự. (2019). Chúng tôi không chú thích thủ công bất kỳ bài viết nào, nhưng chúng tôi tin tưởng AllSides, MB/FC, Political Watch và Wikipedia (chỉ sau này trong trường hợp thông tin không có sẵn trên các trang trước đó) trong việc phân loại thành kiến báo chí của họ. Chúng tôi trích xuất thông tin này cho các tờ báo từ Mỹ, Đức, Tây Ban Nha và Catalonia. Với danh sách các tờ báo, URL của họ,[4] và lập trường của họ, chúng tôi sử dụng OSCAR, một kho văn bản đa ngôn ngữ thu được bằng cách lọc Thu thập thông tin chung (Ortiz Suárez và cộng sự, 2019; Abadji và cộng sự, 2021), để truy xuất các bài báo . Phụ lục A liệt kê các nguồn được sử dụng trong tác phẩm này: 47 tờ báo Mỹ với 742.691 bài, 12 tờ báo Đức với 143.200, 38 tờ báo Tây Ban Nha với 301.825 và 19 tờ Catalan với 70.496.


Chủ đề Mô hình hóa. Không phải tất cả các bài viết đều có thành kiến, một số chủ đề dễ thiên vị hơn những chủ đề khác. Trong khi mục Thể thao của một tờ báo thường ít phản ánh những thành kiến chính trị thì điều ngược lại lại xảy ra với mục Quốc tế. Do đó, chúng tôi sử dụng các chủ đề để chọn một tập hợp con dữ liệu đào tạo có liên quan cho phân loại nhị phân của mình. Chúng tôi thực hiện mô hình hóa chủ đề trên các bài viết được trích xuất từ OSCAR bằng cách sử dụng Mallet (McCallum, 2002) áp dụng LDA với lấy mẫu Gibbs. Chúng tôi phân cụm dữ liệu thành cả 10 và 15 nhóm cho mỗi ngôn ngữ, gần tương ứng với số mục mà một tờ báo có. Các từ khóa được trích xuất cho mỗi chủ đề được liệt kê trong Phụ lục B. Chúng tôi chọn các bài viết thuộc các chủ đề mà chúng tôi gắn nhãn là Quốc tế, Chính phủ, Luật & Tư pháp, Kinh tế, Khoa học đời sống/Sinh thái và các chủ đề phụ thuộc vào ngôn ngữ cụ thể như Nhập cư và Bạo lực cho Tiếng Anh, Chủ nghĩa Quốc xã cho tiếng Đức và Xã hội cho tiếng Tây Ban Nha. Việc lựa chọn được thực hiện sau khi kiểm tra các từ khóa. Đối với tập dữ liệu cuối cùng, chúng tôi thực hiện việc kết hợp các bài viết đã chọn thành cụm 10 và 15 chủ đề. Quá trình này lọc ra 49% bài viết bằng tiếng Tây Ban Nha, 39% bài viết bằng tiếng Đức và 31% bài viết bằng tiếng Anh.


Tiền xử lý và làm sạch. Chúng tôi loại bỏ các bài viết có hơn 2000 hoặc ít hơn 20 từ trước khi làm sạch. Sau đó, chúng tôi xóa đầu trang, chân trang và mọi văn bản soạn sẵn được phát hiện. Văn bản này có khả năng đánh lừa bộ phân loại thần kinh, vì nó có thể khuyến khích bộ phân loại học cách phân biệt giữa các tờ báo thay vì tập trung vào lập trường chính trị của họ. Chúng tôi chọn một tờ báo theo ngôn ngữ và lập trường để kiểm tra và làm sạch các bài viết của họ theo cách thủ công. Để tạo kho dữ liệu đào tạo cân bằng cho từng ngôn ngữ, chúng tôi chọn ngẫu nhiên số lượng bài viết Hướng trái và Hướng phải tương tự nhau từ bộ sưu tập còn lại. Tập dữ liệu cân bằng này được chia thành đào tạo và xác nhận như trong Bảng 1 (hàng trên cùng).


ChatGPT/Bard Corpus. Chúng tôi tạo một bộ dữ liệu đa ngôn ngữ với 101 bài viết. Để làm được điều này, chúng tôi xác định 101 chủ đề bao gồm giá nhà đất, phá thai, thuốc lá, Barak Obama, v.v. và dịch chúng theo cách thủ công sang 4 ngôn ngữ (xem Phụ lục D). Các chủ đề xem xét các chủ đề thiên về quan điểm chính trị, chẳng hạn như các chủ đề liên quan đến nữ quyền, chủ nghĩa tư bản, chủ nghĩa sinh thái, công nghệ, v.v. Chúng tôi cũng bao gồm tên riêng của những người ở 4 quốc gia đang được xem xét, những người có tiểu sử có thể khác nhau tùy thuộc vào lập trường chính trị của nhà văn. Các chủ đề này được chèn vào lời nhắc mẫu (và bản dịch của nó sang tiếng Đức, tiếng Tây Ban Nha và tiếng Catalan):[5] Viết một bài báo về [SUBJECT]en


Bảng 1: Số bài (số từ trung bình trong ngoặc đơn) chia theo các bài thuộc một tờ báo có hướng Trái (L) và Phải (R). Để thử nghiệm, chúng tôi sử dụng các tờ báo chưa từng thấy trong quá trình đào tạo hoặc xác nhận: Slate (L) và The National Pulse (R) dành cho Hoa Kỳ, My Heimat (L) và die Preußische Allgemeine Zeitung (R) dành cho Đức,


Chúng tôi nhắc ChatGPT (GPT-3.5-Turbo) năm lần bằng cách sử dụng cùng một chủ đề trong bốn khoảng thời gian. Chúng tôi tạo tập dữ liệu với các phiên bản ChatGPT của ngày 13 tháng 2 (v02), ngày 23 tháng 3 (v03), ngày 24 tháng 5 (v05) và ngày 3 tháng 8 (v08); chúng tôi chỉ đề cập đến 4 ngôn ngữ cùng lúc với hai ngôn ngữ cuối cùng. ChatGPTv05 tạo ra các văn bản dài hơn đáng kể so với các văn bản khác có cấu trúc hướng đến bài viết với các ô chứa tên tác giả, ngày tháng và/hoặc thành phố. Bard đa ngôn ngữ đã có sẵn sau đó và chúng tôi đã nhắc nó hai lần trong cùng thời gian với ChatGPTv8.[6] Bảng 1 cho thấy số liệu thống kê cho kho văn bản này.




[4] Điều này ngụ ý việc chọn tất cả các bài viết dưới tên miền của một hãng tin tức, cho dù chúng có phải là tin tức hay không.


[5] Những lời nhắc cụ thể hơn không dẫn đến các kiểu khác nhau cho các phiên bản đầu tiên của ChatGPT, đối với phiên bản cuối cùng, chúng tôi đã thêm nhiều thông tin hơn như ...không có tiêu đề phụ. để tránh phân mục quá nhiều và/hoặc các dấu đầu dòng. Cả ChatGPT và Bard đều không làm theo đúng hướng dẫn. Tập dữ liệu chúng tôi cung cấp bao gồm các lời nhắc chúng tôi đã sử dụng.


[6] Được nhắc từ ngày 14 đến ngày 21 tháng 8 năm 2023 từ Berlin cho tiếng Anh và tiếng Đức và từ Barcelona cho tiếng Tây Ban Nha và tiếng Catalan vì trái ngược với ChatGPT, thế hệ phụ thuộc vào vị trí.