paint-brush
Phân loại lập trường chính trị thô sơ đa ngôn ngữ của truyền thông: Tóm tắt và giới thiệutừ tác giả@mediabias
145 lượt đọc

Phân loại lập trường chính trị thô sơ đa ngôn ngữ của truyền thông: Tóm tắt và giới thiệu

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu phân tích tính trung lập và sự phát triển quan điểm của các bài báo do AI tạo ra trên các ngôn ngữ bằng cách sử dụng xếp hạng của các hãng tin tức xác thực.
featured image - Phân loại lập trường chính trị thô sơ đa ngôn ngữ của truyền thông: Tóm tắt và giới thiệu
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.

tác giả:

(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.

Bảng liên kết


trừu tượng

Tính trung lập là điều khó đạt được và trong chính trị còn mang tính chủ quan. Các phương tiện truyền thông truyền thống thường áp dụng một dòng xã luận mà độc giả tiềm năng của họ có thể sử dụng như một dấu hiệu cho thấy sự thiên vị của giới truyền thông. Một số nền tảng hiện xếp hạng các hãng tin tức theo khuynh hướng chính trị của họ. Dòng xã luận và xếp hạng giúp người đọc có được cái nhìn cân bằng về tin tức. Nhưng với sự ra đời của các mô hình ngôn ngữ tuân theo hướng dẫn, các nhiệm vụ như viết một bài báo có thể được giao cho máy tính. Nếu không áp đặt tính cách thiên vị, một hãng tin tức dựa trên AI sẽ nằm ở đâu trong xếp hạng thiên vị? Trong công việc này, chúng tôi sử dụng xếp hạng của các hãng tin tức xác thực để tạo ra một kho tin tức đa ngôn ngữ với các chú thích lập trường thô (Trái và Phải) cùng với các chú thích chủ đề được trích xuất tự động. Chúng tôi cho thấy rằng các bộ phân loại được đào tạo dựa trên dữ liệu này có thể xác định dòng xã luận của hầu hết các tờ báo chưa được xem bằng tiếng Anh, tiếng Đức, tiếng Tây Ban Nha và tiếng Catalan. Sau đó, chúng tôi áp dụng các phân loại cho 101 bài báo giống như tờ báo do ChatGPT và Bard viết bằng 4 ngôn ngữ ở các khoảng thời gian khác nhau. Chúng tôi nhận thấy rằng, tương tự như các tờ báo truyền thống, dòng biên tập ChatGPT phát triển theo thời gian và là một hệ thống dựa trên dữ liệu nên quan điểm của các bài viết được tạo ra khác nhau giữa các ngôn ngữ.


1. Giới thiệu

Các mô hình ngôn ngữ theo hướng dẫn (ILM) có mặt khắp nơi. Việc sử dụng chúng chưa được mở rộng như các công cụ tìm kiếm mà do tính sẵn có và chất lượng cao của các hệ thống và mô hình như Alpaca (Taori và cộng sự, 2023), Bard (Google, 2023), BLOOMZ và mT0 (Muennighoff et al. al., 2023), ChatGPT (OpenAI, 2023), Llama 2-chat (Touvron và cộng sự, 2023) hoặc Koala (Geng và cộng sự, 2023), việc sử dụng chúng dự kiến sẽ phổ biến hơn trong tương lai gần. Những mô hình này phải đối mặt với một số vấn đề liên quan nhất là thiếu độ tin cậy (van Dis và cộng sự, 2023; Huang và cộng sự, 2023; Wang và cộng sự, 2023a). Chúng chưa sẵn sàng được sử dụng như một nguồn thông tin đáng tin cậy nếu kết quả đầu ra của chúng không được kiểm chứng thực tế. Vấn đề lớn thứ hai với các hệ thống dựa trên mô hình ngôn ngữ (LM) là chúng có thể tái tạo các thành kiến có trong dữ liệu đào tạo (Navigli và cộng sự, 2023). Các thành kiến bao gồm từ việc trình bày thiếu văn hóa do mất cân bằng dữ liệu cho đến hành vi xúc phạm được sao chép từ văn bản viết. LM được tinh chỉnh thành ILM theo cách có giám sát bằng cách sử dụng các cặp đầu vào-đầu ra và một hướng dẫn (Wei và cộng sự, 2022; Wang và cộng sự, 2022, 2023b) hoặc bằng cách học tăng cường từ phản hồi của con người (Ouyang và cộng sự, 2022; Nakano và cộng sự, 2021). Trong cả hai trường hợp, việc tinh chỉnh sẽ giúp loại bỏ sai lệch. Nhưng tính trung lập là điều rất khó đạt được, ngay cả đối với những người tạo ra dữ liệu giám sát. Do đó, giai đoạn tinh chỉnh có thể điều chỉnh quá mức các sai lệch ban đầu hoặc đưa ra các sai lệch mới. Đối với các phương pháp tạo ra dữ liệu giám sát bằng chính LM, các sai lệch ban đầu có thể được kế thừa. Chúng tôi tập trung vào một công dụng cụ thể của ILM: viết các bài báo. Các tạp chí và báo chí đi theo một đường lối xã luận được người đọc biết đến rộng rãi. Ngoài ra, các trang web như AllSides [1] Media Bias Fact Check [2] (MB/FC) hoặc Ad Fontes Media [3] cung cấp xếp hạng về thành kiến chính trị của các nguồn truyền thông (chủ yếu là Hoa Kỳ) và chất lượng của chúng đối với thông tin thực tế. Với những xếp hạng này, những độc giả tận tâm có thể đưa ra quyết định sáng suốt về việc nên chọn phương tiện truyền thông nào để có được góc nhìn cân bằng. Nhưng điều gì sẽ xảy ra khi các nhà báo sử dụng các hệ thống như ChatGPT hoặc Bard để hỗ trợ bài viết của họ? Như đã nói ở trên, con người cũng có những thành kiến, mối nguy hiểm nằm ở việc không nhận thức được chúng, vì chúng có thể ảnh hưởng đến góc nhìn của người dùng/người đọc (Jakesch et al., 2023; Carroll et al., 2023). ChatGPT đã cảnh báo người dùng về thông tin sai lệch. Tuy nhiên, thành kiến chính trị, nếu có, không được biết đến ngoài nhận thức chủ quan mà người dùng có.


Chúng tôi giải quyết câu hỏi trên đối với các bài viết do ChatGPT và Bard tạo bằng bốn ngôn ngữ: tiếng Anh, tiếng Đức, tiếng Tây Ban Nha và tiếng Catalan. Chúng tôi thực hiện việc này một cách tự động và có hệ thống mà hầu như không có sự can thiệp của con người để có thể dễ dàng mở rộng phương pháp này sang các ngôn ngữ mới và các ILM khác mà không tốn nhiều công sức. Chúng tôi không nhằm mục đích phân loại các bài viết riêng lẻ theo thành kiến cụ thể của chúng mà nhằm phân loại nguồn truyền thông (trong trường hợp này là ILM) theo hướng Trái hoặc Hữu theo cách tương tự như các trang web thiên vị truyền thông thực hiện đối với báo chí và các cơ quan truyền thông khác.



1. https://www.allsides.com

2. https://mediabiasfactcheck.com

3. https://adfontesmedia.com