Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.
tác giả:
(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.
Các nguồn truyền thông có dòng biên tập và thành kiến liên quan. Loại bỏ những thành kiến chính trị là điều khó khăn đối với con người, nhưng nhận thức được chúng giúp chúng ta có được cái nhìn toàn cầu về tin tức. Những thành kiến đôi khi rõ ràng và/hoặc xuất hiện dưới dạng văn bản có hại, nhưng đôi khi rất tinh tế và khó phát hiện. Những thành kiến tiềm ẩn tinh vi này tiềm ẩn nguy hiểm và dẫn đến sự thao túng bất cứ khi nào chúng ta không nhận thức được chúng. Trong nghiên cứu này, chúng tôi đã nghiên cứu một cách có hệ thống những thành kiến chính trị tinh vi đằng sau ChatGPT và Bard, những thành kiến xuất hiện mà không chỉ định bất kỳ vai trò cá nhân nào (Deshpande và cộng sự, 2023). Chúng tôi đã chỉ ra rằng định hướng của ChatGPT thay đổi theo thời gian và nó khác nhau giữa các ngôn ngữ. Từ tháng 2 đến tháng 8 năm 2023, ChatGPT đã chuyển đổi từ định hướng chính trị Tả sang Trung lập, với giai đoạn nghiêng về Cánh hữu ở giữa cho tiếng Anh và tiếng Tây Ban Nha. Sự tiến hóa của Bard vẫn chưa thể nghiên cứu được. Phiên bản hiện tại tính đến tháng 8 năm 2023 luôn hiển thị nghiêng về bên trái đối với 4 ngôn ngữ đang được nghiên cứu. Sự thiên vị này không phụ thuộc vào những sai sót thực tế mà mô hình tạo ra và cũng cần được người dùng xem xét. Chúng tôi cung cấp các mô hình để thường xuyên kiểm tra sự thiên vị trong các thế hệ văn bản ở Hoa Kỳ, Đức và Tây Ban Nha, cũng như trong các bối cảnh chính trị và ngôn ngữ có liên quan chặt chẽ bằng cách sử dụng phương pháp tiếp cận không liên quan.
Là sản phẩm phụ của quá trình phân tích, chúng tôi đã tạo ra một kho tài liệu đa ngôn ngữ gồm 1,2 triệu bài báo với những chú thích thô thiển về quan điểm và chủ đề chính trị. Chúng tôi cho thấy rằng sự giám sát từ xa cho phép chúng tôi xây dựng các mô hình có ý nghĩa để phân loại lập trường chính trị thô sơ miễn là kho văn bản đa dạng. Chúng tôi cung cấp dữ liệu này cùng với các thế hệ LM và mã của chúng tôi thông qua Zenodo (España-Bonet, 2023) và Github.[12]
[12] https://github.com/cristinae/docTransformer