Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.
tác giả:
(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.
Chúng tôi giả định rằng Tất cả các nguồn truyền thông đều có một dòng biên tập và một khuynh hướng liên quan và chúng tôi coi ILM như bất kỳ nguồn truyền thông nào khác. Chúng tôi không coi khả năng bài viết của ChatGPT hoặc Bard là không thiên vị. Điều này liên quan đến phương pháp giám sát từ xa được sử dụng để thu thập dữ liệu hiện cho phép chú thích lập trường chính trị nhị phân. Vì việc chú thích thủ công hàng trăm nghìn bài viết có thành kiến chính trị trong môi trường đa ngôn ngữ thực sự dường như không thể thực hiện được trong tương lai gần, nên chúng tôi đã quyết định triển khai một phương pháp hoàn toàn dựa trên dữ liệu và nghiên cứu khả năng chuyển giao ngôn ngữ và văn hóa của nó.
Tuy nhiên, việc sử dụng giám sát từ xa để phát hiện quan điểm chính trị ở cấp độ bài viết là một chủ đề tế nhị. Thứ nhất, vì cùng một tờ báo có thể thay đổi hệ tư tưởng theo thời gian. Thứ hai, và điều này liên quan nhiều hơn đến nội dung của một bài viết riêng lẻ, những chủ đề không gây tranh cãi có thể không có thành kiến. Ngay cả trong những trường hợp tồn tại thành kiến, vẫn có một phạm vi trải dài từ cực tả đến cực hữu, chứ không phải là sự phân chia rõ ràng giữa hai hệ tư tưởng.
Để định lượng và nếu có thể giảm thiểu những hạn chế hiện tại, chúng tôi dự định tiến hành phân tích văn phong của kho văn bản được chú thích bởi con người (Baly và cộng sự, 2020; Aksenov và cộng sự, 2021) và so sánh nó với kho văn bản được chú thích bán tự động của chúng tôi . Để tiếp nối công việc này, chúng tôi cũng sẽ thực hiện phân tích văn phong của các văn bản do ILM tạo vì cần có phong cách tương tự giữa dữ liệu đào tạo và các văn bản này để đảm bảo khả năng khái quát hóa và chuyển giao tốt.
Chúng tôi sử dụng các mô hình ngôn ngữ tổng quát, ChatGPT và Bard, để tạo dữ liệu thử nghiệm của mình. Vì chúng ta đề cập đến một số chủ đề gây tranh cãi (tử hình, quấy rối tình dục, ma túy, v.v.), nên việc tạo tự động có thể tạo ra văn bản có hại. Dữ liệu được trình bày ở đây chưa trải qua bất kỳ sửa đổi nào của con người. Chúng tôi phân tích và cung cấp kho dữ liệu ngay khi nó được tạo, cùng với chỉ dẫn về phiên bản hệ thống được sử dụng.