Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.   tác giả:  (1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.  Bảng liên kết   Tóm tắt và giới thiệu   Biên soạn Corpora   Phân loại quan điểm chính trị   Tóm tắt và kết luận   Hạn chế và Tuyên bố về Đạo đức   Lời cảm ơn và tài liệu tham khảo   A. Báo chí trong OSCAR 22.01   B. Chủ đề   C. Phân phối chủ đề trên mỗi tờ báo   D. Chủ đề để tạo bài viết ChatGPT và Bard   E. Phân loại quan điểm ở cấp độ bài viết   F. Chi tiết đào tạo  5.1 Hạn chế  Chúng tôi giả định rằng   và chúng tôi coi ILM như bất kỳ nguồn truyền thông nào khác. Chúng tôi không coi khả năng bài viết của ChatGPT hoặc Bard là không thiên vị. Điều này liên quan đến phương pháp giám sát từ xa được sử dụng để thu thập dữ liệu hiện cho phép chú thích lập trường chính trị nhị phân. Vì việc chú thích thủ công hàng trăm nghìn bài viết có thành kiến chính trị trong môi trường đa ngôn ngữ thực sự dường như không thể thực hiện được trong tương lai gần, nên chúng tôi đã quyết định triển khai một phương pháp hoàn toàn dựa trên dữ liệu và nghiên cứu khả năng chuyển giao ngôn ngữ và văn hóa của nó. Tất cả các nguồn truyền thông đều có một dòng biên tập và một khuynh hướng liên quan  Tuy nhiên, việc sử dụng giám sát từ xa để phát hiện quan điểm chính trị ở cấp độ bài viết là một chủ đề tế nhị. Thứ nhất, vì cùng một tờ báo có thể thay đổi hệ tư tưởng theo thời gian. Thứ hai, và điều này liên quan nhiều hơn đến nội dung của một bài viết riêng lẻ, những chủ đề không gây tranh cãi có thể không có thành kiến. Ngay cả trong những trường hợp tồn tại thành kiến, vẫn có một phạm vi trải dài từ cực tả đến cực hữu, chứ không phải là sự phân chia rõ ràng giữa hai hệ tư tưởng.  Để định lượng và nếu có thể giảm thiểu những hạn chế hiện tại, chúng tôi dự định tiến hành phân tích văn phong của kho văn bản được chú thích bởi con người (Baly và cộng sự, 2020; Aksenov và cộng sự, 2021) và so sánh nó với kho văn bản được chú thích bán tự động của chúng tôi . Để tiếp nối công việc này, chúng tôi cũng sẽ thực hiện phân tích văn phong của các văn bản do ILM tạo vì cần có phong cách tương tự giữa dữ liệu đào tạo và các văn bản này để đảm bảo khả năng khái quát hóa và chuyển giao tốt.  5.2. Chuẩn mực đạo đức  Chúng tôi sử dụng các mô hình ngôn ngữ tổng quát, ChatGPT và Bard, để tạo dữ liệu thử nghiệm của mình. Vì chúng ta đề cập đến một số chủ đề gây tranh cãi (tử hình, quấy rối tình dục, ma túy, v.v.), nên việc tạo tự động có thể tạo ra văn bản có hại. Dữ liệu được trình bày ở đây chưa trải qua bất kỳ sửa đổi nào của con người. Chúng tôi phân tích và cung cấp kho dữ liệu ngay khi nó được tạo, cùng với chỉ dẫn về phiên bản hệ thống được sử dụng.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

MediaBias.TECH

We publish deeply researched (and often vastly underread) academic papers about our collective omnipresent media bias.

MediaBias's

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Hạn chế và tuyên bố đạo đức

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

178 Stories To Learn About Essay

147 Stories To Learn About Reading Books Online

189 Stories To Learn About Reading Books

581 Stories To Learn About Non Fiction

178 Stories To Learn About Essay

147 Stories To Learn About Reading Books Online

189 Stories To Learn About Reading Books

581 Stories To Learn About Non Fiction

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps