paint-brush
Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Chi tiết đào tạoby@mediabias
130

Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Chi tiết đào tạo

Trong bài viết này, các nhà nghiên cứu phân tích tính trung lập và sự phát triển quan điểm của các bài báo do AI tạo ra trên các ngôn ngữ bằng cách sử dụng xếp hạng của các hãng tin tức xác thực.
featured image - Phân loại lập trường chính trị thô sơ đa ngôn ngữ của phương tiện truyền thông: Chi tiết đào tạo
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.

tác giả:

(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.

Bảng liên kết

F. Chi tiết đào tạo

Bộ phân loại F.1 L/R

Chúng tôi tinh chỉnh XLM-RoBERTa lớn (Conneau và cộng sự, 2020) để phân loại L so với R như được trình bày trong Hình 1. Trình phân loại của chúng tôi là một mạng nhỏ trên RoBERTa, mạng này lần đầu tiên thực hiện loại bỏ với xác suất 0,1 trên mã thông báo [CLS] của RoBERTa, tiếp theo là một lớp tuyến tính và một tanh. Chúng tôi chuyển qua một lớp bỏ học khác với xác suất 0,1 và lớp tuyến tính cuối cùng chiếu vào hai lớp. Toàn bộ kiến trúc đã được tinh chỉnh.


Hình 1: Tinh chỉnh kiến trúc.


Chúng tôi sử dụng tổn thất entropy chéo, trình tối ưu hóa AdamW và tốc độ học tập giảm tuyến tính. Chúng tôi điều chỉnh kích thước lô, tốc độ học tập, thời gian khởi động và số lượng kỷ nguyên. Các giá trị tốt nhất cho mỗi ngôn ngữ và mô hình được tóm tắt trong Bảng 12.


Bảng 12: Các siêu tham số chính được sử dụng và hiệu suất của chúng trong ba cách tinh chỉnh đơn ngữ (en, de và, es) và đa ngôn ngữ (en+de+es).


Tất cả các khóa đào tạo được thực hiện bằng GPU NVIDIA Tesla V100 Volta duy nhất với 32GB.

F.2 Mô hình hóa chủ đề

Chúng tôi sử dụng Mallet (McCallum, 2002) để thực hiện LDA trên kho văn bản sau khi loại bỏ các mật khẩu, với tùy chọn tối ưu hóa siêu tham số được kích hoạt và thực hiện sau mỗi 10 lần lặp. Các thông số khác là mặc định. Chúng tôi thực hiện một cuộc chạy cho mỗi ngôn ngữ với 10 chủ đề và một cuộc chạy khác với 15 chủ đề. Chúng tôi gắn thẻ kho văn bản bằng cả hai nhãn.