Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.
tác giả:
(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.
Chúng tôi tinh chỉnh XLM-RoBERTa lớn (Conneau và cộng sự, 2020) để phân loại L so với R như được trình bày trong Hình 1. Trình phân loại của chúng tôi là một mạng nhỏ trên RoBERTa, mạng này lần đầu tiên thực hiện loại bỏ với xác suất 0,1 trên mã thông báo [CLS] của RoBERTa, tiếp theo là một lớp tuyến tính và một tanh. Chúng tôi chuyển qua một lớp bỏ học khác với xác suất 0,1 và lớp tuyến tính cuối cùng chiếu vào hai lớp. Toàn bộ kiến trúc đã được tinh chỉnh.
Chúng tôi sử dụng tổn thất entropy chéo, trình tối ưu hóa AdamW và tốc độ học tập giảm tuyến tính. Chúng tôi điều chỉnh kích thước lô, tốc độ học tập, thời gian khởi động và số lượng kỷ nguyên. Các giá trị tốt nhất cho mỗi ngôn ngữ và mô hình được tóm tắt trong Bảng 12.
Tất cả các khóa đào tạo được thực hiện bằng GPU NVIDIA Tesla V100 Volta duy nhất với 32GB.
Chúng tôi sử dụng Mallet (McCallum, 2002) để thực hiện LDA trên kho văn bản sau khi loại bỏ các mật khẩu, với tùy chọn tối ưu hóa siêu tham số được kích hoạt và thực hiện sau mỗi 10 lần lặp. Các thông số khác là mặc định. Chúng tôi thực hiện một cuộc chạy cho mỗi ngôn ngữ với 10 chủ đề và một cuộc chạy khác với 15 chủ đề. Chúng tôi gắn thẻ kho văn bản bằng cả hai nhãn.