이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.
우리는 그림 1에 도식화된 대로 L 대 R 분류에 대해 XLM-RoBERTa 대형(Conneau et al., 2020)을 미세 조정합니다. 우리의 분류자는 RoBERTa의 [CLS] 토큰에서 확률 0.1로 드롭아웃을 먼저 수행하는 RoBERTa 위에 있는 작은 네트워크입니다. 그 다음에는 선형 레이어와 tanh가 있습니다. 확률이 0.1인 또 다른 드롭아웃 레이어를 통과하고 최종 선형 레이어가 두 클래스로 투영됩니다. 전체 아키텍처가 미세 조정되었습니다.
우리는 교차 엔트로피 손실, AdamW 최적화 도구 및 선형적으로 감소하는 학습 속도를 사용합니다. 배치 크기, 학습 속도, 준비 기간 및 시대 수를 조정합니다. 언어 및 모델별 최상의 값은 표 12에 요약되어 있습니다.
모든 교육은 32GB의 단일 NVIDIA Tesla V100 Volta GPU를 사용하여 수행됩니다.
우리는 Mallet(McCallum, 2002)을 사용하여 불용어를 제거한 후 초매개변수 최적화 옵션을 활성화하고 10회 반복마다 수행하면서 말뭉치에서 LDA를 수행합니다. 다른 매개변수는 기본값입니다. 우리는 언어별로 10개 주제로 실행하고 또 다른 실행은 15개 주제로 실행합니다. 우리는 두 레이블을 모두 사용하여 말뭉치에 태그를 지정합니다.