paint-brush
미디어의 다국어 거친 정치적 입장 분류: 교육 내용~에 의해@mediabias
166 판독값

미디어의 다국어 거친 정치적 입장 분류: 교육 내용

너무 오래; 읽다

본 논문에서 연구자들은 실제 뉴스 매체 등급을 사용하여 AI가 생성한 뉴스 기사의 중립성과 언어별 입장 변화를 분석합니다.
featured image - 미디어의 다국어 거친 정치적 입장 분류: 교육 내용
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.

링크 표

F. 교육 내용

F.1 L/R 분류기

우리는 그림 1에 도식화된 대로 L 대 R 분류에 대해 XLM-RoBERTa 대형(Conneau et al., 2020)을 미세 조정합니다. 우리의 분류자는 RoBERTa의 [CLS] 토큰에서 확률 0.1로 드롭아웃을 먼저 수행하는 RoBERTa 위에 있는 작은 네트워크입니다. 그 다음에는 선형 레이어와 tanh가 있습니다. 확률이 0.1인 또 다른 드롭아웃 레이어를 통과하고 최종 선형 레이어가 두 클래스로 투영됩니다. 전체 아키텍처가 미세 조정되었습니다.


그림 1: 아키텍처 미세 조정.


우리는 교차 엔트로피 손실, AdamW 최적화 도구 및 선형적으로 감소하는 학습 속도를 사용합니다. 배치 크기, 학습 속도, 준비 기간 및 시대 수를 조정합니다. 언어 및 모델별 최상의 값은 표 12에 요약되어 있습니다.


표 12: 세 가지 단일 언어 미세 조정(en, de 및, es)과 다국어 미세 조정(en+de+es)에서 사용된 주요 하이퍼 매개변수와 해당 성능.


모든 교육은 32GB의 단일 NVIDIA Tesla V100 Volta GPU를 사용하여 수행됩니다.

F.2 주제 모델링

우리는 Mallet(McCallum, 2002)을 사용하여 불용어를 제거한 후 초매개변수 최적화 옵션을 활성화하고 10회 반복마다 수행하면서 말뭉치에서 LDA를 수행합니다. 다른 매개변수는 기본값입니다. 우리는 언어별로 10개 주제로 실행하고 또 다른 실행은 15개 주제로 실행합니다. 우리는 두 레이블을 모두 사용하여 말뭉치에 태그를 지정합니다.