paint-brush
Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamentoby@mediabias
130

Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamento

Neste artigo, os pesquisadores analisam a neutralidade dos artigos de notícias gerados por IA e a evolução da postura em vários idiomas, usando classificações autênticas de meios de comunicação.
featured image - Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamento
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.

Tabela de links

F. Detalhes do treinamento

Classificador F.1 L/R

Ajustamos XLM-RoBERTa grande (Conneau et al., 2020) para classificação L vs. R conforme esquematizado na Figura 1. Nosso classificador é uma pequena rede no topo de RoBERTa que primeiro executa dropout com probabilidade 0,1 no token [CLS] de RoBERTa, seguido por uma camada linear e um tanh. Passamos por outra camada de dropout com probabilidade 0,1 e uma camada linear final se projeta nas duas classes. Toda a arquitetura é ajustada.


Figura 1: Arquitetura de ajuste fino.


Usamos uma perda de entropia cruzada, um otimizador AdamW e uma taxa de aprendizado que diminui linearmente. Ajustamos o tamanho do lote, a taxa de aprendizado, o período de aquecimento e o número de épocas. Os melhores valores por linguagem e modelo estão resumidos na Tabela 12.


Tabela 12: Principais hiperparâmetros utilizados e seu desempenho nas três sintonias monolíngues (en, de e, es) e na multilíngue (en+de+es).


Todos os treinamentos são realizados usando uma única GPU NVIDIA Tesla V100 Volta com 32GB.

F.2 Modelagem de Tópicos

Utilizamos Mallet (McCallum, 2002) para realizar LDA no corpus após a remoção das stopwords, com a opção de otimização de hiperparâmetros ativada e feita a cada 10 iterações. Outros parâmetros são os padrões. Fazemos uma corrida por idioma com 10 tópicos e outra corrida com 15 tópicos. Marcamos o corpus com ambos os rótulos.