paint-brush
Classification multilingue grossière des positions politiques des médias : détails de la formationpar@mediabias
166 lectures

Classification multilingue grossière des positions politiques des médias : détails de la formation

Trop long; Pour lire

Dans cet article, les chercheurs analysent la neutralité des articles de presse générés par l’IA et l’évolution des positions dans toutes les langues à l’aide d’évaluations authentiques des médias.
featured image - Classification multilingue grossière des positions politiques des médias : détails de la formation
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.

Auteurs:

(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.

Tableau des liens

F. Détails de la formation

F.1 Classificateur G/D

Nous affinons XLM-RoBERTa large (Conneau et al., 2020) pour la classification L vs. R comme schématisé dans la figure 1. Notre classificateur est un petit réseau au-dessus de RoBERTa qui effectue d'abord un abandon avec une probabilité de 0,1 sur le jeton [CLS] de RoBERTa, suivi d'une couche linéaire et d'un tanh. Nous passons par une autre couche d'abandon avec une probabilité de 0,1 et une dernière couche linéaire se projette dans les deux classes. Toute l'architecture est peaufinée.


Figure 1 : Architecture de réglage fin.


Nous utilisons une perte d'entropie croisée, un optimiseur AdamW et un taux d'apprentissage qui décroît linéairement. Nous ajustons la taille du lot, le taux d'apprentissage, la période de préchauffage et le nombre d'époques. Les meilleures valeurs par langue et modèle sont résumées dans le tableau 12.


Tableau 12 : Principaux hyperparamètres utilisés et leurs performances dans les trois réglages fins monolingues (en, de et, es) et multilingue (en+de+es).


Toutes les formations sont effectuées à l'aide d'un seul GPU NVIDIA Tesla V100 Volta de 32 Go.

F.2 Modélisation de sujets

Nous utilisons Mallet (McCallum, 2002) pour effectuer une LDA sur le corpus après avoir supprimé les mots vides, avec l'option d'optimisation des hyperparamètres activée et effectuée toutes les 10 itérations. Les autres paramètres sont les valeurs par défaut. Nous faisons un run par langue avec 10 sujets et un autre run avec 15 sujets. Nous étiquetons le corpus avec les deux étiquettes.