Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.
Nous affinons XLM-RoBERTa large (Conneau et al., 2020) pour la classification L vs. R comme schématisé dans la figure 1. Notre classificateur est un petit réseau au-dessus de RoBERTa qui effectue d'abord un abandon avec une probabilité de 0,1 sur le jeton [CLS] de RoBERTa, suivi d'une couche linéaire et d'un tanh. Nous passons par une autre couche d'abandon avec une probabilité de 0,1 et une dernière couche linéaire se projette dans les deux classes. Toute l'architecture est peaufinée.
Nous utilisons une perte d'entropie croisée, un optimiseur AdamW et un taux d'apprentissage qui décroît linéairement. Nous ajustons la taille du lot, le taux d'apprentissage, la période de préchauffage et le nombre d'époques. Les meilleures valeurs par langue et modèle sont résumées dans le tableau 12.
Toutes les formations sont effectuées à l'aide d'un seul GPU NVIDIA Tesla V100 Volta de 32 Go.
Nous utilisons Mallet (McCallum, 2002) pour effectuer une LDA sur le corpus après avoir supprimé les mots vides, avec l'option d'optimisation des hyperparamètres activée et effectuée toutes les 10 itérations. Les autres paramètres sont les valeurs par défaut. Nous faisons un run par langue avec 10 sujets et un autre run avec 15 sujets. Nous étiquetons le corpus avec les deux étiquettes.