Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.
Autores:
(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática del Sarre.
Ajustamos XLM-RoBERTa grande (Conneau et al., 2020) para la clasificación L frente a R como se esquematiza en la Figura 1. Nuestro clasificador es una pequeña red encima de RoBERTa que primero realiza el abandono con probabilidad de 0,1 en el token [CLS] de RoBERTa. seguido de una capa lineal y un tanh. Pasamos a través de otra capa de abandono con probabilidad de 0,1 y una capa lineal final se proyecta en las dos clases. Toda la arquitectura está afinada.
Usamos una pérdida de entropía cruzada, un optimizador AdamW y una tasa de aprendizaje que disminuye linealmente. Ajustamos el tamaño del lote, la tasa de aprendizaje, el período de calentamiento y el número de épocas. Los mejores valores por idioma y modelo se resumen en la Tabla 12.
Todos los entrenamientos se realizan utilizando una única GPU NVIDIA Tesla V100 Volta con 32 GB.
Usamos Mallet (McCallum, 2002) para realizar LDA en el corpus después de eliminar las palabras vacías, con la opción de optimización de hiperparámetros activada y realizada cada 10 iteraciones. Otros parámetros son los predeterminados. Hacemos una tirada por idioma con 10 temas y otra tirada con 15 temas. Etiquetamos el corpus con ambas etiquetas.