Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar.
Autoren:
(1) Cristina España-Bonet, DFKI GmbH, Saarland Informatics Campus.
Wir optimieren XLM-RoBERTa large (Conneau et al., 2020) für die L vs. R-Klassifizierung, wie in Abbildung 1 schematisch dargestellt. Unser Klassifikator ist ein kleines Netzwerk auf RoBERTa, das zuerst Dropout mit einer Wahrscheinlichkeit von 0,1 auf RoBERTas [CLS]-Token durchführt, gefolgt von einer linearen Schicht und einem tanh. Wir durchlaufen eine weitere Dropout-Schicht mit einer Wahrscheinlichkeit von 0,1 und eine letzte lineare Schicht projiziert in die beiden Klassen. Die gesamte Architektur ist fein abgestimmt.
Wir verwenden einen Cross-Entropy-Loss, einen AdamW-Optimierer und eine linear abnehmende Lernrate. Wir optimieren die Batch-Größe, die Lernrate, die Aufwärmphase und die Anzahl der Epochen. Die besten Werte pro Sprache und Modell sind in Tabelle 12 zusammengefasst.
Alle Trainings werden mit einer einzelnen NVIDIA Tesla V100 Volta GPU mit 32 GB durchgeführt.
Wir verwenden Mallet (McCallum, 2002), um nach dem Entfernen der Stoppwörter eine LDA auf dem Korpus durchzuführen, wobei die Option zur Hyperparameteroptimierung aktiviert und alle 10 Iterationen ausgeführt wird. Andere Parameter sind die Standardeinstellungen. Wir führen einen Durchlauf pro Sprache mit 10 Themen und einen weiteren Durchlauf mit 15 Themen durch. Wir kennzeichnen das Korpus mit beiden Bezeichnungen.