Jan 01, 1970
该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。
作者:
(1)Cristina España-Bonet,DFKI GmbH,萨尔信息学园区。
我们对 XLM-RoBERTa 大版本 (Conneau 等人,2020) 进行了微调,以进行 L 与 R 分类,如图 1 所示。我们的分类器是一个基于 RoBERTa 的小型网络,首先以 0.1 的概率对 RoBERTa 的 [CLS] 标记执行 dropout,然后执行线性层和 tanh。我们以 0.1 的概率通过另一个 dropout 层,最后一个线性层投射到两个类中。整个架构都经过了微调。
我们使用交叉熵损失、AdamW 优化器和线性下降的学习率。我们调整批量大小、学习率、预热时间和迭代次数。表 12 总结了每种语言和模型的最佳值。
所有训练均使用单个 32GB 的 NVIDIA Tesla V100 Volta GPU 进行。
我们使用 Mallet (McCallum, 2002) 在删除停用词后对语料库执行 LDA,并启用超参数优化选项,每 10 次迭代执行一次。其他参数为默认值。我们针对每种语言运行一次,包含 10 个主题,然后针对 15 个主题再运行一次。我们用这两个标签标记语料库。