Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
Авторы:
(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.
Мы настраиваем XLM-RoBERTa big (Conneau et al., 2020) для классификации L и R, как схематично показано на рисунке 1. Наш классификатор представляет собой небольшую сеть поверх RoBERTa, которая сначала выполняет отключение с вероятностью 0,1 для токена RoBERTa [CLS], за которым следует линейный слой и тан. Мы проходим через еще один выпадающий слой с вероятностью 0,1, и последний линейный слой проецируется на два класса. Вся архитектура настроена.
Мы используем перекрестную энтропийную потерю, оптимизатор AdamW и скорость обучения, которая уменьшается линейно. Мы настраиваем размер пакета, скорость обучения, период прогрева и количество эпох. Наилучшие значения для каждого языка и модели приведены в таблице 12.
Все тренировки выполняются с использованием одного графического процессора NVIDIA Tesla V100 Volta с 32 ГБ памяти.
Мы используем Mallet (McCallum, 2002) для выполнения LDA в корпусе после удаления стоп-слов с активированной опцией оптимизации гиперпараметров и выполняемой каждые 10 итераций. Остальные параметры являются значениями по умолчанию. Мы проводим прогон для каждого языка с 10 темами и еще один прогон с 15 темами. Мы помечаем корпус обеими метками.