Bu makale arxiv'de CC BY-NC-SA 4.0 DEED lisansı altında mevcuttur.
Yazarlar:
(1) Cristina España-Bonet, DFKI GmbH, Saarland Bilişim Kampüsü.
Şekil 1'de şematize edildiği gibi L ve R sınıflandırması için büyük XLM-RoBERTa'ya (Conneau ve diğerleri, 2020) ince ayar yapıyoruz. Sınıflandırıcımız, RoBERTa'nın üzerinde, ilk olarak RoBERTa'nın [CLS] belirtecinde 0,1 olasılıkla bırakma işlemini gerçekleştiren küçük bir ağdır, bunu doğrusal bir katman ve bir tanh takip eder. 0,1 olasılıkla başka bir bırakma katmanından geçiyoruz ve son doğrusal katman iki sınıfa yansıyor. Tüm mimari ince ayarlıdır.
Çapraz entropi kaybı, AdamW iyileştiricisi ve doğrusal olarak azalan bir öğrenme oranı kullanıyoruz. Toplu iş boyutunu, öğrenme oranını, ısınma süresini ve dönem sayısını ayarlıyoruz. Dil ve model başına en iyi değerler Tablo 12'de özetlenmiştir.
Tüm eğitimler 32 GB kapasiteli tek bir NVIDIA Tesla V100 Volta GPU kullanılarak gerçekleştirilmektedir.
Engellenen sözcükleri kaldırdıktan sonra derlem üzerinde LDA gerçekleştirmek için Mallet'i (McCallum, 2002) kullanıyoruz, hiperparametre optimizasyon seçeneği etkinleştiriliyor ve her 10 yinelemede bir yapılıyor. Diğer parametreler varsayılanlardır. Her dil için 10 konu içeren bir çalışma ve 15 konu içeren başka bir çalışma yapıyoruz. Corpus'u her iki etiketle de etiketliyoruz.