यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।
हम XLM-RoBERTa को L बनाम R वर्गीकरण के लिए बड़े पैमाने पर फ़ाइनट्यून करते हैं (Conneau et al., 2020) जैसा कि चित्र 1 में दिखाया गया है। हमारा क्लासिफायर RoBERTa के ऊपर एक छोटा नेटवर्क है जो सबसे पहले RoBERTa के [CLS] टोकन पर 0.1 की संभावना के साथ ड्रॉपआउट करता है, उसके बाद एक रैखिक परत और एक tanh करता है। हम 0.1 की संभावना के साथ एक और ड्रॉपआउट परत से गुजरते हैं और एक अंतिम रैखिक परत दो वर्गों में प्रोजेक्ट करती है। पूरी वास्तुकला को फ़ाइनट्यून किया गया है।
हम क्रॉस-एंट्रॉपी लॉस, एडमडब्ल्यू ऑप्टिमाइज़र और एक लर्निंग रेट का उपयोग करते हैं जो रैखिक रूप से घटता है। हम बैच आकार, लर्निंग रेट, वार्मअप अवधि और युगों की संख्या को समायोजित करते हैं। प्रति भाषा और मॉडल के सर्वोत्तम मान तालिका 12 में संक्षेपित हैं।
सभी प्रशिक्षण 32GB वाले एकल NVIDIA Tesla V100 Volta GPU का उपयोग करके किए जाते हैं।
हम स्टॉपवर्ड्स को हटाने के बाद कॉर्पस पर LDA करने के लिए मैलेट (मैककैलम, 2002) का उपयोग करते हैं, हाइपरपैरामीटर ऑप्टिमाइज़ेशन विकल्प को सक्रिय करते हैं और हर 10 पुनरावृत्तियों पर करते हैं। अन्य पैरामीटर डिफ़ॉल्ट हैं। हम 10 विषयों के साथ प्रति भाषा एक रन करते हैं और 15 विषयों के साथ एक और रन करते हैं। हम कॉर्पस को दोनों लेबल के साथ टैग करते हैं।