এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
আমরা চিত্র 1-এ L বনাম R শ্রেণিবিন্যাসের জন্য XLM-RoBERTa বড় (কন্যু এট আল।, 2020) ফিনটিউন করি। আমাদের শ্রেণিবদ্ধকারী হল RoBERTa-এর উপরে একটি ছোট নেটওয়ার্ক যা প্রথমে RoBERTA-এর [CLS] টোকেনে সম্ভাব্যতা 0.1 সহ ড্রপআউট সম্পাদন করে, একটি রৈখিক স্তর এবং একটি tanh দ্বারা অনুসরণ. আমরা সম্ভাব্যতা 0.1 সহ আরেকটি ড্রপআউট স্তর এবং একটি চূড়ান্ত রৈখিক স্তর প্রকল্প দুটি শ্রেণিতে পাস করি। পুরো স্থাপত্যটি সুন্দর।
আমরা ক্রস-এনট্রপি লস, অ্যাডামডাব্লু অপটিমাইজার এবং শেখার হার ব্যবহার করি যা রৈখিকভাবে হ্রাস পায়। আমরা ব্যাচের আকার, শেখার হার, ওয়ার্মআপ পিরিয়ড এবং যুগের সংখ্যা টিউন করি। প্রতি ভাষা এবং মডেলের সর্বোত্তম মানগুলি সারণি 12-এ সংক্ষিপ্ত করা হয়েছে।
সমস্ত প্রশিক্ষণ 32GB সহ একটি একক NVIDIA Tesla V100 Volta GPU ব্যবহার করে সম্পাদিত হয়।
আমরা ম্যালেট (McCallum, 2002) ব্যবহার করি স্টপওয়ার্ডগুলি সরানোর পরে কর্পাসে LDA সম্পাদন করতে, হাইপারপ্যারামিটার অপ্টিমাইজেশান বিকল্পটি সক্রিয় করা হয়েছে এবং প্রতি 10 বার পুনরাবৃত্তি করা হয়েছে। অন্যান্য পরামিতিগুলি ডিফল্ট। আমরা 10টি বিষয় নিয়ে প্রতি ভাষাতে একটি রান করি এবং 15টি বিষয় নিয়ে আরেকটি রান করি। আমরা উভয় লেবেল দিয়ে কর্পাস ট্যাগ করি।