paint-brush
बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: प्रशिक्षण विवरणद्वारा@mediabias
165 रीडिंग

बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: प्रशिक्षण विवरण

द्वारा Tech Media Bias [Research Publication]2m2024/05/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने प्रामाणिक समाचार आउटलेट रेटिंग का उपयोग करके विभिन्न भाषाओं में एआई-जनित समाचार लेखों की तटस्थता और रुख विकास का विश्लेषण किया है।
featured image - बहुभाषी असभ्य राजनीतिक रुख मीडिया का वर्गीकरण: प्रशिक्षण विवरण
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) क्रिस्टीना एस्पाना-बोनेट, डीएफकेआई जीएमबीएच, सारलैंड इंफॉर्मेटिक्स कैम्पस।

लिंक की तालिका

एफ. प्रशिक्षण विवरण

एफ.1 एल/आर क्लासिफायर

हम XLM-RoBERTa को L बनाम R वर्गीकरण के लिए बड़े पैमाने पर फ़ाइनट्यून करते हैं (Conneau et al., 2020) जैसा कि चित्र 1 में दिखाया गया है। हमारा क्लासिफायर RoBERTa के ऊपर एक छोटा नेटवर्क है जो सबसे पहले RoBERTa के [CLS] टोकन पर 0.1 की संभावना के साथ ड्रॉपआउट करता है, उसके बाद एक रैखिक परत और एक tanh करता है। हम 0.1 की संभावना के साथ एक और ड्रॉपआउट परत से गुजरते हैं और एक अंतिम रैखिक परत दो वर्गों में प्रोजेक्ट करती है। पूरी वास्तुकला को फ़ाइनट्यून किया गया है।


चित्र 1: फ़ाइनट्यूनिंग आर्किटेक्चर.


हम क्रॉस-एंट्रॉपी लॉस, एडमडब्ल्यू ऑप्टिमाइज़र और एक लर्निंग रेट का उपयोग करते हैं जो रैखिक रूप से घटता है। हम बैच आकार, लर्निंग रेट, वार्मअप अवधि और युगों की संख्या को समायोजित करते हैं। प्रति भाषा और मॉडल के सर्वोत्तम मान तालिका 12 में संक्षेपित हैं।


तालिका 12: तीन मोनोलिंगुअल फ़ाइनट्यूनिंग (en, de और, es) और बहुभाषी (en+de+es) में प्रयुक्त मुख्य हाइपरपैरामीटर और उनका प्रदर्शन।


सभी प्रशिक्षण 32GB वाले एकल NVIDIA Tesla V100 Volta GPU का उपयोग करके किए जाते हैं।

एफ.2 विषय मॉडलिंग

हम स्टॉपवर्ड्स को हटाने के बाद कॉर्पस पर LDA करने के लिए मैलेट (मैककैलम, 2002) का उपयोग करते हैं, हाइपरपैरामीटर ऑप्टिमाइज़ेशन विकल्प को सक्रिय करते हैं और हर 10 पुनरावृत्तियों पर करते हैं। अन्य पैरामीटर डिफ़ॉल्ट हैं। हम 10 विषयों के साथ प्रति भाषा एक रन करते हैं और 15 विषयों के साथ एक और रन करते हैं। हम कॉर्पस को दोनों लेबल के साथ टैग करते हैं।