लेखक:
(1) मार्टिना विएसेक, कंप्यूटर विज्ञान संस्थान, पोलिश अकादमी ऑफ साइंसेज;
(2) पिओटर रयबाक, कंप्यूटर विज्ञान संस्थान, पोलिश अकादमी ऑफ साइंसेज;
(3) लुकाज़ प्सज़ेनी, कंप्यूटर विज्ञान संस्थान, पोलिश विज्ञान अकादमी;
(4) अलीना रॉब्लेव्स्का, कंप्यूटर विज्ञान संस्थान, पोलिश विज्ञान अकादमी।
संपादक का नोट: यह प्राकृतिक भाषा प्रीप्रोसेसिंग में उपयोग किए जाने वाले उपकरणों के मूल्यांकन और तुलना में सुधार पर किए गए अध्ययन का 10 में से 1 भाग है। बाकी नीचे पढ़ें।
सार एवं 1. परिचय एवं संबंधित कार्य
2.2. ऑनलाइन बेंचमार्किंग प्रणाली
ट्रांसफॉर्मर-आधारित आर्किटेक्चर की उन्नति के साथ, हम प्राकृतिक भाषा प्रीप्रोसेसिंग (NLPre) उपकरणों के उदय को देखते हैं जो बिना किसी बाहरी भाषाई मार्गदर्शन के प्रारंभिक NLP कार्यों (जैसे टोकनाइजेशन, पार्ट-ऑफ-स्पीच टैगिंग, डिपेंडेंसी पार्सिंग, या मॉर्फोलॉजिकल विश्लेषण) को हल करने में सक्षम हैं। नियम-आधारित मॉर्फोलॉजिकल विश्लेषकों या शब्दकोशों पर निर्भर करते हुए, अच्छी तरह से स्थापित प्रीप्रोसेसिंग टूलकिट के लिए नए समाधानों की तुलना करना कठिन है। मौजूदा NLPre मूल्यांकन दृष्टिकोणों की कमियों से अवगत, हम विश्वसनीय और निष्पक्ष मूल्यांकन और प्रदर्शन रिपोर्टिंग की एक नई विधि की जांच करते हैं। GLUE बेंचमार्क से प्रेरित होकर, प्रस्तावित भाषा-केंद्रित बेंचमार्किंग प्रणाली कई NLPre उपकरणों के व्यापक चल रहे मूल्यांकन को सक्षम बनाती है, जबकि उनके प्रदर्शन को विश्वसनीय रूप से ट्रैक करती है। प्रोटोटाइप एप्लिकेशन को पोलिश के लिए कॉन्फ़िगर किया गया है और पूरी तरह से इकट्ठे NLPre-PL बेंचमार्क के साथ एकीकृत किया गया है। इस बेंचमार्क के आधार पर, हम विभिन्न प्रकार के पोलिश NLPre सिस्टम का व्यापक मूल्यांकन करते हैं। अन्य भाषाओं के लिए बेंचमार्किंग वातावरण के निर्माण को सुविधाजनक बनाने के लिए, जैसे कि आयरिश के लिए NLPre-GA या चीनी के लिए NLPre-ZH, हम बेंचमार्किंग सिस्टम के सार्वजनिक रूप से जारी किए गए स्रोत कोड का पूर्ण अनुकूलन सुनिश्चित करते हैं। सभी संसाधनों (तैनात प्लेटफ़ॉर्म, स्रोत कोड, प्रशिक्षित मॉडल, डेटासेट आदि) के लिंक प्रोजेक्ट वेबसाइट पर पाए जा सकते हैं: https://sites.google.com/view/nlpre-benchmark.
कीवर्ड : बेंचमार्किंग, लीडरबोर्ड, सेगमेंटेशन, POS टैगिंग, निर्भरता पार्सिंग, पोलिश
पार्ट-ऑफ-स्पीच (POS) टैगर्स और डिपेंडेंसी पार्सर्स द्वारा पूर्वानुमानित मॉर्फोसिंटेक्टिक विशेषताएं विभिन्न डाउनस्ट्रीम कार्यों का आधार हैं, जिनमें भावना विश्लेषण (सन एट अल., 2019), संबंध निष्कर्षण (झांग एट अल., 2018; वशिष्ठ एट अल., 2018; गुओ एट अल., 2019), अर्थपूर्ण भूमिका लेबलिंग (वांग एट अल., 2019; कासाई एट अल., 2019), प्रश्न उत्तर (खाशाबी एट अल., 2018), या मशीन अनुवाद (चेन एट अल., 2017; झांग एट अल., 2019) शामिल हैं, लेकिन इन्हीं तक सीमित नहीं हैं। इसलिए इन अंतर्निहित कार्यों को प्राकृतिक भाषा प्रीप्रोसेसिंग (NLPre) कार्यों के रूप में संदर्भित किया जा सकता है, क्योंकि वे उन्नत NLP कार्यों से पहले होते हैं। चूंकि मॉर्फोसिंटेक्टिक भविष्यवाणियों की गुणवत्ता का डाउनस्ट्रीम कार्यों (सचन एट अल., 2021) के प्रदर्शन पर महत्वपूर्ण प्रभाव पड़ता है, इसलिए उचित भाषाई विशेषताओं की भविष्यवाणी करने के लिए सबसे अच्छे मौजूदा एनएलपीरी टूल का उपयोग करना समझदारी है। हम विभिन्न एनएलपीरी विधियों से लैस हैं, जिसमें हाथ से तैयार किए गए व्याकरण वाले नियम-आधारित उपकरण (जैसे क्राउच एट अल., 2011), सांख्यिकीय प्रणालियों (जैसे निवरे, 2009; मैकडॉनल्ड एट अल., 2005; स्ट्राका एट अल., 2016), पूर्व-प्रशिक्षित भाषा मॉडल (जैसे क्यूई एट अल., 2020; गुयेन एट अल., 2021ए) द्वारा समर्थित तंत्रिका तंत्र से लेकर बड़े भाषा मॉडल (एलएलएम ओयांग एट अल., 2022) तक शामिल हैं।
एनएलपीआरई टूल्स का आंतरिक रूप से मूल्यांकन करने और उनके प्रदर्शन की रिपोर्टिंग के संदर्भ में, कई प्रकार के दृष्टिकोण प्रस्तावित किए गए हैं, जैसे साझा कार्य, प्रदर्शन तालिका और प्रगति रिपोजिटरी। साझा कार्य का मुख्य लक्ष्य सावधानीपूर्वक परिभाषित मूल्यांकन पद्धति का उपयोग करके जारी किए गए डेटासेट पर भाग लेने वाली प्रणालियों का व्यापक रूप से मूल्यांकन करना है। अब तक कई एनएलपीआरई साझा कार्यों का आयोजन किया जा चुका है (जैसे बुचोलज़ और मार्सी, 2006; सेड्डाह एट अल, 2013; ज़ेमन एट अल, 2017, 2018), और उन्होंने निस्संदेह एनएलपीआरई के विकास को बढ़ावा दिया। व्यापक रूप से पसंद किए जाने पर, साझा कार्य एनएलपीआरई प्रगति के बारे में ज्ञान के एक पूर्ण और अद्यतित स्रोत के रूप में संदिग्ध हैं। सबसे पहले, वे केवल वर्तमान प्रतियोगिता में प्रस्तावित समाधानों की जांच करते हैं और पिछले संस्करणों या संभावित भविष्य के संस्करणों में भाग लेने वाली प्रणालियों को शामिल नहीं करते हैं। निश्चित रूप से, साझा कार्यों के लिए जारी किए गए डेटासेट का उपयोग नए उपकरणों से जुड़े प्रयोगों में फिर से किया जा सकता है। ऐसे प्रयोगों के परिणामों को स्वतंत्र वैज्ञानिक प्रकाशनों में रिपोर्ट किया जा सकता है। फिर भी, ये प्रकाशन व्यापक रूप से बिखरे हुए हैं, किसी विशेष भाषा के संबंध में चल रही NLPre प्रगति को व्यवस्थित रूप से ट्रैक करने के लिए एक केंद्रीकृत मंच का अभाव है।
नए या अपग्रेड किए गए NLPre टूल के परिणाम आम तौर पर प्रदर्शन तालिकाओं (जैसे स्टैंज़ा[1] या ट्रैंकिट[2]) में रिपोर्ट किए जाते हैं। ऐसी तालिकाएँ भाषाओं के एक सेट को प्रीप्रोसेस करने में टूल की गुणवत्ता के बारे में जानकारी प्रदान करती हैं। हालाँकि, प्रदर्शन तालिकाओं में अक्सर इन विशेष भाषाओं के लिए प्रशिक्षित अन्य प्रणालियों के साथ तुलना की कमी होती है। इसके अतिरिक्त, चूंकि NL Pre सिस्टम को अलग-अलग डेटासेट रिलीज़ (जैसे यूनिवर्सल डिपेंडेंसीज़) पर प्रशिक्षित किया जा सकता है, इसलिए उनकी प्रदर्शन तालिकाओं की तुलना करना निर्णायक नहीं है।
एनएलपी शोध में रुझानों और प्रगति के बारे में जानकारी आमतौर पर पेपर्स विद कोड[3] या एनएलपी-प्रगति[4] जैसे सार्वजनिक रिपॉजिटरी में एकत्र की जाती है। इन रिपॉजिटरी में सामान्य एनएलपी कार्यों के लिए डेटासेट का भंडार होता है, जैसे निर्भरता पार्सिंग और पीओएस टैगिंग, और इन डेटासेट पर प्रशिक्षित और परीक्षण किए गए मॉडल की रैंकिंग। वे नए डेटासेट और परिणामों का योगदान करने के लिए खुले हैं, जो उनकी विश्वसनीयता सुनिश्चित करने के लिए प्रकाशित और लिंक किए गए वैज्ञानिक पत्रों से उत्पन्न होते हैं। हालांकि, एक नए या अपग्रेड किए गए एनएलपीआरई सिस्टम के अत्याधुनिक लेकिन अप्रकाशित परिणाम रिपोर्ट करने के योग्य नहीं हैं। एनएलपीआरई कार्यों के साथ ज्यादातर अंग्रेजी में डेटासेट होते हैं, जिससे रिपॉजिटरी की भाषा के अप्रतिनिधित्व की समस्या पैदा होती है। अंतिम लेकिन कम से कम नहीं, पेपर्स विद कोड रिपॉजिटरी का दुरुपयोग होने का खतरा है।
एनएलपीरी में प्रगति के बारे में बहुमूल्य जानकारी प्रदान करने के बावजूद, उल्लिखित मूल्यांकन दृष्टिकोण कमियों को भी उजागर करते हैं, जैसे पुराने और अधूरे परिणाम, क्रॉस-सिस्टम तुलना की कमी, कुछ प्रणालियों की उपेक्षा, परिणाम में हेरफेर का जोखिम और भाषा-केंद्रित परिप्रेक्ष्य का अभाव।
एनएलपी शोध में मानक प्रक्रियाओं का पालन करते हुए, हम बेंचमार्किंग विधि का उपयोग करके एनएलपीआर उपकरणों का मजबूती से और निष्पक्ष मूल्यांकन करने का प्रस्ताव करते हैं जो एनएलपी मॉडल के प्रदर्शन और प्रगति के मूल्यांकन की अनुमति देता है। एनएलपी बेंचमार्क को लीडरबोर्ड के साथ जोड़ा जाता है जो बेंचमार्क कार्यों पर मॉडल के प्रदर्शन की रिपोर्ट और अपडेट करते हैं, जैसे GLUE (वांग एट अल., 2018), XTREME (हू एट अल., 2020), GEM (गेहरमैन एट अल., 2021)। पारंपरिक बेंचमार्किंग दृष्टिकोण को गतिशील रूप से बढ़ाया जा सकता है, जिसका उदाहरण डायनाबेंच प्लेटफ़ॉर्म (कीला एट अल., 2021) है, जो उपयोगकर्ताओं को कस्टम उदाहरण इनपुट करके बेंचमार्क डेटा को बढ़ाने में सक्षम बनाता है। यह मानव और मॉडल-इन-द-लूप बेंचमार्किंग परिदृश्य NLU कार्यों के लिए आशाजनक प्रतीत होता है। फिर भी, यह NLPre के मामले में प्रभावी नहीं हो सकता है, क्योंकि वाक्यविन्यास वृक्षों या रूपात्मक विशेषताओं के विश्वसनीय उदाहरणों को एनोटेट करने के लिए विशेषज्ञ ज्ञान की आवश्यकता होती है। आकस्मिक उपयोगकर्ताओं के बीच कई विशेषज्ञों को ढूंढना एक गंभीर बाधा हो सकती है, इसलिए हम मानक बेंचमार्किंग पद्धति के अनुरूप अपनी प्रणाली को क्रियान्वित करते हैं।
हमारी जानकारी के अनुसार, बेंचमार्किंग का उपयोग NLPre सिस्टम को रैंक करने के लिए नहीं किया गया है, भले ही यह मूल्यवान हो और ट्रीबैंक बनाने वाले या उन्नत NLP पाइपलाइनों को डिज़ाइन करने वाले समुदाय द्वारा वांछित हो। हमारा NLPre बेंचमार्किंग दृष्टिकोण इस कमी को पूरा करता है। प्रस्तावित ऑनलाइन बेंचमार्किंग सिस्टम स्वचालित रूप से NLPre सिस्टम के सबमिट किए गए पूर्वानुमानों का आकलन करता है और सार्वजनिक स्कोरबोर्ड पर उनकी प्रदर्शन रैंकिंग प्रकाशित करता है (अनुभाग 2.2 देखें)। सिस्टम भाषा-केंद्रित और टैगसेट-अज्ञेयवादी है, व्यापक और विश्वसनीय मूल्यांकन को सक्षम बनाता है और किसी विशेष भाषा के लिए NLPre प्रगति पर जानकारी का एक अद्यतित स्रोत बनाता है। समान प्लेटफ़ॉर्म, जैसे कोडलैब (पावो एट अल।, 2022) के विपरीत, NLPre बेंचमार्किंग सिस्टम पूरी तरह से कॉन्फ़िगर करने योग्य और सेट अप करने में आसान है, जिससे उपयोगकर्ता किसी भी भाषा के लिए मूल्यांकन वातावरण स्थापित कर सकते हैं। इसके अतिरिक्त, इसे स्वयं-होस्ट किया जा सकता है, जिससे किसी विशेष भाषा के साथ काम करने वाले डेवलपर्स और शोधकर्ताओं के लिए इसे स्थानीय सर्वर पर एक्सेस करना सुविधाजनक हो जाता है।
एनएलपीरी कार्यों के लिए बेंचमार्किंग तकनीक के उपयोग को उचित ठहराने के लिए, हम एक चुनौतीपूर्ण परिदृश्य में पोलिश भाषा को उदाहरण भाषा के रूप में लेकर अनुभवजन्य शोध करते हैं। पोलिश के मामले में, एक प्रमुख बाधा उत्पन्न होती है - विभिन्न टैगसेट, एनोटेशन योजनाओं और अलग-अलग प्रणालियों के प्रशिक्षण के लिए उपयोग किए जाने वाले डेटासेट के बीच विसंगतियां उनकी सीधी तुलना को रोकती हैं। इस प्रकार हम पोलिश के लिए एक नए प्रदर्शन बेंचमार्क पर एनएलपीरी प्रणालियों के प्रशिक्षण और मूल्यांकन को मानकीकृत करते हैं, जिसे आगे एनएलपीरी-पीएल कहा जाएगा (अनुभाग 3 देखें)। इसमें एनएलपीरी कार्यों का एक पूर्वनिर्धारित सेट और मौजूदा पोलिश डेटासेट के सुधारित संस्करण शामिल हैं। अनुभाग 4 एनएलपीरी-पीएल बेंचमार्क पर चयनित एनएलपीरी प्रणालियों के हमारे मजबूत और विश्वसनीय मूल्यांकन को रेखांकित करता है। हमारे ज्ञान के अनुसार, सुसंगत मूल्यांकन वातावरण की कमी के कारण ऑफ-द-शेल्फ एलएलएम, न्यूरल एनएलपीरी प्रणालियों और स्थापित टैगिंग डिसएम्बिगुएटर्स के प्रदर्शन की तुलना करने के लिए पोलिश में कोई मूल्यांकन प्रयोग नहीं किया गया है।
यह कार्य एक त्रिपक्षीय योगदान देता है जिसमें नवीनता, शोध और विकास शामिल है जो एक ओपन-सोर्स लोकाचार द्वारा समर्थित है। (1) हम एनएलपीरी सिस्टम का मूल्यांकन और रैंकिंग करने के लिए एक नई भाषा-उन्मुख बेंचमार्किंग दृष्टिकोण का प्रस्ताव करते हैं। (2) हम इकट्ठे एनएलपीरी-पीएल बेंचमार्क पर गैर-तुच्छ पोलिश भाषा परिदृश्य में प्रस्तावित दृष्टिकोण का वैज्ञानिक मूल्यांकन करते हैं। (3) हम तीन अलग-अलग भाषाओं के लिए ऑनलाइन बेंचमार्किंग प्लेटफ़ॉर्म प्रकाशित करते हैं: पोलिश [5], चीनी [6], और आयरिश [7], और बेंचमार्किंग सिस्टम के स्रोत कोड को ओपन-सोर्स के रूप में जारी करते हैं।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] https://stanfordnlp.github.io/stanza/performance.html (यूडी v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance.html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu