लेखकहरू:
स्वचालित निबन्ध स्कोरिङ (AES) एक क्लासिक NLP कार्य हो जुन धेरै दशकहरु को लागी अध्ययन गरिएको छ। AES सँग धेरै व्यावहारिक सान्दर्भिकता र ठूलो आर्थिक क्षमता छ - AES ठूला प्रतिस्पर्धात्मक परीक्षाहरू (उदाहरणका लागि SAT, GRE) र बढ्दो अनलाइन सिकाइ बजारको लागि आधारशिला हो। बिल एन्ड मेलिन्डा गेट्स फाउन्डेसन र जुकरबर्ग-चान इनिसिएटिभ जस्ता धेरै परोपकारी र गैर-लाभकारी संस्थाहरूले AES [6, 7, 8] मा धेरै Kaggle प्रतियोगिताहरूलाई वित्त पोषित गरेका छन्। यी प्रयासहरूको बावजुद, तथापि, निबन्ध स्कोरिङको साथ आधारभूत कठिनाइहरूको कारण समस्या समाधान हुन सकेको छैन। निबन्धको मूल्याङ्कन गर्नु अत्यन्त व्यक्तिपरक हुन्छ र यसमा अमूर्त कारकहरू समावेश हुन्छन् जस्तै समन्वय, व्याकरण, सान्दर्भिकता, आदि जुन गणना गर्न गाह्रो हुन्छ। नतिजाको रूपमा, व्याकरण, सुसंगतता, आदि जस्ता सुविधाहरूमा निबन्धको दानेदार मूल्याङ्कनको साथ प्रशिक्षण डेटाको लागि लेबलहरू प्राप्त गर्नु एकदम महँगो छ। फलस्वरूप, तालिम डेटा सेट अन्य NLP कार्यहरू जस्तै (मास्क गरिएको) भाषा मोडेलहरू, NER, POS ट्यागिङ, मेसिन अनुवाद, इत्यादिको तुलनामा एकदम सीमित छ। यसबाहेक, एक साधारण समग्र स्कोर प्रदान गर्नाले विद्यार्थीलाई थोरै वा कुनै प्रतिक्रिया प्रदान गर्दैन। विद्यार्थीहरूलाई उनीहरूको प्रगतिमा मद्दत गर्दैन। तसर्थ, वर्तमान प्रयासहरू एकल अंकको सट्टा दानेदार पक्षहरूमा निबन्ध मूल्याङ्कनमा केन्द्रित छन्। यसले ओभर-फिटिंगबाट बच्न मद्दत गर्दछ किनभने भविष्यवाणी मोडेलले अब सबै मेट्रिकहरूमा राम्रो प्रदर्शन गर्नुपर्दछ र केवल एक मेट्रिक मात्र होइन, अनिवार्य रूपमा, कसैले यसलाई बहु-कार्य मोडेलको रूपमा सोच्न सक्छ। हालको अध्ययनमा, हामी छवटा मेट्रिक्समा फोकस गर्छौं: संयोजन, वाक्यविन्यास, शब्दावली, वाक्यांश, व्याकरण, र सम्मेलनहरू।
2010s भन्दा पहिले, AES मोडेलहरू धेरैजसो कम्प्युटेसनल भाषाविद्हरू द्वारा डिजाइन गरिएको हात-शिल्प सुविधाहरूमा निर्भर थिए [10, 4]। यद्यपि, यी मोडेलहरू सामान्यतया निश्चित सुविधाहरू (जस्तै निबन्ध लम्बाइ) तर्फ पक्षपाती थिए र विषयहरू र मेट्रिक्सहरूमा सामान्यीकरण गर्न सकेनन्। Word2Vec र GloVe जस्ता भाषा मोडेलहरूद्वारा सिकेका शब्द इम्बेडिङहरूद्वारा तिनीहरूलाई प्रतिस्थापन गरेर हस्तनिर्मित सुविधाहरूप्रति पूर्वाग्रहलाई सम्बोधन गरिएको थियो। यी शब्द इम्बेडिङहरूमा आधारित, निबन्ध स्कोरहरू शब्द इम्बेडिङहरूको न्यूरल नेटवर्क डाउनस्ट्रीम थपेर प्रतिगमन र वर्गीकरण कार्यहरूको रूपमा भविष्यवाणी गरिएको थियो। ठूलो कोर्पसमा प्रशिक्षित एम्बेडिङहरू प्रयोग गरेर, सबै मेट्रिक्सका साथै समग्र स्कोर [११] को लागि निबन्ध स्कोरिङमा महत्त्वपूर्ण सुधार देखिन्छ। यद्यपि, धेरै शब्द इम्बेडिङहरू जुन प्रदर्शन सुधारका लागि महत्त्वपूर्ण थिए मोडेलको सबैभन्दा ठूलो सीमा साबित भयो। एम्बेडिङहरू अनिवार्य रूपमा ब्याग-अफ-वर्ड्स दृष्टिकोणबाट आएको हुनाले, तिनीहरूले कुनै पनि प्रासंगिक जानकारीहरू खिच्न सकेनन् जुन आंशिक रूपमा अघिल्लो मोडेलहरूमा हस्तनिर्मित भाषिक सुविधाहरूद्वारा कब्जा गरिएको थियो। हातले बनाइएका सुविधाहरू थप्नुको सट्टा र सम्भावित रूपमा अघिल्लो मोडेलका कमजोरीहरूलाई पुन: परिचय गराउनुको सट्टा, प्रासंगिक जानकारीको अभावको समस्यालाई LSTM [१३] र ट्रान्सफर्मर आर्किटेक्चरहरू प्रयोग गरेर ध्यान संयन्त्र मार्फत सम्बोधन गरिएको थियो। वासवानी र पोलोसुखिन [१४] को कामले ट्रान्सफर्मरको प्रयोग गरेर BERT मोडेल सफलतापूर्वक विकास गर्यो। BERT मोडेल र ट्रान्सफर्मर आर्किटेक्चरको सफलताबाट उत्साहित भएर, ध्यानमा आधारित भाषा मोडेलहरूको विकास भयो। अब, शब्द इम्बेडिङको सट्टा, एक वाक्य वा कागजात-स्तर इम्बेडिङ प्राप्त गर्न सक्छ जुन प्रासंगिक जानकारी क्याप्चर गर्दछ। यी गहिरो इम्बेडिङहरू प्रयोग गरेर, न्यूरल नेटवर्क मोडेलहरू निबन्ध स्कोरहरू (वर्गीकरण र रिग्रेसन कार्यहरू दुवैको रूपमा) भविष्यवाणी गर्न विकसित गरिन्छ।
यस प्रगतिको बावजुद, BERT मोडेल प्रयोग गर्दा गम्भीर सीमितताहरू अवस्थित छन्। Lotridge et al। (2021) [10] खेल निबन्ध, अनियमित फेरबदल, र बाबेल निबन्धहरूको लागि मोडेलको बलियोताको अभाव प्रदर्शन गर्यो। कार्यसम्पादन विभिन्न वर्ग र मेट्रिक्स मा एकदम भिन्न हुन्छ। यो कमीलाई सम्बोधन गर्न, यस अनुसन्धानमा, हामी बहु-कार्य सिकाइ मार्फत सबै मेट्रिकहरू एकै साथ मोडेल गर्नेछौं। BERT-आधारित विश्लेषणको अर्को प्रमुख सीमा भनेको टोकन लम्बाइ BERT मोडेलमा 512 मा सीमित छ। हामी यसलाई थप उन्नत आर्किटेक्चरहरू प्रयोग गरेर सम्बोधन गर्न खोज्छौं जस्तै Longformer जसले प्रति कागजात 4096 टोकनहरूलाई अनुमति दिन्छ। यस अध्ययनमा विचार गरिएको डेटा सेटको लागि (खण्ड 2.1 मा विवरणहरू), 40% भन्दा बढी कागजातहरू 512 टोकन लम्बाइमा छन्। त्यसकारण, कागजातलाई मानक BERT मोडेलको साथ 512 टोकनमा मात्र काट्दा सन्दर्भमा ठूलो नोक्सान हुनेछ। विभिन्न अध्ययनहरूको तेस्रो कुञ्जी सीमा सीमित डेटासेट हो - यद्यपि धेरै अध्ययनहरूले AES मा ध्यान केन्द्रित गरेको छ, ती प्रत्येक डेटासेटहरू फरक तरिकाले स्कोर गरिएको छ, र फलस्वरूप, मोडेलहरू सजिलैसँग सबै डेटा सेटहरूमा प्रशिक्षित हुन सक्दैनन्। तसर्थ, यस अध्ययनमा, हामी डेटासेटहरू मार्फत तालिम दिन र AES कार्यहरू गर्न स्वत: एन्कोडर-व्युत्पन्न एन्कोडिङहरू प्रयोग गर्नको लागि अटोइन्कोडर नेटवर्कहरूको उपयोगिताको अनुसन्धान गर्छौं। संक्षेपमा, यस अध्ययनले स्वचालित निबन्ध स्कोरिङमा विभिन्न गहिरो सिकाइ-आधारित कागजात इन्कोडिङहरूको प्रभावको अनुसन्धान गर्दछ। यस अध्ययनमा विचार गरिएका डेटा सेट, पद्धति, प्रयोगहरू, र गहिरो इम्बेडिङहरू खण्ड 2 मा प्रस्तुत गरिएका छन्। गहिरो इम्बेडिङहरू फरक पार्नुका साथै, हामी Autoencoder नेटवर्कमा गहिरो सङ्केतनहरूलाई तालिम दिएर विभिन्न AES डाटासेटहरू संयोजन गर्ने तरिकाहरू विश्लेषण गर्छौं। यी सबै दृष्टिकोणहरूबाट प्राप्त परिणामहरू खण्ड 3 मा प्रस्तुत गरिएका छन् र निष्कर्षहरू साथै थप अनुसन्धानका लागि निर्देशनहरू धारा 4 मा दिइएको छ।
लर्निङ एजेन्सी ल्याब, जर्जिया स्टेट युनिभर्सिटी, र भान्डरबिल्ट युनिभर्सिटीले राज्य र राष्ट्रिय शिक्षा एजेन्सीहरू, साथै गैर-लाभकारी संस्थाहरूबाट ठूलो संख्यामा निबन्धहरू सङ्कलन गरेका छन्। यस सङ्कलनबाट, तिनीहरूले ग्रेड 6-12 मा विद्यार्थीहरूले लेखेका तर्कपूर्ण निबन्धहरू र अंग्रेजी भाषा लर्नरको अन्तरदृष्टि, प्रवीणता र सीपहरू समावेश गरी मूल्याङ्कन, चयन, र समझदारी तर्क र बहस तत्वहरू (PERSUADE) कोषका लागि प्रेरक निबन्धहरू विकास गरेका छन्। (ELLIPSE) कोर्पस, ग्रेड 8-12 मा अंग्रेजी भाषा लर्नर (ELLs) द्वारा लेखिएका निबन्धहरू मिलेर।
ELLIPSE corpus: ELLIPSE corpus मा ELLs द्वारा ग्रेड 8-12 मा लिखित 7,000 भन्दा बढी निबन्धहरू छन्। यी निबन्धहरू 2018-19 र 2019-20 स्कूल वर्षहरूबाट राज्य मानकीकृत लेखन मूल्याङ्कनहरूको भागको रूपमा लेखिएका थिए। ELLIPSE corpus मा निबन्धहरू भाषा प्रवीणता स्तरहरूको लागि मानव मूल्याङ्कनकर्ताहरूले पाँच-बिन्दु स्कोरिङ रूब्रिक प्रयोग गरी एनोटेट गरेका थिए जसमा समग्र र विश्लेषणात्मक स्केलहरू समावेश थिए। समग्र मापनले निबन्धहरूमा प्रदर्शन गरिएको समग्र भाषा प्रवीणता स्तरमा केन्द्रित थियो, जबकि विश्लेषणात्मक स्केलले संयोजन, वाक्यविन्यास, वाक्यांशशास्त्र, शब्दावली, व्याकरण, र सम्मेलनहरूको मूल्याङ्कन समावेश गर्दछ। प्रत्येक विश्लेषणात्मक मापनको लागि स्कोर 0.5 को वृद्धिमा 1.0 देखि 5.0 सम्मको हुन्छ र त्यो मापनमा बढि प्रवीणतासँग सम्बन्धित बढी स्कोरहरू हुन्छन्।
PERSUADE corpus: PERSUADE corpus मा अमेरिकी विद्यार्थीहरूले ग्रेड 6-12 मा लिखित 25,000 भन्दा बढी तर्कपूर्ण निबन्धहरू समावेश गर्दछ। यी निबन्धहरू 2010-2020 बाट राष्ट्रिय र राज्य मानकीकृत लेखन मूल्याङ्कनहरूको भागको रूपमा लेखिएका थिए। PERSUADE कोर्पसमा प्रत्येक निबन्धलाई मानव मूल्याङ्कनकर्ताहरूले तर्क र प्रवचन तत्वहरूको साथसाथै तर्क तत्वहरू बीचको पदानुक्रमिक सम्बन्धहरूको लागि एनोटेट गरिएको थियो। एनोटेशन रुब्रिक सामान्यतया तर्कात्मक लेखनमा पाइने प्रवचन तत्वहरूको पहिचान र मूल्याङ्कन गर्न विकसित गरिएको थियो।
यस परियोजनाको लागि, हामी ELLIPSE कोर्पस प्रयोग गर्छौं र एकै साथ छ विश्लेषणात्मक उपायहरूको लागि स्कोरको भविष्यवाणी गर्छौं: समन्वय, वाक्यविन्यास, शब्दावली, वाक्यांश, व्याकरण, र सम्मेलनहरू। थप रूपमा, हामी एक autoencoder प्रयोग गरेर हाम्रो भविष्यवाणी शुद्धता सुधार गर्ने प्रयास गर्छौं। विचार ELLIPSE र PERSUADE corpus प्रयोग गरेर एक autoencoder लाई तालिम दिने हो। यस प्रक्रिया मार्फत, स्वत: एन्कोडरबाट संकुचित सुविधा भेक्टरले पूर्व-प्रशिक्षित भाषा मोडेल सुविधाहरू छुटाउन सक्ने स्कोर गर्न आवश्यक निबन्धहरूको सुविधाहरू कब्जा गर्न सक्षम हुन सक्छ।
पहिले भनिएझैं, यस परियोजनाको लक्ष्य छ विश्लेषणात्मक उपायहरूको स्कोर भविष्यवाणी गर्नु हो: संयोजन, वाक्यविन्यास, शब्दावली, वाक्यांशशास्त्र, व्याकरण, र 8th-12th कक्षा अंग्रेजी भाषा शिक्षार्थीहरूले लिखित तर्कपूर्ण निबन्धहरूमा सम्मेलनहरू। यस कार्यको लागि, हामीले पहिले आधार रेखा विकास गर्छौं र त्यसपछि आधारभूत सुधार गर्न धेरै पूर्व-प्रशिक्षित मोडेलहरू प्रयोग गर्छौं।
आधाररेखा : आधार रेखा GloVe एम्बेडिङहरू र एक द्विदिशात्मक LSTM नेटवर्क प्रयोग गरेर विकसित गरिएको छ। आधारभूत मोडेलको लागि, हामीले पहिले डेटाको क्लिन-अप जस्तै विराम चिह्न हटाउने, सेतो ठाउँ हटाउने, इत्यादि regex लाइब्रेरी प्रयोग गरेर प्रदर्शन गर्छौं र त्यसपछि, निबन्धहरूलाई टोकनाइज गर्न NLTK बाट टोकनाइजर शब्द प्रयोग गर्छौं। एउटा LSTM नेटवर्कलाई निबन्धहरूको GloVe एन्कोडिङहरूमा तालिम दिइएको छ माथिको छवटा विश्लेषणात्मक उपायहरू मध्ये प्रत्येकको लागि स्कोर प्रतिनिधित्व गर्ने लम्बाइ 6 को भेक्टर आउटपुट गर्न। हामी न्यूरल नेटवर्कलाई तालिम दिन मीन स्क्वायर एरर लॉस (MSELoss) प्रयोग गर्छौं।
DistilBERT : DistilBERT एउटा सानो, छिटो, र हल्का ट्रान्सफर्मर मोडेल हो जसलाई BERT आधार डिस्टिल गरेर प्रशिक्षित गरिन्छ। यसमा bert-base-uncased भन्दा 40% कम प्यारामिटरहरू छन् र GLUE भाषा बुझाइ बेन्चमार्कमा मापन गरिए अनुसार BERT को प्रदर्शनको 95% भन्दा बढी संरक्षण गर्दै 60% छिटो चल्छ। BERT ले सम्पूर्ण अनुक्रम [2] बाट प्रासंगिक जानकारी कब्जा गर्न आत्म-ध्यान प्रयोग गर्दछ। यसले निबन्ध नमूनाहरूको मूल्याङ्कन गर्ने र थप सटीक स्कोर प्रदान गर्ने मोडेलको क्षमतालाई सुधार गर्छ। यस मोडेलको लागि, हामी निबन्धहरूलाई टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्छौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित DistilBERT मोडेलमा पास गर्छौं। त्यसपछि हामी माथि वर्णन गरिएका छवटा लेखन विशेषताहरू मध्ये प्रत्येकको लागि स्कोर प्रतिनिधित्व गर्ने 6-आयामी आउटपुट भेक्टर फर्काउन MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।
T5 : T5 वा Text-to-Text Transfer Transformer एक इन्कोडर-डिकोडर मोडेल हो जुन बहु-कार्य मिश्रणमा असुरक्षित र पर्यवेक्षित कार्यहरूको मिश्रणमा पूर्व-प्रशिक्षित हुन्छ र जसको लागि प्रत्येक कार्यलाई टेक्स्ट-टू-टेक्स्ट ढाँचामा रूपान्तरण गरिन्छ। BERT सँग, जुन मास्क गरिएको LM र अर्को वाक्य भविष्यवाणी उद्देश्यमा पूर्व-प्रशिक्षित छ, हामीले अनुक्रम वर्गीकरण जस्ता विभिन्न डाउनस्ट्रीम कार्यहरूमा पूर्व-प्रशिक्षित मोडेलका विभिन्न उदाहरणहरूलाई अलग-अलग फाइन-ट्यून गर्न आवश्यक छ। T5 को टेक्स्ट-टू-टेक्स्ट फ्रेमवर्कले एउटै हानि प्रकार्य र डिकोडिङ प्रक्रिया प्रयोग गरेर पाठ कार्यहरूको विस्तृत विविधतामा एकल मोडेललाई तालिम दिने सरल तरिका प्रदान गर्दछ। यो पूर्व-प्रशिक्षण ढाँचाले सामान्य-उद्देश्य "ज्ञान" को साथ मोडेल प्रदान गर्दछ जसले डाउनस्ट्रीम कार्यहरूमा यसको प्रदर्शन सुधार गर्दछ [१२]। हामीले निबन्धहरूलाई टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्यौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित T5-बेस मोडेलमा पास गर्यौं। हामी त्यसपछि 6-आयामी आउटपुट भेक्टर (DistilBERT जस्तै) फिर्ता गर्न MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।
RoBERTa-base : RoBERTa Facebook द्वारा विकसित अर्को BERT-जस्तो मास्क गरिएको भाषा मोडेल हो। RoBERTa को मामलामा, गतिशील मास्किङ सबै युगहरूका लागि प्रशिक्षण भर प्रयोग गरिन्छ, जबकि BERT मा मास्क स्थिर हुन्छ। यस मार्फत, मोडेलले BERT मा भन्दा धेरै टोकनहरू सिक्छ। थप कार्यसम्पादन सुधार BERT (10x) र ठूला शब्दावली सेटको तुलनामा डाटाको धेरै ठूलो कोर्पसमा प्रशिक्षणद्वारा हासिल गरिन्छ। प्रशिक्षणमा यी परिवर्तनहरू मार्फत, रोबर्टाले धेरै जसो ग्लुई र स्क्वाड कार्यहरूमा BERT लाई पछाडि पार्छ [9]।
Longformer : Longformer एउटा BERT-जस्तो ट्रान्सफर्मर मोडेल हो जुन RoBERTa चेकपोइन्टबाट विकसित भएको हो र लामो कागजातहरूमा मास्क्ड ल्याङ्ग्वेज मोडेल (MLM) को रूपमा प्रशिक्षित भयो। यसले 4,096 टोकन सम्म लम्बाइको अनुक्रमहरूलाई समर्थन गर्दछ। सामान्यतया, ट्रान्सफर्मर-आधारित मोडेलहरू जसले आत्म-ध्यान संयन्त्र प्रयोग गर्दछ लामो अनुक्रमहरू प्रशोधन गर्न असमर्थ हुन्छन् किनभने मेमोरी र कम्प्युटेशनल आवश्यकताहरू अनुक्रम लम्बाइको साथ चौथो रूपमा बढ्छन्। यसले लामो अनुक्रमहरूलाई कुशलतापूर्वक प्रशोधन गर्न असम्भव बनाउँछ। Longformers ले यो कुञ्जी सीमिततालाई ध्यान संयन्त्रको परिचय दिएर सम्बोधन गर्दछ जुन अनुक्रम लम्बाइ [1] संग रैखिक रूपमा मापन गर्दछ। यसले स्थानीय र विश्वव्यापी सन्दर्भ क्याप्चर गर्न स्लाइडिङ-सञ्झ्याल र विस्तारित स्लाइडिङ-सञ्झ्याल ध्यान संयन्त्र प्रयोग गर्दछ। Longformer मोडेलको लागि, हामी DistilBERT जस्तै समान दृष्टिकोण प्रयोग गर्छौं। हामी निबन्धहरू टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्छौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित Longformer मोडेलमा पास गर्छौं। हामी त्यसपछि 6-आयामी आउटपुट भेक्टर (DistilBERT जस्तै) फिर्ता गर्न MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।
हामीले हाम्रा मोडेलहरूलाई हाम्रो Colab रनटाइम GPU ले मेमोरीमा फिट गर्न सक्ने भन्दा ठूलो ब्याच साइजमा तालिम दिन ग्रेडियन्ट सङ्कलन पनि प्रयोग गरेका छौं। Longformer मोडेलको ठूलो आकारको कारण, हामी केवल दुई को ब्याच आकारमा सीमित थियौं। यस्तो सानो ब्याच साइजले अस्थिर ग्रेडियन्ट गणनाहरूको परिणाम दिन्छ। हामी यसलाई ढाँचा संचयको साथमा पार्छौं - प्रत्येक पुनरावृत्ति पछि हानि ब्याकप्रोपेगेट गर्नुको सट्टा, हामी हानि जम्मा गर्छौं र ग्रेडियन्ट अद्यावधिकहरूको स्थिरता सुधार गर्न ब्याचहरूको निश्चित संख्या पछि मात्र त्रुटि ब्याकप्रोगेट गर्छौं [3]।
हाम्रो मोडेलको अनुमानित स्कोरहरूको शुद्धताको मूल्याङ्कन गर्न, हामी मेट्रिकको रूपमा स्तम्भ मूल अर्थ वर्ग त्रुटि (MCRMSE) प्रयोग गर्नेछौं। मेट्रिक निम्न रूपमा गणना गरिएको छ:
माथि वर्णन गरिएका मोडेलहरू लागू गरेपछि, हामीले यी मोडेलहरूको भविष्यवाणी त्रुटि सुधार गर्न केही प्रयोगहरू प्रयास गर्यौं। यी प्रयोगहरूको विवरण निम्नानुसार छ:
पूर्व-प्रशिक्षित इन्कोडिङहरूको प्रभाव : तालिका 1 ले खण्ड 2.2 मा वर्णन गरिएको पूर्व-प्रशिक्षित मोडेलहरू फरक गरेर प्राप्त प्रदर्शन मेट्रिकलाई संक्षेप गर्दछ। यी रनहरूमा, पूर्व-प्रशिक्षित मोडेलहरूबाट इन्कोडिङहरू सीधै २-तह न्यूरल नेटवर्क मार्फत पारित गरिन्छ जुन MSE नोक्सान प्रयोग गरेर प्रशिक्षित गरिन्छ, र खण्ड 2.4 मा छलफल गरिएका कुनै पनि सम्भावित सुधारहरू लागू गरिएको छैन। यो एक बहु-वर्ग प्रतिगमन भएकोले, प्रत्येक स्कोरिङ मेट्रिकका लागि मोडेलहरूको प्रदर्शन तालिका 3 मा देखाइएको छ।
तालिका 1 मा सूचीबद्ध ट्रान्सफर्मर आर्किटेक्चरहरू मध्ये, हामीले मास्क गरिएको भाषा मोडेलहरू DistilBERT, RoBERTa, र Longformer ले जेनेरेटिभ मोडेल T5 भन्दा राम्रो प्रदर्शन गरेको देख्छौं - सम्भवतः किनभने मास्क गरिएका मोडेलहरू संख्यात्मक आउटपुटहरूको साथ भेदभावपूर्ण कार्यहरूमा बढी ट्युन हुन्छन्। यदि यो बहुउत्पादक भाषा मोडेलहरूको लागि सामान्यीकरण गर्न सकिन्छ भने निष्कर्षमा पुग्न थप अनुसन्धान आवश्यक छ। समग्रमा, RoBERTa सँग विभिन्न मोडेलहरू मध्ये उत्कृष्ट भविष्यवाणी स्कोर छ, सम्भवतः यसको धेरै ठूलो प्रशिक्षण कोर्पस र उत्कृष्ट मास्किङको कारणले।
मोडेल | MCRMSE मेट्रिक |
---|---|
आधार रेखा | १.३६ |
DistilBERT | ०.४९३४ |
T5-आधार | ०.५३२० |
रोबर्टा | ०.४७४६ |
लङ्गफार्मर | ०.४८९९ |
रिग्रेसन हेडमा सुधारहरूको प्रभाव : पहिले, हामीले रिग्रेसन हेडमा फरक-फरक इनपुटहरूको प्रभावको अन्वेषण गर्यौं (अर्थात, पूर्व-प्रशिक्षित मोडेलहरू र त्यसमा इन्कोडिङहरू फरक गरेर), रिग्रेसन हेड प्रशिक्षण स्थिर राख्दा। यस खण्डमा, हामी इन्कोडिङहरू स्थिर राख्दा रिग्रेसन हेडको प्रशिक्षणमा फरक पार्ने प्रभावको अन्वेषण गर्छौं। खण्ड 2.4 ले यस अध्ययनमा अन्वेषण गरिएका रिग्रेसन तालिममा भएका विभिन्न परिवर्तनहरूलाई सूचीबद्ध गर्दछ। नोट गर्नुहोस् कि यस खण्डमा, DistilBERT मोडेल प्रयोग गरिन्छ किनभने यो सब भन्दा छिटो मोडेल हो र GPU आवश्यकताहरू कम छ। विभिन्न तालिम योजना/सुधारका परिणामहरू तालिका २ मा देखाइएको छ।
प्रयोग | MCRMSE |
---|---|
आउटपुट परिमाणीकरण | ०.५२९४ |
भारित RMSE | ०.५६२८ |
बहुमुखी वास्तुकला | ०.५०८ |
Autoencoder Denoising | ०.५७५ |
दुर्भाग्यवश, रिग्रेशन मोडेललाई प्रशिक्षण दिन यी भिन्नताहरू मध्ये कुनै पनि हाम्रो मूल मोडेलहरूको तुलनामा भविष्यवाणी शुद्धतामा महत्त्वपूर्ण सुधारको परिणाम हो। वास्तवमा, तालिका 2 मा सेट गरिएको प्रमाणीकरणमा प्रदर्शन मेट्रिकले यी परिमार्जनहरूसँग कार्यसम्पादनमा गिरावटलाई संकेत गर्दछ। यो कमी किन हुन्छ भन्ने कुरा स्पष्ट छैन र कार्यसम्पादनमा यो कमी एक कलाकृति होइन भनेर प्रमाणित गर्न ठूलो डेटासेटको साथ थप अध्ययन आवश्यक छ।
पाठ एन्कोडिङ र रिग्रेसन हेड प्रशिक्षणमा सबै भिन्नताहरूका लागि, हामीले व्यक्तिगत उपायहरूको लागि प्रमाणीकरण MCRMSE स्कोरहरू देख्छौं जुन एकता र व्याकरण सबै मोडेलहरूमा भविष्यवाणी गर्न सबैभन्दा गाह्रो देखिन्छ (तालिका 3 हेर्नुहोस्)। यो AES मा प्रयोग गरिएको पूर्व-प्रशिक्षित भाषा मोडेलहरूको सीमितता हुन सक्छ र हाम्रो मोडेलिङ होइन। किम एट अल। (2020) [5] व्याकरणको रूपमा राम्ररी जानकारी भएको वर्तमान भाषा मोडेलहरूको सीमितताहरू देखाउनुहोस् र भाषा मोडेलहरूमा थप प्रगतिको लागि निर्देशनहरू प्रदान गर्नुहोस्।
मोडेल (वा Exp.) | एकता | वाक्य रचना | शब्दावली | वाक्यांशशास्त्र | व्याकरण | अधिवेशनहरू |
---|---|---|---|---|---|---|
आधार रेखा | १.३७ | १.३५ | १.३२ | १.३४ | १.४४ | १.३६ |
distilBERT | ०.५४ | ०.५१ | ०.४६ | ०.५२ | ०.५७ | ०.४९ |
T5-आधार | ०.५५ | ०.५२ | ०.४८ | ०.५४ | ०.५८ | ०.५३ |
रोबर्टा | ०.५१ | ०.४७ | ०.४२ | ०.४७ | ०.५१ | ०.४६ |
लङ्गफार्मर | ०.५४ | ०.४८ | ०.४६ | ०.४९ | ०.५३ | ०.४७ |
distilBERT + आउटपुट परिमाणीकरण | ०.५५ | ०.५३ | ०.४८ | ०.५३ | ०.५७ | ०.५१ |
distilBERT + WRMSE | ०.५६ | ०.५६ | ०.५५ | ०.५६ | ०.६१ | ०.५३ |
distilBERT + बहु हेड आर्क। | ०.५३ | ०.५० | ०.४५ | ०.५१ | ०.५६ | ०.४९ |
Autoencoder + distilBERT | ०.५९ | ०.५६ | ०.५२ | ०.५६ | ०.६१ | ०.५५ |
यस कार्यमा, हामीले स्वचालित निबन्ध स्कोरिङ कार्यमा रिग्रेसन हेडलाई प्रशिक्षित गर्न विभिन्न पूर्व-प्रशिक्षित वास्तुकला र विधिहरूको प्रभावको अनुसन्धान गर्यौं, जहाँ हामीले प्रत्येक निबन्धलाई 6 भाषिक मेट्रिक्स (जस्तै, समन्वय, व्याकरण, शब्दावली) को लागि 1 देखि 5 को स्केलमा स्कोर गर्छौं। , आदि)। डेटासेट ELLIPSE कोर्पसबाट लिइएको हो, विशेष गरी Kaggle प्रतियोगिताहरूमा सूचीबद्ध डेटाको उपसेट। हामीले पाँचवटा गहिरो-शिक्षा आर्किटेक्चरहरू र रिग्रेसन हेडलाई तालिम दिने पाँच तरिकाहरू विचार गर्यौं र बहु-वर्ग आउटपुटको रूपमा स्कोरहरूको भविष्यवाणी गर्न साधारण 2-लेयर फिड-फर्वार्ड तहको साथ RoBERTA-base प्रयोग गरेर अवलोकन गर्यौं।
अपेक्षित रूपमा, ट्रान्सफर्मर आर्किटेक्चरले GloVe + LSTM को आधारभूत मोडेललाई उल्लेखनीय रूपमा उत्कृष्ट प्रदर्शन गर्यो। यसबाहेक, ट्रान्सफर्मर आर्किटेक्चर भित्र, हामी देख्छौं कि मास्क गरिएको भाषा मोडेलहरू (DistilBERT, RoBERTa, Longformer) ले जेनेरेटिभ भाषा मोडेल T5 को तुलनामा उत्कृष्ट प्रदर्शन दिन्छ। यद्यपि यो अवलोकनले सबै उत्पादन मोडेलहरूमा सामान्यीकरण गर्दैन, सहज रूपमा MLM को प्रभुत्व एकरूप देखिन्छ किनकि तिनीहरू विशेष गरी संख्यात्मक आउटपुटहरूको लागि प्रशिक्षित हुन्छन्।
यस अध्ययनको अर्को चाखलाग्दो अवलोकन यो हो कि हानि प्रकार्यहरू परिवर्तन गरेर, आउटपुटहरू सीमित गरेर, र डेटा वृद्धिको साथमा स्वत: एन्कोडर-आधारित आयामीता घटाउने/डिनोइजिङ गरेर रिग्रेसन हेडको प्रशिक्षणमा भिन्नताले मोडेलको प्रदर्शनमा सुधार गरेन। यो बरु अप्रत्याशित छ, र हामी यस घटना पछि कारणहरू पूर्ण रूपमा बुझ्दैनौं। भविष्यको अध्ययनमा, यी दृष्टिकोणहरू ठूलो डेटासेटको साथ दोहोर्याउन सकिन्छ - यसले प्रतिगमन हेडलाई प्रशिक्षणको सन्दर्भमा यी अवलोकनहरू सामान्यीकरण गर्न सकिन्छ कि भनेर निर्धारण गर्न मद्दत गर्दछ।
संक्षेपमा, हामी अवलोकन गर्छौं कि 2-लेयर फिड-फर्वार्ड न्यूरल नेटको साथ RoBERTa इन्कोडिङहरू प्रयोग गरेर छ स्कोरहरू एकैसाथ भविष्यवाणी गर्न, बहु-कार्य सिकाइ जस्तै, उत्कृष्ट प्रदर्शन प्रदान गर्दछ। विशेष गरी, डेटासेटको सानो आकारलाई ध्यानमा राख्दै, एक बलियो पूर्व-प्रशिक्षित मोडेल प्रयोग गर्ने प्रभावले मोडेलको भविष्यवाणी गर्ने कार्यसम्पादनमा उल्लेखनीय सुधार गर्न देखा पर्दछ। साथै, निबन्धको व्याकरणको मूल्याङ्कन गर्ने कार्य अन्य कुनै पनि मूल्याङ्कन मेट्रिकभन्दा खराब छ, र यो भाषा मोडेलमा निहित छ। तसर्थ, भविष्यका कार्यहरूले भाषाको व्याकरणीय पक्षहरूलाई राम्रोसँग कब्जा गर्न भाषा मोडेलहरू सुधार गर्नमा ध्यान केन्द्रित गर्नुपर्छ।