paint-brush
ठूला भाषा मोडेलहरू प्रयोग गरेर स्वचालित निबन्ध स्कोरिङद्वारा@junaidsyed
नयाँ इतिहास

ठूला भाषा मोडेलहरू प्रयोग गरेर स्वचालित निबन्ध स्कोरिङ

द्वारा Junaid Syed15m2024/10/12
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

यस पेपरले स्वचालित निबन्ध स्कोरिङ (AES) को चुनौतीहरूलाई सम्बोधन गर्दछ, एकता, व्याकरण, र प्रासंगिकता जस्ता व्यक्तिपरक सुविधाहरूको कारणले निबन्ध स्कोर गर्न कठिनाईलाई जोड दिन्छ। अध्ययनले छवटा विश्लेषणात्मक मेट्रिक्समा केन्द्रित छ र लामो निबन्धहरू ह्यान्डल गर्नको लागि बहु-कार्य सिकाइ, अटोइन्कोडर नेटवर्कहरू, र उन्नत मोडेलहरू जस्तै Longformer प्रयोग गरेर हालको विधिहरूमा सुधारहरू प्रस्ताव गर्दछ। BERT जस्ता मोडेलहरूसँग महत्त्वपूर्ण प्रगति भएता पनि, टोकन लम्बाइ प्रतिबन्धहरू र प्रासंगिक समझको कमी जस्ता मुद्दाहरू जारी छन्। कागजले AES को शुद्धता र निष्पक्षता सुधार गर्न कागजात इन्कोडिङहरू सहित समाधानहरू खोज्छ।
featured image - ठूला भाषा मोडेलहरू प्रयोग गरेर स्वचालित निबन्ध स्कोरिङ
Junaid Syed HackerNoon profile picture
0-item

लेखकहरू:

  • जुनैद सैयद, जर्जिया इन्स्टिच्युट अफ टेक्नोलोजी
  • साई शानभाग, जर्जिया इन्स्टिच्युट अफ टेक्नोलोजी
  • वामसी कृष्ण चक्रवर्ती, जर्जिया इन्स्टिच्युट अफ टेक्नोलोजी


स्वचालित निबन्ध स्कोरिङ (AES) एक क्लासिक NLP कार्य हो जुन धेरै दशकहरु को लागी अध्ययन गरिएको छ। AES सँग धेरै व्यावहारिक सान्दर्भिकता र ठूलो आर्थिक क्षमता छ - AES ठूला प्रतिस्पर्धात्मक परीक्षाहरू (उदाहरणका लागि SAT, GRE) र बढ्दो अनलाइन सिकाइ बजारको लागि आधारशिला हो। बिल एन्ड मेलिन्डा गेट्स फाउन्डेसन र जुकरबर्ग-चान इनिसिएटिभ जस्ता धेरै परोपकारी र गैर-लाभकारी संस्थाहरूले AES [6, 7, 8] मा धेरै Kaggle प्रतियोगिताहरूलाई वित्त पोषित गरेका छन्। यी प्रयासहरूको बावजुद, तथापि, निबन्ध स्कोरिङको साथ आधारभूत कठिनाइहरूको कारण समस्या समाधान हुन सकेको छैन। निबन्धको मूल्याङ्कन गर्नु अत्यन्त व्यक्तिपरक हुन्छ र यसमा अमूर्त कारकहरू समावेश हुन्छन् जस्तै समन्वय, व्याकरण, सान्दर्भिकता, आदि जुन गणना गर्न गाह्रो हुन्छ। नतिजाको रूपमा, व्याकरण, सुसंगतता, आदि जस्ता सुविधाहरूमा निबन्धको दानेदार मूल्याङ्कनको साथ प्रशिक्षण डेटाको लागि लेबलहरू प्राप्त गर्नु एकदम महँगो छ। फलस्वरूप, तालिम डेटा सेट अन्य NLP कार्यहरू जस्तै (मास्क गरिएको) भाषा मोडेलहरू, NER, POS ट्यागिङ, मेसिन अनुवाद, इत्यादिको तुलनामा एकदम सीमित छ। यसबाहेक, एक साधारण समग्र स्कोर प्रदान गर्नाले विद्यार्थीलाई थोरै वा कुनै प्रतिक्रिया प्रदान गर्दैन। विद्यार्थीहरूलाई उनीहरूको प्रगतिमा मद्दत गर्दैन। तसर्थ, वर्तमान प्रयासहरू एकल अंकको सट्टा दानेदार पक्षहरूमा निबन्ध मूल्याङ्कनमा केन्द्रित छन्। यसले ओभर-फिटिंगबाट बच्न मद्दत गर्दछ किनभने भविष्यवाणी मोडेलले अब सबै मेट्रिकहरूमा राम्रो प्रदर्शन गर्नुपर्दछ र केवल एक मेट्रिक मात्र होइन, अनिवार्य रूपमा, कसैले यसलाई बहु-कार्य मोडेलको रूपमा सोच्न सक्छ। हालको अध्ययनमा, हामी छवटा मेट्रिक्समा फोकस गर्छौं: संयोजन, वाक्यविन्यास, शब्दावली, वाक्यांश, व्याकरण, र सम्मेलनहरू।


१.१ साहित्य सर्वेक्षण

2010s भन्दा पहिले, AES मोडेलहरू धेरैजसो कम्प्युटेसनल भाषाविद्हरू द्वारा डिजाइन गरिएको हात-शिल्प सुविधाहरूमा निर्भर थिए [10, 4]। यद्यपि, यी मोडेलहरू सामान्यतया निश्चित सुविधाहरू (जस्तै निबन्ध लम्बाइ) तर्फ पक्षपाती थिए र विषयहरू र मेट्रिक्सहरूमा सामान्यीकरण गर्न सकेनन्। Word2Vec र GloVe जस्ता भाषा मोडेलहरूद्वारा सिकेका शब्द इम्बेडिङहरूद्वारा तिनीहरूलाई प्रतिस्थापन गरेर हस्तनिर्मित सुविधाहरूप्रति पूर्वाग्रहलाई सम्बोधन गरिएको थियो। यी शब्द इम्बेडिङहरूमा आधारित, निबन्ध स्कोरहरू शब्द इम्बेडिङहरूको न्यूरल नेटवर्क डाउनस्ट्रीम थपेर प्रतिगमन र वर्गीकरण कार्यहरूको रूपमा भविष्यवाणी गरिएको थियो। ठूलो कोर्पसमा प्रशिक्षित एम्बेडिङहरू प्रयोग गरेर, सबै मेट्रिक्सका साथै समग्र स्कोर [११] को लागि निबन्ध स्कोरिङमा महत्त्वपूर्ण सुधार देखिन्छ। यद्यपि, धेरै शब्द इम्बेडिङहरू जुन प्रदर्शन सुधारका लागि महत्त्वपूर्ण थिए मोडेलको सबैभन्दा ठूलो सीमा साबित भयो। एम्बेडिङहरू अनिवार्य रूपमा ब्याग-अफ-वर्ड्स दृष्टिकोणबाट आएको हुनाले, तिनीहरूले कुनै पनि प्रासंगिक जानकारीहरू खिच्न सकेनन् जुन आंशिक रूपमा अघिल्लो मोडेलहरूमा हस्तनिर्मित भाषिक सुविधाहरूद्वारा कब्जा गरिएको थियो। हातले बनाइएका सुविधाहरू थप्नुको सट्टा र सम्भावित रूपमा अघिल्लो मोडेलका कमजोरीहरूलाई पुन: परिचय गराउनुको सट्टा, प्रासंगिक जानकारीको अभावको समस्यालाई LSTM [१३] र ट्रान्सफर्मर आर्किटेक्चरहरू प्रयोग गरेर ध्यान संयन्त्र मार्फत सम्बोधन गरिएको थियो। वासवानी र पोलोसुखिन [१४] को कामले ट्रान्सफर्मरको प्रयोग गरेर BERT मोडेल सफलतापूर्वक विकास गर्‍यो। BERT मोडेल र ट्रान्सफर्मर आर्किटेक्चरको सफलताबाट उत्साहित भएर, ध्यानमा आधारित भाषा मोडेलहरूको विकास भयो। अब, शब्द इम्बेडिङको सट्टा, एक वाक्य वा कागजात-स्तर इम्बेडिङ प्राप्त गर्न सक्छ जुन प्रासंगिक जानकारी क्याप्चर गर्दछ। यी गहिरो इम्बेडिङहरू प्रयोग गरेर, न्यूरल नेटवर्क मोडेलहरू निबन्ध स्कोरहरू (वर्गीकरण र रिग्रेसन कार्यहरू दुवैको रूपमा) भविष्यवाणी गर्न विकसित गरिन्छ।


1.2 वर्तमान दृष्टिकोणहरूको सीमाहरू

यस प्रगतिको बावजुद, BERT मोडेल प्रयोग गर्दा गम्भीर सीमितताहरू अवस्थित छन्। Lotridge et al। (2021) [10] खेल निबन्ध, अनियमित फेरबदल, र बाबेल निबन्धहरूको लागि मोडेलको बलियोताको अभाव प्रदर्शन गर्‍यो। कार्यसम्पादन विभिन्न वर्ग र मेट्रिक्स मा एकदम भिन्न हुन्छ। यो कमीलाई सम्बोधन गर्न, यस अनुसन्धानमा, हामी बहु-कार्य सिकाइ मार्फत सबै मेट्रिकहरू एकै साथ मोडेल गर्नेछौं। BERT-आधारित विश्लेषणको अर्को प्रमुख सीमा भनेको टोकन लम्बाइ BERT मोडेलमा 512 मा सीमित छ। हामी यसलाई थप उन्नत आर्किटेक्चरहरू प्रयोग गरेर सम्बोधन गर्न खोज्छौं जस्तै Longformer जसले प्रति कागजात 4096 टोकनहरूलाई अनुमति दिन्छ। यस अध्ययनमा विचार गरिएको डेटा सेटको लागि (खण्ड 2.1 मा विवरणहरू), 40% भन्दा बढी कागजातहरू 512 टोकन लम्बाइमा छन्। त्यसकारण, कागजातलाई मानक BERT मोडेलको साथ 512 टोकनमा मात्र काट्दा सन्दर्भमा ठूलो नोक्सान हुनेछ। विभिन्न अध्ययनहरूको तेस्रो कुञ्जी सीमा सीमित डेटासेट हो - यद्यपि धेरै अध्ययनहरूले AES मा ध्यान केन्द्रित गरेको छ, ती प्रत्येक डेटासेटहरू फरक तरिकाले स्कोर गरिएको छ, र फलस्वरूप, मोडेलहरू सजिलैसँग सबै डेटा सेटहरूमा प्रशिक्षित हुन सक्दैनन्। तसर्थ, यस अध्ययनमा, हामी डेटासेटहरू मार्फत तालिम दिन र AES कार्यहरू गर्न स्वत: एन्कोडर-व्युत्पन्न एन्कोडिङहरू प्रयोग गर्नको लागि अटोइन्कोडर नेटवर्कहरूको उपयोगिताको अनुसन्धान गर्छौं। संक्षेपमा, यस अध्ययनले स्वचालित निबन्ध स्कोरिङमा विभिन्न गहिरो सिकाइ-आधारित कागजात इन्कोडिङहरूको प्रभावको अनुसन्धान गर्दछ। यस अध्ययनमा विचार गरिएका डेटा सेट, पद्धति, प्रयोगहरू, र गहिरो इम्बेडिङहरू खण्ड 2 मा प्रस्तुत गरिएका छन्। गहिरो इम्बेडिङहरू फरक पार्नुका साथै, हामी Autoencoder नेटवर्कमा गहिरो सङ्केतनहरूलाई तालिम दिएर विभिन्न AES डाटासेटहरू संयोजन गर्ने तरिकाहरू विश्लेषण गर्छौं। यी सबै दृष्टिकोणहरूबाट प्राप्त परिणामहरू खण्ड 3 मा प्रस्तुत गरिएका छन् र निष्कर्षहरू साथै थप अनुसन्धानका लागि निर्देशनहरू धारा 4 मा दिइएको छ।

२. पद्धति

२.१ डाटा

लर्निङ एजेन्सी ल्याब, जर्जिया स्टेट युनिभर्सिटी, र भान्डरबिल्ट युनिभर्सिटीले राज्य र राष्ट्रिय शिक्षा एजेन्सीहरू, साथै गैर-लाभकारी संस्थाहरूबाट ठूलो संख्यामा निबन्धहरू सङ्कलन गरेका छन्। यस सङ्कलनबाट, तिनीहरूले ग्रेड 6-12 मा विद्यार्थीहरूले लेखेका तर्कपूर्ण निबन्धहरू र अंग्रेजी भाषा लर्नरको अन्तरदृष्टि, प्रवीणता र सीपहरू समावेश गरी मूल्याङ्कन, चयन, र समझदारी तर्क र बहस तत्वहरू (PERSUADE) कोषका लागि प्रेरक निबन्धहरू विकास गरेका छन्। (ELLIPSE) कोर्पस, ग्रेड 8-12 मा अंग्रेजी भाषा लर्नर (ELLs) द्वारा लेखिएका निबन्धहरू मिलेर।


ELLIPSE corpus: ELLIPSE corpus मा ELLs द्वारा ग्रेड 8-12 मा लिखित 7,000 भन्दा बढी निबन्धहरू छन्। यी निबन्धहरू 2018-19 र 2019-20 स्कूल वर्षहरूबाट राज्य मानकीकृत लेखन मूल्याङ्कनहरूको भागको रूपमा लेखिएका थिए। ELLIPSE corpus मा निबन्धहरू भाषा प्रवीणता स्तरहरूको लागि मानव मूल्याङ्कनकर्ताहरूले पाँच-बिन्दु स्कोरिङ रूब्रिक प्रयोग गरी एनोटेट गरेका थिए जसमा समग्र र विश्लेषणात्मक स्केलहरू समावेश थिए। समग्र मापनले निबन्धहरूमा प्रदर्शन गरिएको समग्र भाषा प्रवीणता स्तरमा केन्द्रित थियो, जबकि विश्लेषणात्मक स्केलले संयोजन, वाक्यविन्यास, वाक्यांशशास्त्र, शब्दावली, व्याकरण, र सम्मेलनहरूको मूल्याङ्कन समावेश गर्दछ। प्रत्येक विश्लेषणात्मक मापनको लागि स्कोर 0.5 को वृद्धिमा 1.0 देखि 5.0 सम्मको हुन्छ र त्यो मापनमा बढि प्रवीणतासँग सम्बन्धित बढी स्कोरहरू हुन्छन्।


PERSUADE corpus: PERSUADE corpus मा अमेरिकी विद्यार्थीहरूले ग्रेड 6-12 मा लिखित 25,000 भन्दा बढी तर्कपूर्ण निबन्धहरू समावेश गर्दछ। यी निबन्धहरू 2010-2020 बाट राष्ट्रिय र राज्य मानकीकृत लेखन मूल्याङ्कनहरूको भागको रूपमा लेखिएका थिए। PERSUADE कोर्पसमा प्रत्येक निबन्धलाई मानव मूल्याङ्कनकर्ताहरूले तर्क र प्रवचन तत्वहरूको साथसाथै तर्क तत्वहरू बीचको पदानुक्रमिक सम्बन्धहरूको लागि एनोटेट गरिएको थियो। एनोटेशन रुब्रिक सामान्यतया तर्कात्मक लेखनमा पाइने प्रवचन तत्वहरूको पहिचान र मूल्याङ्कन गर्न विकसित गरिएको थियो।


यस परियोजनाको लागि, हामी ELLIPSE कोर्पस प्रयोग गर्छौं र एकै साथ छ विश्लेषणात्मक उपायहरूको लागि स्कोरको भविष्यवाणी गर्छौं: समन्वय, वाक्यविन्यास, शब्दावली, वाक्यांश, व्याकरण, र सम्मेलनहरू। थप रूपमा, हामी एक autoencoder प्रयोग गरेर हाम्रो भविष्यवाणी शुद्धता सुधार गर्ने प्रयास गर्छौं। विचार ELLIPSE र PERSUADE corpus प्रयोग गरेर एक autoencoder लाई तालिम दिने हो। यस प्रक्रिया मार्फत, स्वत: एन्कोडरबाट संकुचित सुविधा भेक्टरले पूर्व-प्रशिक्षित भाषा मोडेल सुविधाहरू छुटाउन सक्ने स्कोर गर्न आवश्यक निबन्धहरूको सुविधाहरू कब्जा गर्न सक्षम हुन सक्छ।

2.2 दृष्टिकोण

पहिले भनिएझैं, यस परियोजनाको लक्ष्य छ विश्लेषणात्मक उपायहरूको स्कोर भविष्यवाणी गर्नु हो: संयोजन, वाक्यविन्यास, शब्दावली, वाक्यांशशास्त्र, व्याकरण, र 8th-12th कक्षा अंग्रेजी भाषा शिक्षार्थीहरूले लिखित तर्कपूर्ण निबन्धहरूमा सम्मेलनहरू। यस कार्यको लागि, हामीले पहिले आधार रेखा विकास गर्छौं र त्यसपछि आधारभूत सुधार गर्न धेरै पूर्व-प्रशिक्षित मोडेलहरू प्रयोग गर्छौं।


आधाररेखा : आधार रेखा GloVe एम्बेडिङहरू र एक द्विदिशात्मक LSTM नेटवर्क प्रयोग गरेर विकसित गरिएको छ। आधारभूत मोडेलको लागि, हामीले पहिले डेटाको क्लिन-अप जस्तै विराम चिह्न हटाउने, सेतो ठाउँ हटाउने, इत्यादि regex लाइब्रेरी प्रयोग गरेर प्रदर्शन गर्छौं र त्यसपछि, निबन्धहरूलाई टोकनाइज गर्न NLTK बाट टोकनाइजर शब्द प्रयोग गर्छौं। एउटा LSTM नेटवर्कलाई निबन्धहरूको GloVe एन्कोडिङहरूमा तालिम दिइएको छ माथिको छवटा विश्लेषणात्मक उपायहरू मध्ये प्रत्येकको लागि स्कोर प्रतिनिधित्व गर्ने लम्बाइ 6 को भेक्टर आउटपुट गर्न। हामी न्यूरल नेटवर्कलाई तालिम दिन मीन स्क्वायर एरर लॉस (MSELoss) प्रयोग गर्छौं।


DistilBERT : DistilBERT एउटा सानो, छिटो, र हल्का ट्रान्सफर्मर मोडेल हो जसलाई BERT आधार डिस्टिल गरेर प्रशिक्षित गरिन्छ। यसमा bert-base-uncased भन्दा 40% कम प्यारामिटरहरू छन् र GLUE भाषा बुझाइ बेन्चमार्कमा मापन गरिए अनुसार BERT को प्रदर्शनको 95% भन्दा बढी संरक्षण गर्दै 60% छिटो चल्छ। BERT ले सम्पूर्ण अनुक्रम [2] बाट प्रासंगिक जानकारी कब्जा गर्न आत्म-ध्यान प्रयोग गर्दछ। यसले निबन्ध नमूनाहरूको मूल्याङ्कन गर्ने र थप सटीक स्कोर प्रदान गर्ने मोडेलको क्षमतालाई सुधार गर्छ। यस मोडेलको लागि, हामी निबन्धहरूलाई टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्छौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित DistilBERT मोडेलमा पास गर्छौं। त्यसपछि हामी माथि वर्णन गरिएका छवटा लेखन विशेषताहरू मध्ये प्रत्येकको लागि स्कोर प्रतिनिधित्व गर्ने 6-आयामी आउटपुट भेक्टर फर्काउन MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।


T5 : T5 वा Text-to-Text Transfer Transformer एक इन्कोडर-डिकोडर मोडेल हो जुन बहु-कार्य मिश्रणमा असुरक्षित र पर्यवेक्षित कार्यहरूको मिश्रणमा पूर्व-प्रशिक्षित हुन्छ र जसको लागि प्रत्येक कार्यलाई टेक्स्ट-टू-टेक्स्ट ढाँचामा रूपान्तरण गरिन्छ। BERT सँग, जुन मास्क गरिएको LM र अर्को वाक्य भविष्यवाणी उद्देश्यमा पूर्व-प्रशिक्षित छ, हामीले अनुक्रम वर्गीकरण जस्ता विभिन्न डाउनस्ट्रीम कार्यहरूमा पूर्व-प्रशिक्षित मोडेलका विभिन्न उदाहरणहरूलाई अलग-अलग फाइन-ट्यून गर्न आवश्यक छ। T5 को टेक्स्ट-टू-टेक्स्ट फ्रेमवर्कले एउटै हानि प्रकार्य र डिकोडिङ प्रक्रिया प्रयोग गरेर पाठ कार्यहरूको विस्तृत विविधतामा एकल मोडेललाई तालिम दिने सरल तरिका प्रदान गर्दछ। यो पूर्व-प्रशिक्षण ढाँचाले सामान्य-उद्देश्य "ज्ञान" को साथ मोडेल प्रदान गर्दछ जसले डाउनस्ट्रीम कार्यहरूमा यसको प्रदर्शन सुधार गर्दछ [१२]। हामीले निबन्धहरूलाई टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्यौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित T5-बेस मोडेलमा पास गर्‍यौं। हामी त्यसपछि 6-आयामी आउटपुट भेक्टर (DistilBERT जस्तै) फिर्ता गर्न MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।


RoBERTa-base : RoBERTa Facebook द्वारा विकसित अर्को BERT-जस्तो मास्क गरिएको भाषा मोडेल हो। RoBERTa को मामलामा, गतिशील मास्किङ सबै युगहरूका लागि प्रशिक्षण भर प्रयोग गरिन्छ, जबकि BERT मा मास्क स्थिर हुन्छ। यस मार्फत, मोडेलले BERT मा भन्दा धेरै टोकनहरू सिक्छ। थप कार्यसम्पादन सुधार BERT (10x) र ठूला शब्दावली सेटको तुलनामा डाटाको धेरै ठूलो कोर्पसमा प्रशिक्षणद्वारा हासिल गरिन्छ। प्रशिक्षणमा यी परिवर्तनहरू मार्फत, रोबर्टाले धेरै जसो ग्लुई र स्क्वाड कार्यहरूमा BERT लाई पछाडि पार्छ [9]।


Longformer : Longformer एउटा BERT-जस्तो ट्रान्सफर्मर मोडेल हो जुन RoBERTa चेकपोइन्टबाट विकसित भएको हो र लामो कागजातहरूमा मास्क्ड ल्याङ्ग्वेज मोडेल (MLM) को रूपमा प्रशिक्षित भयो। यसले 4,096 टोकन सम्म लम्बाइको अनुक्रमहरूलाई समर्थन गर्दछ। सामान्यतया, ट्रान्सफर्मर-आधारित मोडेलहरू जसले आत्म-ध्यान संयन्त्र प्रयोग गर्दछ लामो अनुक्रमहरू प्रशोधन गर्न असमर्थ हुन्छन् किनभने मेमोरी र कम्प्युटेशनल आवश्यकताहरू अनुक्रम लम्बाइको साथ चौथो रूपमा बढ्छन्। यसले लामो अनुक्रमहरूलाई कुशलतापूर्वक प्रशोधन गर्न असम्भव बनाउँछ। Longformers ले यो कुञ्जी सीमिततालाई ध्यान संयन्त्रको परिचय दिएर सम्बोधन गर्दछ जुन अनुक्रम लम्बाइ [1] संग रैखिक रूपमा मापन गर्दछ। यसले स्थानीय र विश्वव्यापी सन्दर्भ क्याप्चर गर्न स्लाइडिङ-सञ्झ्याल र विस्तारित स्लाइडिङ-सञ्झ्याल ध्यान संयन्त्र प्रयोग गर्दछ। Longformer मोडेलको लागि, हामी DistilBERT जस्तै समान दृष्टिकोण प्रयोग गर्छौं। हामी निबन्धहरू टोकनाइज गर्न एक स्वत: टोकनाइजर प्रयोग गर्छौं र त्यसपछि यी टोकनहरूलाई निबन्धहरूको भेक्टर प्रतिनिधित्व प्राप्त गर्न पूर्व-प्रशिक्षित Longformer मोडेलमा पास गर्छौं। हामी त्यसपछि 6-आयामी आउटपुट भेक्टर (DistilBERT जस्तै) फिर्ता गर्न MSELoss प्रयोग गरेर दुई-तह न्यूरल नेटवर्कलाई तालिम दिन्छौं।


हामीले हाम्रा मोडेलहरूलाई हाम्रो Colab रनटाइम GPU ले मेमोरीमा फिट गर्न सक्ने भन्दा ठूलो ब्याच साइजमा तालिम दिन ग्रेडियन्ट सङ्कलन पनि प्रयोग गरेका छौं। Longformer मोडेलको ठूलो आकारको कारण, हामी केवल दुई को ब्याच आकारमा सीमित थियौं। यस्तो सानो ब्याच साइजले अस्थिर ग्रेडियन्ट गणनाहरूको परिणाम दिन्छ। हामी यसलाई ढाँचा संचयको साथमा पार्छौं - प्रत्येक पुनरावृत्ति पछि हानि ब्याकप्रोपेगेट गर्नुको सट्टा, हामी हानि जम्मा गर्छौं र ग्रेडियन्ट अद्यावधिकहरूको स्थिरता सुधार गर्न ब्याचहरूको निश्चित संख्या पछि मात्र त्रुटि ब्याकप्रोगेट गर्छौं [3]।

2.3 मूल्याङ्कन

हाम्रो मोडेलको अनुमानित स्कोरहरूको शुद्धताको मूल्याङ्कन गर्न, हामी मेट्रिकको रूपमा स्तम्भ मूल अर्थ वर्ग त्रुटि (MCRMSE) प्रयोग गर्नेछौं। मेट्रिक निम्न रूपमा गणना गरिएको छ:

2.4 प्रयोगहरू

माथि वर्णन गरिएका मोडेलहरू लागू गरेपछि, हामीले यी मोडेलहरूको भविष्यवाणी त्रुटि सुधार गर्न केही प्रयोगहरू प्रयास गर्यौं। यी प्रयोगहरूको विवरण निम्नानुसार छ:


  • आउटपुट क्वान्टाइजेसन : ELLIPSE कोर्पसमा, प्रत्येक विश्लेषणात्मक मापनको लागि स्कोर 1.0 देखि 5.0 सम्म 0.5 को वृद्धिमा त्यो मापनमा बढि प्रवीणता संग सम्बन्धित अधिक स्कोर संग हुन्छ। हामीले हाम्रो न्यूरल नेटवर्कलाई परिमार्जन गरेका छौं कि आउटपुट 1 र 5 को बीचमा सीमित छ। हामीले यो सिग्मोइड तहलाई समावेश गरेर आउटपुट पास गरेर यो आउटपुटलाई 4 ले गुणन गरेर यसमा 1 थप्यौं। यसबाहेक, एकपटक नतिजाहरू तंत्रिका नेटबाट उत्पन्न भएपछि हामीले गणितीय सञ्चालन स्कोर = int[(2 * स्कोर + 0.5) / 2] ०.५ को चरणहरूमा मात्र उत्पादन वृद्धि सुनिश्चित गर्नका लागि प्रदर्शन गर्छौं। यो अपरेसनको उद्देश्य मूल स्कोरको ढाँचालाई नक्कल गर्ने र त्यस्ता परिमार्जनले शुद्धतामा सुधार गर्छ कि गर्दैन भनी जाँच गर्ने हो।


  • भारित RMSE : ELLIPSE कोर्पसमा, प्रत्येक विश्लेषणात्मक मापनको लागि स्कोर 0.5 को वृद्धिमा 1.0 देखि 5.0 सम्म हुन्छ। यद्यपि, डाटासेटमा प्रत्येक अंकको वितरण समान छैन। 2.5, 3, र 3.5 जस्ता निश्चित स्कोरहरू हाम्रो डेटासेटमा प्रत्येक विश्लेषणात्मक उपायहरूको लागि धेरै पटक देखा पर्दछन् जबकि 1, र 5 जस्ता स्कोरहरू डेटासेटमा विरलै हुन्छन्। यस असंतुलनको लागि खातामा हामीले भारित मूल अर्थ वर्ग त्रुटि (WRMSE) प्रकार्य प्रयोग गर्यौं जहाँ एक विशेष स्कोरको फ्रिक्वेन्सीको व्युत्क्रमलाई वजनको रूपमा प्रयोग गरिन्छ र अन्य तौलहरूको तुलनामा यो अत्यन्त उच्च भएको खण्डमा हामी यो वजन क्लिप गर्छौं।


  • मल्टिहेड आर्किटेक्चर : अघिल्लो खण्डमा उल्लेख गरिएझैं, डेटासेटमा प्रत्येक स्कोरको वितरण समान नभएकोले, हामीले स्कोरहरू भविष्यवाणी गर्न मापन-विशिष्ट अन्तिम दुई-तह न्यूरल नेटवर्क भएको प्रयोग गर्यौं। त्यसैले 6 फरक स्कोर मानहरू भविष्यवाणी गर्ने एकल आउटपुट हेडको सट्टा, हामीले प्रत्येक विश्लेषणात्मक उपायको लागि स्कोर भविष्यवाणी गर्न 6 फरक आउटपुट हेडहरू लागू गर्यौं।


  • Autoencoder : निबन्धको बहु-कक्षा स्कोरिङको हालको कार्यको लागि प्रदान गरिएको डाटासेट लगभग 4k नमूनाहरू मात्र हो। यद्यपि, ELLIPSE र PERSUADE corpus सँगसँगै, त्यहाँ अन्य AES कार्यहरूका लागि 180k भन्दा बढी निबन्धहरू छन्, जस्तै सम्पूर्ण निबन्धहरूको लागि एकल स्कोरहरू, र निबन्धका अंशहरू। तसर्थ, स्वत: एन्कोडरहरू यो ठूलो डाटाबेसको लाभ उठाउन र अर्ध-पर्यवेक्षित शिक्षा प्रदर्शन गर्न प्रयोग गरिन्छ। छोटकरीमा भनिएको छ, BERT, T5 जस्ता भाषा मोडेलहरूबाट इन्कोडिङहरू सबै 180k नमूनाहरू प्रयोग गरेर प्रशिक्षित एक स्वत: एन्कोडर नेटवर्क मार्फत पारित गरिन्छ। त्यसोभए, या त अटोएनकोडरको डिकोडर भागबाट अड्चन लेयर एन्कोडिङ वा डिनोइज्ड भाषा मोडेल इन्कोडिङहरू रिग्रेसन हेडको लागि २-तह न्यूरल नेटवर्क प्रयोग गरेर बहु-वर्ग स्कोरहरूको भविष्यवाणी गर्न प्रयोग गरिन्छ, पूर्ण रूपमा निरीक्षण गरिएको परिदृश्य जस्तै। तसर्थ, अटोइन्कोडरलाई प्रिप्रोसेसरको रूपमा तालिम दिन लेबल नगरिएको डेटाको ठूलो सेटको लाभ उठाएर, हामी पर्यवेक्षित सिकाइ भविष्यवाणीहरू सुधार गर्न खोज्छौं। यस अध्ययनमा, हामीले DistilBERT एन्कोडिङहरूमा आधारित दुवै डिनोइज्ड एन्कोडिङहरू विचार गर्यौं।

3. परिणाम र छलफल

पूर्व-प्रशिक्षित इन्कोडिङहरूको प्रभाव : तालिका 1 ले खण्ड 2.2 मा वर्णन गरिएको पूर्व-प्रशिक्षित मोडेलहरू फरक गरेर प्राप्त प्रदर्शन मेट्रिकलाई संक्षेप गर्दछ। यी रनहरूमा, पूर्व-प्रशिक्षित मोडेलहरूबाट इन्कोडिङहरू सीधै २-तह न्यूरल नेटवर्क मार्फत पारित गरिन्छ जुन MSE नोक्सान प्रयोग गरेर प्रशिक्षित गरिन्छ, र खण्ड 2.4 मा छलफल गरिएका कुनै पनि सम्भावित सुधारहरू लागू गरिएको छैन। यो एक बहु-वर्ग प्रतिगमन भएकोले, प्रत्येक स्कोरिङ मेट्रिकका लागि मोडेलहरूको प्रदर्शन तालिका 3 मा देखाइएको छ।


तालिका 1 मा सूचीबद्ध ट्रान्सफर्मर आर्किटेक्चरहरू मध्ये, हामीले मास्क गरिएको भाषा मोडेलहरू DistilBERT, RoBERTa, र Longformer ले जेनेरेटिभ मोडेल T5 भन्दा राम्रो प्रदर्शन गरेको देख्छौं - सम्भवतः किनभने मास्क गरिएका मोडेलहरू संख्यात्मक आउटपुटहरूको साथ भेदभावपूर्ण कार्यहरूमा बढी ट्युन हुन्छन्। यदि यो बहुउत्पादक भाषा मोडेलहरूको लागि सामान्यीकरण गर्न सकिन्छ भने निष्कर्षमा पुग्न थप अनुसन्धान आवश्यक छ। समग्रमा, RoBERTa सँग विभिन्न मोडेलहरू मध्ये उत्कृष्ट भविष्यवाणी स्कोर छ, सम्भवतः यसको धेरै ठूलो प्रशिक्षण कोर्पस र उत्कृष्ट मास्किङको कारणले।

तालिका 1: विभिन्न मोडेलहरूको लागि समग्र MCRMSE स्कोर

मोडेल

MCRMSE मेट्रिक

आधार रेखा

१.३६

DistilBERT

०.४९३४

T5-आधार

०.५३२०

रोबर्टा

०.४७४६

लङ्गफार्मर

०.४८९९


रिग्रेसन हेडमा सुधारहरूको प्रभाव : पहिले, हामीले रिग्रेसन हेडमा फरक-फरक इनपुटहरूको प्रभावको अन्वेषण गर्यौं (अर्थात, पूर्व-प्रशिक्षित मोडेलहरू र त्यसमा इन्कोडिङहरू फरक गरेर), रिग्रेसन हेड प्रशिक्षण स्थिर राख्दा। यस खण्डमा, हामी इन्कोडिङहरू स्थिर राख्दा रिग्रेसन हेडको प्रशिक्षणमा फरक पार्ने प्रभावको अन्वेषण गर्छौं। खण्ड 2.4 ले यस अध्ययनमा अन्वेषण गरिएका रिग्रेसन तालिममा भएका विभिन्न परिवर्तनहरूलाई सूचीबद्ध गर्दछ। नोट गर्नुहोस् कि यस खण्डमा, DistilBERT मोडेल प्रयोग गरिन्छ किनभने यो सब भन्दा छिटो मोडेल हो र GPU आवश्यकताहरू कम छ। विभिन्न तालिम योजना/सुधारका परिणामहरू तालिका २ मा देखाइएको छ।

तालिका २: विभिन्न मोडेलहरूको लागि MCRMSE स्कोर

प्रयोग

MCRMSE

आउटपुट परिमाणीकरण

०.५२९४

भारित RMSE

०.५६२८

बहुमुखी वास्तुकला

०.५०८

Autoencoder Denoising

०.५७५


दुर्भाग्यवश, रिग्रेशन मोडेललाई प्रशिक्षण दिन यी भिन्नताहरू मध्ये कुनै पनि हाम्रो मूल मोडेलहरूको तुलनामा भविष्यवाणी शुद्धतामा महत्त्वपूर्ण सुधारको परिणाम हो। वास्तवमा, तालिका 2 मा सेट गरिएको प्रमाणीकरणमा प्रदर्शन मेट्रिकले यी परिमार्जनहरूसँग कार्यसम्पादनमा गिरावटलाई संकेत गर्दछ। यो कमी किन हुन्छ भन्ने कुरा स्पष्ट छैन र कार्यसम्पादनमा यो कमी एक कलाकृति होइन भनेर प्रमाणित गर्न ठूलो डेटासेटको साथ थप अध्ययन आवश्यक छ।


पाठ एन्कोडिङ र रिग्रेसन हेड प्रशिक्षणमा सबै भिन्नताहरूका लागि, हामीले व्यक्तिगत उपायहरूको लागि प्रमाणीकरण MCRMSE स्कोरहरू देख्छौं जुन एकता र व्याकरण सबै मोडेलहरूमा भविष्यवाणी गर्न सबैभन्दा गाह्रो देखिन्छ (तालिका 3 हेर्नुहोस्)। यो AES मा प्रयोग गरिएको पूर्व-प्रशिक्षित भाषा मोडेलहरूको सीमितता हुन सक्छ र हाम्रो मोडेलिङ होइन। किम एट अल। (2020) [5] व्याकरणको रूपमा राम्ररी जानकारी भएको वर्तमान भाषा मोडेलहरूको सीमितताहरू देखाउनुहोस् र भाषा मोडेलहरूमा थप प्रगतिको लागि निर्देशनहरू प्रदान गर्नुहोस्।

तालिका ३: व्यक्तिगत विश्लेषणात्मक उपायको लागि MCRMSE स्कोर

मोडेल (वा Exp.)

एकता

वाक्य रचना

शब्दावली

वाक्यांशशास्त्र

व्याकरण

अधिवेशनहरू

आधार रेखा

१.३७

१.३५

१.३२

१.३४

१.४४

१.३६

distilBERT

०.५४

०.५१

०.४६

०.५२

०.५७

०.४९

T5-आधार

०.५५

०.५२

०.४८

०.५४

०.५८

०.५३

रोबर्टा

०.५१

०.४७

०.४२

०.४७

०.५१

०.४६

लङ्गफार्मर

०.५४

०.४८

०.४६

०.४९

०.५३

०.४७

distilBERT + आउटपुट परिमाणीकरण

०.५५

०.५३

०.४८

०.५३

०.५७

०.५१

distilBERT + WRMSE

०.५६

०.५६

०.५५

०.५६

०.६१

०.५३

distilBERT + बहु हेड आर्क।

०.५३

०.५०

०.४५

०.५१

०.५६

०.४९

Autoencoder + distilBERT

०.५९

०.५६

०.५२

०.५६

०.६१

०.५५


4. निष्कर्ष

यस कार्यमा, हामीले स्वचालित निबन्ध स्कोरिङ कार्यमा रिग्रेसन हेडलाई प्रशिक्षित गर्न विभिन्न पूर्व-प्रशिक्षित वास्तुकला र विधिहरूको प्रभावको अनुसन्धान गर्‍यौं, जहाँ हामीले प्रत्येक निबन्धलाई 6 भाषिक मेट्रिक्स (जस्तै, समन्वय, व्याकरण, शब्दावली) को लागि 1 देखि 5 को स्केलमा स्कोर गर्छौं। , आदि)। डेटासेट ELLIPSE कोर्पसबाट लिइएको हो, विशेष गरी Kaggle प्रतियोगिताहरूमा सूचीबद्ध डेटाको उपसेट। हामीले पाँचवटा गहिरो-शिक्षा आर्किटेक्चरहरू र रिग्रेसन हेडलाई तालिम दिने पाँच तरिकाहरू विचार गर्यौं र बहु-वर्ग आउटपुटको रूपमा स्कोरहरूको भविष्यवाणी गर्न साधारण 2-लेयर फिड-फर्वार्ड तहको साथ RoBERTA-base प्रयोग गरेर अवलोकन गर्‍यौं।


अपेक्षित रूपमा, ट्रान्सफर्मर आर्किटेक्चरले GloVe + LSTM को आधारभूत मोडेललाई उल्लेखनीय रूपमा उत्कृष्ट प्रदर्शन गर्यो। यसबाहेक, ट्रान्सफर्मर आर्किटेक्चर भित्र, हामी देख्छौं कि मास्क गरिएको भाषा मोडेलहरू (DistilBERT, RoBERTa, Longformer) ले जेनेरेटिभ भाषा मोडेल T5 को तुलनामा उत्कृष्ट प्रदर्शन दिन्छ। यद्यपि यो अवलोकनले सबै उत्पादन मोडेलहरूमा सामान्यीकरण गर्दैन, सहज रूपमा MLM को प्रभुत्व एकरूप देखिन्छ किनकि तिनीहरू विशेष गरी संख्यात्मक आउटपुटहरूको लागि प्रशिक्षित हुन्छन्।


यस अध्ययनको अर्को चाखलाग्दो अवलोकन यो हो कि हानि प्रकार्यहरू परिवर्तन गरेर, आउटपुटहरू सीमित गरेर, र डेटा वृद्धिको साथमा स्वत: एन्कोडर-आधारित आयामीता घटाउने/डिनोइजिङ गरेर रिग्रेसन हेडको प्रशिक्षणमा भिन्नताले मोडेलको प्रदर्शनमा सुधार गरेन। यो बरु अप्रत्याशित छ, र हामी यस घटना पछि कारणहरू पूर्ण रूपमा बुझ्दैनौं। भविष्यको अध्ययनमा, यी दृष्टिकोणहरू ठूलो डेटासेटको साथ दोहोर्याउन सकिन्छ - यसले प्रतिगमन हेडलाई प्रशिक्षणको सन्दर्भमा यी अवलोकनहरू सामान्यीकरण गर्न सकिन्छ कि भनेर निर्धारण गर्न मद्दत गर्दछ।


संक्षेपमा, हामी अवलोकन गर्छौं कि 2-लेयर फिड-फर्वार्ड न्यूरल नेटको साथ RoBERTa इन्कोडिङहरू प्रयोग गरेर छ स्कोरहरू एकैसाथ भविष्यवाणी गर्न, बहु-कार्य सिकाइ जस्तै, उत्कृष्ट प्रदर्शन प्रदान गर्दछ। विशेष गरी, डेटासेटको सानो आकारलाई ध्यानमा राख्दै, एक बलियो पूर्व-प्रशिक्षित मोडेल प्रयोग गर्ने प्रभावले मोडेलको भविष्यवाणी गर्ने कार्यसम्पादनमा उल्लेखनीय सुधार गर्न देखा पर्दछ। साथै, निबन्धको व्याकरणको मूल्याङ्कन गर्ने कार्य अन्य कुनै पनि मूल्याङ्कन मेट्रिकभन्दा खराब छ, र यो भाषा मोडेलमा निहित छ। तसर्थ, भविष्यका कार्यहरूले भाषाको व्याकरणीय पक्षहरूलाई राम्रोसँग कब्जा गर्न भाषा मोडेलहरू सुधार गर्नमा ध्यान केन्द्रित गर्नुपर्छ।

सन्दर्भहरू

  1. Iz Beltagy, Matthew E Peters, and Arman Cohan। 2020. Longformer: लामो-कागजात ट्रान्सफर्मर। arXiv प्रिप्रिन्ट arXiv: 2004.05150
  2. ज्याकब डेभलिन, मिंग-वेई चांग, केन्टन ली, र क्रिस्टिना टुटानोवा। 2018. BERT: भाषा बुझ्नको लागि गहिरो द्विदिशात्मक ट्रान्सफर्मरहरूको पूर्व-प्रशिक्षण। arXiv प्रिप्रिन्ट arXiv:1810.04805
  3. जोएरी आर हर्मन्स, गेरासिमोस स्पानकिस, र रिको मोकेल। 2017. संचित ढाँचा सामान्यीकरण। मेसिन लर्निङमा एशियाली सम्मेलनमा , पृष्ठ ४३९–४५४। PMLR।
  4. जिक्सुआन के र भिन्सेन्ट एनजी। 2019. स्वचालित निबन्ध स्कोरिङ: कला को राज्य को एक सर्वेक्षण। IJCAI मा, भोल्युम। १९, पृष्ठ ६३००-६३०८।
  5. Taeuk किम, Jihun Choi, डेनियल एडमिस्टन, र Sang-goo ली। 2020. के पूर्व-प्रशिक्षित भाषा मोडेलहरू वाक्यांशहरू बारे सचेत छन्? व्याकरण प्रेरणको लागि सरल तर बलियो आधाररेखाहरू।
  6. लर्निङ एजेन्सी प्रयोगशाला। 2022a। प्रतिक्रिया पुरस्कार - अंग्रेजी भाषा सिक्ने।
  7. लर्निङ एजेन्सी प्रयोगशाला। २०२२ ख। प्रतिक्रिया पुरस्कार - विद्यार्थी लेखन मूल्याङ्कन।
  8. लर्निङ एजेन्सी प्रयोगशाला। 2022c। प्रतिक्रिया पुरस्कार - प्रभावकारी तर्कहरू भविष्यवाणी गर्दै।
  9. यिनहान लिउ, माइल ओट, नमन गोयल, जिंगफेई डु, मन्डर जोशी, डान्की चेन, ओमेर लेवी, माइक लुइस, ल्यूक जेटलमोयर र भेसेलिन स्टोयानोभ। 2019. रोबर्टा: एक बलियो अनुकूलित बर्ट पूर्व प्रशिक्षण दृष्टिकोण। arXiv प्रिप्रिन्ट arXiv:1907.11692।
  10. सु लोट्रिज, बेन गोडेक, अमिर जाफरी र मिलन पटेल। 2021. गेमिङ रणनीतिहरूमा गहिरो शिक्षा र शास्त्रीय स्वचालित स्कोरिङ दृष्टिकोणको बलियोताको तुलना गर्दै। प्राविधिक रिपोर्ट - क्याम्बियम एसेसमेन्ट इंक।
  11. Huyen Nguyen र Lucio Dery। 2016. स्वचालित निबन्ध ग्रेडिंग को लागी तंत्रिका नेटवर्क। CS224d स्ट्यानफोर्ड रिपोर्टहरू: 1-11।
  12. एडम रोबर्ट्स र कोलिन राफेल। 2020. T5 को साथ ट्रान्सफर सिकाइ अन्वेषण: पाठ-देखि-पाठ स्थानान्तरण ट्रान्सफर्मर। पृष्ठ 23-07 मा पहुँच गरिएको।
  13. Kaveh Taghipour र Hwee Tou Ng। 2016. स्वचालित निबन्ध स्कोरिङ को लागी एक तंत्रिका दृष्टिकोण। प्राकृतिक भाषा प्रशोधनमा अनुभवजन्य विधिहरूमा 2016 सम्मेलनको कार्यवाहीमा, pp. 1882-1891।
  14. Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Łukasz Kaiser Vaswani, Ashish र Illia Polosukhin। 2017. ध्यान तपाईलाई आवश्यक छ। न्यूरल सूचना प्रशोधन प्रणालीमा प्रगति, 30।