Autori:
Automatizētā eseju vērtēšana (AES) ir klasisks NLP uzdevums, kas ir pētīts daudzus gadu desmitus. AES ir liela praktiska nozīme un milzīgs ekonomiskais potenciāls — AES ir lielu konkursa eksāmenu (piem., SAT, GRE) un arī plaukstošā tiešsaistes mācību tirgus stūrakmens. Vairākas filantropiskas un bezpeļņas organizācijas, piemēram, Bila un Melindas Geitsu fonds un Zuckerberg-Chan Initiative, ir finansējušas vairākus Kaggle konkursus par AES [6, 7, 8]. Tomēr, neskatoties uz šiem centieniem, problēma nebūt nav atrisināta, jo ir būtiskas grūtības ar eseju vērtēšanu. Esejas vērtēšana ir ļoti subjektīva un ietver tādus abstraktus faktorus kā kohēzija, gramatika, atbilstība utt., kurus ir grūti aprēķināt. Tā rezultātā apmācības datu iezīmju iegūšana ar detalizētu esejas vērtējumu tādās funkcijās kā gramatika, saskaņotība utt. ir diezgan dārga. Līdz ar to apmācības datu kopa ir diezgan ierobežota salīdzinājumā ar citiem NLP uzdevumiem, piemēram, (maskētiem) valodu modeļiem, NER, POS marķēšanu, mašīntulkošanu utt. Turklāt vienkārša kopējā rezultāta nodrošināšana studentam nesniedz atgriezenisko saiti vai nesniedz nekādu atgriezenisko saiti. nepalīdz studentiem viņu progresā. Tāpēc pašreizējie centieni ir vērsti uz esejas izvērtēšanu par detalizētiem aspektiem, nevis uz vienu punktu. Tas arī palīdz izvairīties no pārmērīgas pielāgošanas, jo prognozēšanas modelim tagad ir labi jādarbojas visos rādītājos, nevis tikai vienai metrikai. Būtībā to var uzskatīt par vairāku uzdevumu modeli. Šajā pētījumā mēs koncentrējamies uz sešām metrikām: kohēziju, sintakse, vārdu krājumu, frazeoloģiju, gramatiku un konvencijām.
Pirms 2010. gadiem lielākā daļa AES modeļu balstījās uz rokām izstrādātām funkcijām, ko izstrādājuši skaitļošanas lingvisti [10, 4]. Tomēr šie modeļi parasti bija novirzīti uz noteiktām iezīmēm (piemēram, esejas garumu), un tos nevarēja vispārināt pa tēmām un metriku. Novirze pret ar rokām veidotām funkcijām tika novērsta, aizstājot tās ar vārdu iegulšanu, ko apguvuši valodu modeļi, piemēram, Word2Vec un GloVe. Pamatojoties uz šiem vārdu iegulumiem, eseju rezultāti tika prognozēti kā regresijas un klasifikācijas uzdevumi, pievienojot neironu tīklu aiz vārda iegulšanas. Izmantojot iegulšanu, kas apmācīta lielā korpusā, ir redzams būtisks uzlabojums esejas vērtēšanā visiem rādītājiem, kā arī kopējā vērtējumā [11]. Tomēr tieši vārdu iegulšana, kas bija izšķiroša veiktspējas uzlabojumiem, izrādījās lielākais modeļa ierobežojums. Tā kā iegulšanas būtībā tika izmantotas, izmantojot pieeju “Vārdu maiss”, tās nevarēja tvert nekādu kontekstuālo informāciju, ko daļēji tvēra iepriekšējos modeļos ar rokām veidotās lingvistiskās iezīmes. Tā vietā, lai pievienotu ar rokām izstrādātas funkcijas un, iespējams, atkārtoti ieviestu iepriekšējo modeļu trūkumus, kontekstuālās informācijas trūkuma problēma tika risināta, izmantojot uzmanības mehānismu, izmantojot LSTM [13] un transformatoru arhitektūras. Vasvani un Polosukhina [14] darbs veiksmīgi izstrādāja BERT modeli, izmantojot transformatorus. BERT modeļa un transformatoru arhitektūras panākumu ietekmē tika izstrādāts virkne uz uzmanību balstītu valodu modeļu. Tagad vārdu iegulšanas vietā varētu iegūt teikuma vai dokumenta līmeņa iegulšanu, kas tver kontekstuālo informāciju. Izmantojot šīs dziļās iegulšanas, tiek izstrādāti neironu tīklu modeļi, lai prognozētu eseju rezultātus (gan kā klasifikācijas, gan regresijas uzdevumus).
Neskatoties uz šo progresu, BERT modeļa izmantošanai ir nopietni ierobežojumi. Lotridža u.c. (2021) [10] parādīja modeļa robustuma trūkumu spēļu esejām, izlases veida sajaukšanai un Bābeles esejām. Veiktspēja krasi atšķiras dažādās klasēs un metrikā. Lai novērstu šo trūkumu, šajā izmeklēšanā mēs vienlaikus modelēsim visus rādītājus, izmantojot vairāku uzdevumu mācīšanos. Vēl viens būtisks uz BERT balstītas analīzes ierobežojums ir tas, ka marķiera garums ir ierobežots līdz 512 BERT modelī. Mēs cenšamies to atrisināt, izmantojot modernākas arhitektūras, piemēram, Longformer, kas vienā dokumentā pieļauj līdz 4096 marķieriem. Šajā pētījumā aplūkotajai datu kopai (sīkāka informācija 2.1. sadaļā) vairāk nekā 40% dokumentu ir garāki par 512 marķieriem. Tāpēc, saīsinot dokumentu tikai līdz 512 marķieriem ar standarta BERT modeli, kontekstā tiktu radīti būtiski zaudējumi. Trešais galvenais dažādu pētījumu ierobežojums ir ierobežotā datu kopa — lai gan vairāki pētījumi ir vērsti uz AES, katra no šīm datu kopām tiek vērtēta atšķirīgi, un līdz ar to modeļus nevar viegli apmācīt visās datu kopās. Tāpēc šajā pētījumā mēs pētām automātisko kodētāju tīklu lietderību, lai apmācītu datu kopās un izmantotu no automātiskā kodētāja atvasinātus kodējumus, lai veiktu AES uzdevumus. Kopumā šajā pētījumā tiek pētīta dažādu uz dziļu mācīšanos balstītu dokumentu kodējumu ietekme uz automatizētu eseju vērtēšanu. Šajā pētījumā aplūkotā datu kopa, metodoloģija, eksperimenti un dziļās iegulšanas ir izklāstītas 2. nodaļā. Papildus dziļo iegulšanas iespējām mēs analizējam veidus, kā apvienot dažādas AES datu kopas, apmācot dziļos kodējumus Autoencoder tīklā. Rezultāti no visām šīm pieejām ir sniegti 3. sadaļā, un secinājumi, kā arī norādījumi turpmākai izmeklēšanai ir sniegti 4. sadaļā.
Mācību aģentūru laboratorija, Džordžijas štata universitāte un Vanderbiltas universitāte ir apkopojušas lielu skaitu eseju no valsts un valsts izglītības aģentūrām, kā arī bezpeļņas organizācijām. No šīs kolekcijas viņi ir izstrādājuši The Persuasive Essays for Rating, Selection and Understanding Argumentative and Discourse Elements (PERSUADE) korpusu, kas sastāv no argumentētām esejām, ko rakstījuši 6.–12. klases skolēni, un angļu valodas apguvēju ieskatu, prasmju un prasmju novērtēšanu. (ELLIPSE) korpuss, kas sastāv no angļu valodas apguvēju (ELLS) rakstītajām esejām 8.-12. klasē.
ELLIPSE korpuss: ELLIPSE korpusā ir vairāk nekā 7000 eseju, ko rakstījuši ELLS 8.–12. klasē. Šīs esejas tika rakstītas kā daļa no valsts standartizētajiem rakstīšanas novērtējumiem 2018.–2019. un 2019.–2020. mācību gadā. ELLIPSE korpusa esejas cilvēku vērtētāji atzīmēja valodas prasmes līmeņos, izmantojot piecu punktu vērtēšanas rubriku, kas ietvēra gan holistiskās, gan analītiskās skalas. Holistiskā skala koncentrējās uz vispārējo valodas prasmes līmeni, kas tika parādīts esejās, savukārt analītiskās skalas ietvēra kohēzijas, sintakses, frazeoloģijas, vārdu krājuma, gramatikas un konvenciju vērtējumus. Katra analītiskā pasākuma rezultāts svārstās no 1,0 līdz 5,0 ar soli pa 0,5, un augstāki rādītāji atbilst lielākai prasmēm šajā mērījumā.
PERSUADE korpuss: PERSUADE korpuss satur vairāk nekā 25 000 argumentētu eseju, ko rakstījuši ASV skolēni no 6. līdz 12. klasei. Šīs esejas tika rakstītas kā daļa no valsts un valsts standartizētajiem rakstīšanas novērtējumiem no 2010. līdz 2020. gadam. Katru PERSUADE korpusa eseju cilvēku vērtētāji atzīmēja argumentācijas un diskursa elementiem, kā arī hierarhiskām attiecībām starp argumentējošiem elementiem. Anotācijas rubrika tika izstrādāta, lai identificētu un novērtētu diskusiju elementus, kas parasti sastopami argumentētajā rakstībā.
Šim projektam mēs izmantojam ELLIPSE korpusu un vienlaikus prognozējam punktu skaitu sešiem analītiskajiem mēriem: kohēzija, sintakse, vārdu krājums, frazeoloģija, gramatika un konvencijas. Turklāt mēs cenšamies uzlabot prognozēšanas precizitāti, izmantojot automātisko kodētāju. Ideja ir apmācīt automātisko kodētāju, izmantojot ELLIPSE un PERSUADE korpusu. Izmantojot šo procesu, automātiskā kodētāja saspiestais funkciju vektors var tvert eseju iezīmes, kas ir būtiskas vērtēšanai un kuras varētu palaist garām iepriekš apmācītiem valodas modeļa līdzekļiem.
Kā minēts iepriekš, šī projekta mērķis ir prognozēt sešu analītisko mēru rezultātu: kohēzija, sintakse, vārdu krājums, frazeoloģisms, gramatika un 8.–12. klašu angļu valodas apguvēju rakstītās argumentācijas esejas. Šim uzdevumam mēs vispirms izstrādājam bāzes līniju un pēc tam izmantojam vairākus iepriekš apmācītus modeļus, lai uzlabotu bāzes līniju.
Bāzes līnija : bāzes līnija ir izstrādāta, izmantojot GloVe iegulšanu un divvirzienu LSTM tīklu. Bāzes modelim mēs vispirms veicam datu tīrīšanu, ti, pieturzīmju noņemšanu, atstarpju noņemšanu utt., izmantojot regulārā izteiksmes bibliotēku, un pēc tam izmantojam vārdu marķieri no NLTK, lai marķierizētu esejas. LSTM tīkls ir apmācīts, izmantojot eseju GloVe kodējumus, lai izvadītu vektoru, kura garums ir 6, kas atspoguļo katra no iepriekšminētajiem sešiem analītiskajiem rādītājiem rezultātu. Mēs izmantojam vidējo kvadrātu kļūdu zudumu (MSELoss), lai apmācītu neironu tīklu.
DistilBERT : DistilBERT ir mazs, ātrs un viegls transformatora modelis, kas apmācīts, destilējot BERT bāzi. Tam ir par 40% mazāk parametru nekā bert-base uncased, un tas darbojas par 60% ātrāk, vienlaikus saglabājot vairāk nekā 95% BERT veiktspējas, ko mēra ar GLUE valodas izpratnes etalonu. BERT izmanto pašapziņu, lai uztvertu kontekstuālo informāciju no visas secības [2]. Tas uzlabo modeļa spēju novērtēt eseju paraugus un nodrošināt precīzāku rezultātu. Šim modelim mēs izmantojam automātisko marķieri, lai marķierizētu esejas un pēc tam nodotu šos marķierus iepriekš apmācītajam DistilBERT modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divu slāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izejas vektoru, kas atspoguļo katra no sešiem iepriekš aprakstītajiem rakstīšanas atribūtiem.
T5 : T5 jeb teksta pārsūtīšanas uz tekstu transformators ir kodētāja-dekodētāja modelis, kas ir iepriekš apmācīts nekontrolētu un uzraudzītu uzdevumu daudzuzdevumu maisījumam, un kuram katrs uzdevums tiek pārveidots teksta-teksta formātā. Izmantojot BERT, kas ir iepriekš apmācīts maskētajam LM un nākamā teikuma prognozēšanas mērķim, mums ir atsevišķi jāprecizē dažādi iepriekš sagatavotā modeļa gadījumi dažādiem pakārtotiem uzdevumiem, piemēram, secību klasifikācijai. T5 teksta pārveides ietvars nodrošina vienkāršu veidu, kā apmācīt vienu modeli dažādiem teksta uzdevumiem, izmantojot to pašu zaudēšanas funkciju un dekodēšanas procedūru. Šī pirmsapmācības sistēma nodrošina modelim vispārējas nozīmes “zināšanas”, kas uzlabo tā veiktspēju pakārtotajos uzdevumos [12]. Mēs izmantojām automātisko marķieri, lai marķierizētu esejas, un pēc tam nodevām šos marķierus iepriekš apmācītajam T5-Base modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divu slāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izvades vektoru (līdzīgi kā DistilBERT).
RoBERTa-bāze : RoBERTa ir vēl viens BERT līdzīgs maskētas valodas modelis, ko izstrādājis Facebook. RoBERTa gadījumā dinamiskā maskēšana tiek izmantota visu apmācību laikā visiem laikmetiem, savukārt BERT maska ir statiska. Tādējādi modelis apgūst daudz vairāk žetonu nekā BERT. Turpmāki veiktspējas uzlabojumi tiek panākti, apmācot daudz lielāku datu korpusu nekā BERT (10x) un lielāku vārdu krājumu. Pateicoties šīm izmaiņām apmācībā, RoBERTa pārspēj BERT lielākajā daļā GLUE un SQuAD uzdevumu [9].
Longformer : Longformer ir BERT līdzīgs transformatora modelis, kas attīstījies no RoBERTa kontrolpunkta un apmācīts kā maskētas valodas modelis (MLM) gariem dokumentiem. Tā atbalsta sekvences, kuru garums ir līdz 4096 žetoniem. Parasti uz transformatoriem balstīti modeļi, kas izmanto pašapziņas mehānismu, nespēj apstrādāt garas secības, jo atmiņas un skaitļošanas prasības pieaug kvadrātiski līdz ar secības garumu. Tas padara neiespējamu efektīvu garu secību apstrādi. Longformers novērš šo galveno ierobežojumu, ieviešot uzmanības mehānismu, kas lineāri mērogojas ar secības garumu [1]. Tas izmanto bīdāmo logu un paplašinātu bīdāmo logu uzmanības mehānismu, lai attēlotu vietējo un globālo kontekstu. Longformer modelim mēs izmantojam līdzīgu pieeju kā DistilBERT. Mēs izmantojam automātisko marķieri, lai marķierizētu esejas, un pēc tam nododam šos marķierus iepriekš apmācītajam Longformer modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divslāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izvades vektoru (līdzīgi kā DistilBERT).
Mēs esam arī izmantojuši gradientu uzkrāšanu, lai apmācītu savus modeļus lielākam partijas izmēram, nekā mūsu Colab izpildlaika GPU spēja ievietot savā atmiņā. Longformer modeļa lielā izmēra dēļ mums bija ierobežots tikai divu partijas lielums. Tik mazs partijas lielums radītu nestabilus gradienta aprēķinus. Mēs to apiet ar gradienta uzkrāšanos — tā vietā, lai pēc katras iterācijas atkal izplatītu zaudējumus, mēs uzkrājam zaudējumus un atkārtojam kļūdu tikai pēc noteikta pakešu skaita, lai uzlabotu gradienta atjauninājumu stabilitāti [3].
Lai novērtētu mūsu modeļa prognozēto rezultātu precizitāti, kā metriku izmantosim vidējo kolonnas saknes vidējo kvadrātisko kļūdu (MCRMSE). Metrika tiek aprēķināta šādi:
Pēc iepriekš aprakstīto modeļu ieviešanas mēs izmēģinājām dažus eksperimentus, lai uzlabotu šo modeļu prognozēšanas kļūdu. Sīkāka informācija par šiem eksperimentiem ir šāda:
Iepriekš apmācītu kodējumu efekts : 1. tabulā ir apkopota veiktspējas metrika, kas iegūta, mainot iepriekš sagatavotos modeļus, kas aprakstīti 2.2. sadaļā. Šajos palaijumos iepriekš apmācīto modeļu kodējumi tiek tieši izvadīti caur 2 slāņu neironu tīklu, kas tiek apmācīts, izmantojot MSE zudumu, un neviens no 2.4. sadaļā apskatītajiem iespējamiem uzlabojumiem netiek īstenots. Tā kā šī ir vairāku klašu regresija, modeļu veiktspēja katrai vērtēšanas metrikai ir parādīta 3. tabulā.
No 1. tabulā uzskaitītajām transformatoru arhitektūrām redzams, ka maskētās valodas modeļi DistilBERT, RoBERTa un Longformer darbojas labāk nekā ģeneratīvais modelis T5 — iespējams, tāpēc, ka maskētie modeļi ir vairāk pielāgoti diskriminējošiem uzdevumiem ar skaitļu izvadi. Ir nepieciešami turpmāki pētījumi, lai secinātu, vai to var vispārināt vairākiem ģeneratīviem valodu modeļiem. Kopumā RoBERTa ir labākais prognozēšanas rādītājs starp dažādiem modeļiem, iespējams, pateicoties tā daudz lielākajam apmācības korpusam un izcilajai maskēšanai.
Modelis | MCRMSE metrika |
---|---|
Pamatlīnija | 1.36 |
DistilBERTS | 0,4934 |
T5-bāze | 0,5320 |
Roberta | 0,4746 |
Ilggadējs | 0,4899 |
Regresijas galviņas uzlabojumu ietekme : iepriekš mēs pētījām regresijas galviņas mainīgās ievades ietekmi (ti, mainot iepriekš sagatavotos modeļus un tajos esošos kodējumus), vienlaikus saglabājot regresijas galviņas apmācības konstantu. Šajā sadaļā mēs izpētām regresijas galvas apmācības mainīšanas efektu, vienlaikus saglabājot kodējumus nemainīgus. 2.4. sadaļā ir uzskaitītas dažādas izmaiņas regresijas apmācībā, kas ir izpētītas šajā pētījumā. Ņemiet vērā, ka šajā sadaļā tiek izmantots DistilBERT modelis, jo tas ir ātrākais modelis un tam ir zemākas GPU prasības. Rezultāti dažādām apmācību shēmām/uzlabojumiem ir parādīti 2. tabulā.
Eksperimentējiet | MCRMSE |
---|---|
Izvades kvantizācija | 0,5294 |
Svērtais RMSE | 0,5628 |
MultiHead arhitektūra | 0,508 |
Autoencoder Denoising | 0,575 |
Diemžēl neviena no šīm regresijas modeļa apmācības variācijām nerada ievērojamu prognozēšanas precizitātes uzlabošanos, salīdzinot ar mūsu sākotnējiem modeļiem. Faktiski 2. tabulā norādītās validācijas veiktspējas metrika norāda uz veiktspējas samazināšanos ar šīm modifikācijām. Nav skaidrs, kāpēc šis samazinājums notiek, un turpmāka izpēte ar lielāku datu kopu ir būtiska, lai pārbaudītu, vai šis veiktspējas samazinājums nav artefakts.
Attiecībā uz visām teksta kodēšanas un regresijas galvas apmācības variācijām no validācijas MCRMSE rādītājiem atsevišķiem mērījumiem mēs novērojam, ka kohēzija un gramatika ir visgrūtāk prognozējama visos modeļos (sk. 3. tabulu). Tas varētu būt AES izmantoto iepriekš apmācīto valodu modeļu ierobežojums, nevis mūsu modelēšana. Kims et al. (2020) [5] parāda pašreizējo valodu modeļu ierobežojumus attiecībā uz gramatiski labi informētiem un sniedz virzienus tālākai virzībai valodu modeļos.
Modelis (vai Exp.) | Kohēzija | Sintakse | Vārdu krājums | Frazeoloģija | Gramatika | konvencijas |
---|---|---|---|---|---|---|
Pamatlīnija | 1.37 | 1.35 | 1.32 | 1.34 | 1.44 | 1.36 |
destilBERT | 0.54 | 0,51 | 0.46 | 0,52 | 0,57 | 0.49 |
T5-Bāze | 0,55 | 0,52 | 0.48 | 0,54 | 0,58 | 0,53 |
Roberta | 0,51 | 0.47 | 0.42 | 0.47 | 0,51 | 0.46 |
Ilggadējs | 0.54 | 0.48 | 0.46 | 0.49 | 0,53 | 0.47 |
destilBERT + izejas kvantēšana | 0,55 | 0,53 | 0.48 | 0,53 | 0,57 | 0,51 |
destilBERT + WRMSE | 0,56 | 0,56 | 0,55 | 0,56 | 0.61 | 0,53 |
destilBERT + Multi Head Arch. | 0,53 | 0,50 | 0,45 | 0,51 | 0,56 | 0.49 |
Autoencoder + destilBERT | 0,59 | 0,56 | 0,52 | 0,56 | 0.61 | 0,55 |
Šajā darbā mēs pētījām dažādu iepriekš apmācītu arhitektūru un metožu ietekmi, lai apmācītu regresijas galvu automatizētā eseju vērtēšanas uzdevumā, kur mēs novērtējam katru eseju skalā no 1 līdz 5 sešām lingvistiskajām metrikām (piemēram, kohēzija, gramatika, vārdu krājums). utt.). Datu kopa ir ņemta no ELLIPSE korpusa, jo īpaši no Kaggle sacensībās uzskaitīto datu apakškopas. Mēs apsvērām piecas dziļās mācīšanās arhitektūras un piecus veidus, kā apmācīt regresijas galvu, un novērojām, izmantojot RoBERTa-bāzi ar vienkāršu 2 slāņu padeves slāni, lai prognozētu rezultātus, jo vairāku klašu izvade sniedza vislabāko rezultātu.
Kā gaidīts, transformatoru arhitektūras ievērojami pārspēja GloVe+LSTM bāzes modeli. Turklāt transformatoru arhitektūrās mēs redzam, ka maskētās valodas modeļi (DistilBERT, RoBERTa, Longformer) nodrošina izcilu veiktspēju, salīdzinot ar ģeneratīvās valodas modeli T5. Lai gan šis novērojums neattiecas uz visiem ģeneratīvajiem modeļiem, intuitīvi MLM dominēšana šķiet konsekventa, jo tie ir īpaši apmācīti skaitliskiem rezultātiem.
Vēl viens interesants šī pētījuma novērojums ir tāds, ka regresijas galvas apmācības mainīšana, mainot zudumu funkcijas, ierobežojot izejas un uz automātisko kodētāju balstītu izmēru samazināšanu/atskaņošanu, kā arī datu palielināšanu, neuzlaboja modeļa veiktspēju. Tas ir diezgan negaidīti, un mēs pilnībā neizprotam šīs parādības iemeslus. Nākamajā pētījumā šīs pieejas var atkārtot ar lielāku datu kopu - tas palīdz noteikt, vai šos novērojumus par regresijas galvas apmācību var vispārināt.
Rezumējot, mēs novērojam, ka, izmantojot RoBERTa kodējumus ar 2 slāņu uz priekšu vērstu neironu tīklu, lai vienlaicīgi prognozētu sešus rezultātus, līdzīgi kā mācīšanās vairāku uzdevumu veikšanā, tiek nodrošināta vislabākā veiktspēja. Jo īpaši, ņemot vērā datu kopas nelielo izmēru, tiek uzskatīts, ka spēcīga iepriekš apmācīta modeļa izmantošana ievērojami uzlabo modeļa paredzamo veiktspēju. Turklāt esejas gramatikas novērtēšana ir sliktāka nekā jebkura cita vērtēšanas metrika, un tas ir raksturīgs valodas modelim. Tāpēc turpmākajos darbos jākoncentrējas uz valodas modeļu uzlabošanu, lai labāk uztvertu valodas gramatiskos aspektus.