paint-brush
Automatizēta eseju vērtēšana, izmantojot lielu valodu modeļusautors@junaidsyed
Jauna vēsture

Automatizēta eseju vērtēšana, izmantojot lielu valodu modeļus

autors Junaid Syed15m2024/10/12
Read on Terminal Reader

Pārāk ilgi; Lasīt

Šajā rakstā aplūkotas problēmas, kas saistītas ar automatizēto eseju vērtēšanu (AES), uzsverot grūtības vērtēt esejas tādu subjektīvu iezīmju dēļ kā kohēzija, gramatika un atbilstība. Pētījumā galvenā uzmanība pievērsta sešiem analītiskajiem rādītājiem un ierosināti uzlabojumi salīdzinājumā ar pašreizējām metodēm, izmantojot vairāku uzdevumu mācīšanos, automātiskās kodēšanas tīklus un uzlabotus modeļus, piemēram, Longformer, lai apstrādātu garākas esejas. Neskatoties uz ievērojamiem sasniegumiem ar tādiem modeļiem kā BERT, joprojām pastāv tādas problēmas kā marķiera garuma ierobežojumi un kontekstuālās izpratnes trūkums. Rakstā tiek pētīti risinājumi, tostarp dokumentu kodējumi, lai uzlabotu AES precizitāti un godīgumu.
featured image - Automatizēta eseju vērtēšana, izmantojot lielu valodu modeļus
Junaid Syed HackerNoon profile picture
0-item

Autori:

  • Junaid Syed, Džordžijas Tehnoloģiju institūts
  • Sai Shanbhag, Džordžijas Tehnoloģiju institūts
  • Vamsi Krishna Chakravarthy, Džordžijas Tehnoloģiju institūts


Automatizētā eseju vērtēšana (AES) ir klasisks NLP uzdevums, kas ir pētīts daudzus gadu desmitus. AES ir liela praktiska nozīme un milzīgs ekonomiskais potenciāls — AES ir lielu konkursa eksāmenu (piem., SAT, GRE) un arī plaukstošā tiešsaistes mācību tirgus stūrakmens. Vairākas filantropiskas un bezpeļņas organizācijas, piemēram, Bila un Melindas Geitsu fonds un Zuckerberg-Chan Initiative, ir finansējušas vairākus Kaggle konkursus par AES [6, 7, 8]. Tomēr, neskatoties uz šiem centieniem, problēma nebūt nav atrisināta, jo ir būtiskas grūtības ar eseju vērtēšanu. Esejas vērtēšana ir ļoti subjektīva un ietver tādus abstraktus faktorus kā kohēzija, gramatika, atbilstība utt., kurus ir grūti aprēķināt. Tā rezultātā apmācības datu iezīmju iegūšana ar detalizētu esejas vērtējumu tādās funkcijās kā gramatika, saskaņotība utt. ir diezgan dārga. Līdz ar to apmācības datu kopa ir diezgan ierobežota salīdzinājumā ar citiem NLP uzdevumiem, piemēram, (maskētiem) valodu modeļiem, NER, POS marķēšanu, mašīntulkošanu utt. Turklāt vienkārša kopējā rezultāta nodrošināšana studentam nesniedz atgriezenisko saiti vai nesniedz nekādu atgriezenisko saiti. nepalīdz studentiem viņu progresā. Tāpēc pašreizējie centieni ir vērsti uz esejas izvērtēšanu par detalizētiem aspektiem, nevis uz vienu punktu. Tas arī palīdz izvairīties no pārmērīgas pielāgošanas, jo prognozēšanas modelim tagad ir labi jādarbojas visos rādītājos, nevis tikai vienai metrikai. Būtībā to var uzskatīt par vairāku uzdevumu modeli. Šajā pētījumā mēs koncentrējamies uz sešām metrikām: kohēziju, sintakse, vārdu krājumu, frazeoloģiju, gramatiku un konvencijām.


1.1. Literatūras apskats

Pirms 2010. gadiem lielākā daļa AES modeļu balstījās uz rokām izstrādātām funkcijām, ko izstrādājuši skaitļošanas lingvisti [10, 4]. Tomēr šie modeļi parasti bija novirzīti uz noteiktām iezīmēm (piemēram, esejas garumu), un tos nevarēja vispārināt pa tēmām un metriku. Novirze pret ar rokām veidotām funkcijām tika novērsta, aizstājot tās ar vārdu iegulšanu, ko apguvuši valodu modeļi, piemēram, Word2Vec un GloVe. Pamatojoties uz šiem vārdu iegulumiem, eseju rezultāti tika prognozēti kā regresijas un klasifikācijas uzdevumi, pievienojot neironu tīklu aiz vārda iegulšanas. Izmantojot iegulšanu, kas apmācīta lielā korpusā, ir redzams būtisks uzlabojums esejas vērtēšanā visiem rādītājiem, kā arī kopējā vērtējumā [11]. Tomēr tieši vārdu iegulšana, kas bija izšķiroša veiktspējas uzlabojumiem, izrādījās lielākais modeļa ierobežojums. Tā kā iegulšanas būtībā tika izmantotas, izmantojot pieeju “Vārdu maiss”, tās nevarēja tvert nekādu kontekstuālo informāciju, ko daļēji tvēra iepriekšējos modeļos ar rokām veidotās lingvistiskās iezīmes. Tā vietā, lai pievienotu ar rokām izstrādātas funkcijas un, iespējams, atkārtoti ieviestu iepriekšējo modeļu trūkumus, kontekstuālās informācijas trūkuma problēma tika risināta, izmantojot uzmanības mehānismu, izmantojot LSTM [13] un transformatoru arhitektūras. Vasvani un Polosukhina [14] darbs veiksmīgi izstrādāja BERT modeli, izmantojot transformatorus. BERT modeļa un transformatoru arhitektūras panākumu ietekmē tika izstrādāts virkne uz uzmanību balstītu valodu modeļu. Tagad vārdu iegulšanas vietā varētu iegūt teikuma vai dokumenta līmeņa iegulšanu, kas tver kontekstuālo informāciju. Izmantojot šīs dziļās iegulšanas, tiek izstrādāti neironu tīklu modeļi, lai prognozētu eseju rezultātus (gan kā klasifikācijas, gan regresijas uzdevumus).


1.2. Pašreizējo pieeju ierobežojumi

Neskatoties uz šo progresu, BERT modeļa izmantošanai ir nopietni ierobežojumi. Lotridža u.c. (2021) [10] parādīja modeļa robustuma trūkumu spēļu esejām, izlases veida sajaukšanai un Bābeles esejām. Veiktspēja krasi atšķiras dažādās klasēs un metrikā. Lai novērstu šo trūkumu, šajā izmeklēšanā mēs vienlaikus modelēsim visus rādītājus, izmantojot vairāku uzdevumu mācīšanos. Vēl viens būtisks uz BERT balstītas analīzes ierobežojums ir tas, ka marķiera garums ir ierobežots līdz 512 BERT modelī. Mēs cenšamies to atrisināt, izmantojot modernākas arhitektūras, piemēram, Longformer, kas vienā dokumentā pieļauj līdz 4096 marķieriem. Šajā pētījumā aplūkotajai datu kopai (sīkāka informācija 2.1. sadaļā) vairāk nekā 40% dokumentu ir garāki par 512 marķieriem. Tāpēc, saīsinot dokumentu tikai līdz 512 marķieriem ar standarta BERT modeli, kontekstā tiktu radīti būtiski zaudējumi. Trešais galvenais dažādu pētījumu ierobežojums ir ierobežotā datu kopa — lai gan vairāki pētījumi ir vērsti uz AES, katra no šīm datu kopām tiek vērtēta atšķirīgi, un līdz ar to modeļus nevar viegli apmācīt visās datu kopās. Tāpēc šajā pētījumā mēs pētām automātisko kodētāju tīklu lietderību, lai apmācītu datu kopās un izmantotu no automātiskā kodētāja atvasinātus kodējumus, lai veiktu AES uzdevumus. Kopumā šajā pētījumā tiek pētīta dažādu uz dziļu mācīšanos balstītu dokumentu kodējumu ietekme uz automatizētu eseju vērtēšanu. Šajā pētījumā aplūkotā datu kopa, metodoloģija, eksperimenti un dziļās iegulšanas ir izklāstītas 2. nodaļā. Papildus dziļo iegulšanas iespējām mēs analizējam veidus, kā apvienot dažādas AES datu kopas, apmācot dziļos kodējumus Autoencoder tīklā. Rezultāti no visām šīm pieejām ir sniegti 3. sadaļā, un secinājumi, kā arī norādījumi turpmākai izmeklēšanai ir sniegti 4. sadaļā.

2. Metodoloģija

2.1 Dati

Mācību aģentūru laboratorija, Džordžijas štata universitāte un Vanderbiltas universitāte ir apkopojušas lielu skaitu eseju no valsts un valsts izglītības aģentūrām, kā arī bezpeļņas organizācijām. No šīs kolekcijas viņi ir izstrādājuši The Persuasive Essays for Rating, Selection and Understanding Argumentative and Discourse Elements (PERSUADE) korpusu, kas sastāv no argumentētām esejām, ko rakstījuši 6.–12. klases skolēni, un angļu valodas apguvēju ieskatu, prasmju un prasmju novērtēšanu. (ELLIPSE) korpuss, kas sastāv no angļu valodas apguvēju (ELLS) rakstītajām esejām 8.-12. klasē.


ELLIPSE korpuss: ELLIPSE korpusā ir vairāk nekā 7000 eseju, ko rakstījuši ELLS 8.–12. klasē. Šīs esejas tika rakstītas kā daļa no valsts standartizētajiem rakstīšanas novērtējumiem 2018.–2019. un 2019.–2020. mācību gadā. ELLIPSE korpusa esejas cilvēku vērtētāji atzīmēja valodas prasmes līmeņos, izmantojot piecu punktu vērtēšanas rubriku, kas ietvēra gan holistiskās, gan analītiskās skalas. Holistiskā skala koncentrējās uz vispārējo valodas prasmes līmeni, kas tika parādīts esejās, savukārt analītiskās skalas ietvēra kohēzijas, sintakses, frazeoloģijas, vārdu krājuma, gramatikas un konvenciju vērtējumus. Katra analītiskā pasākuma rezultāts svārstās no 1,0 līdz 5,0 ar soli pa 0,5, un augstāki rādītāji atbilst lielākai prasmēm šajā mērījumā.


PERSUADE korpuss: PERSUADE korpuss satur vairāk nekā 25 000 argumentētu eseju, ko rakstījuši ASV skolēni no 6. līdz 12. klasei. Šīs esejas tika rakstītas kā daļa no valsts un valsts standartizētajiem rakstīšanas novērtējumiem no 2010. līdz 2020. gadam. Katru PERSUADE korpusa eseju cilvēku vērtētāji atzīmēja argumentācijas un diskursa elementiem, kā arī hierarhiskām attiecībām starp argumentējošiem elementiem. Anotācijas rubrika tika izstrādāta, lai identificētu un novērtētu diskusiju elementus, kas parasti sastopami argumentētajā rakstībā.


Šim projektam mēs izmantojam ELLIPSE korpusu un vienlaikus prognozējam punktu skaitu sešiem analītiskajiem mēriem: kohēzija, sintakse, vārdu krājums, frazeoloģija, gramatika un konvencijas. Turklāt mēs cenšamies uzlabot prognozēšanas precizitāti, izmantojot automātisko kodētāju. Ideja ir apmācīt automātisko kodētāju, izmantojot ELLIPSE un PERSUADE korpusu. Izmantojot šo procesu, automātiskā kodētāja saspiestais funkciju vektors var tvert eseju iezīmes, kas ir būtiskas vērtēšanai un kuras varētu palaist garām iepriekš apmācītiem valodas modeļa līdzekļiem.

2.2. Pieeja

Kā minēts iepriekš, šī projekta mērķis ir prognozēt sešu analītisko mēru rezultātu: kohēzija, sintakse, vārdu krājums, frazeoloģisms, gramatika un 8.–12. klašu angļu valodas apguvēju rakstītās argumentācijas esejas. Šim uzdevumam mēs vispirms izstrādājam bāzes līniju un pēc tam izmantojam vairākus iepriekš apmācītus modeļus, lai uzlabotu bāzes līniju.


Bāzes līnija : bāzes līnija ir izstrādāta, izmantojot GloVe iegulšanu un divvirzienu LSTM tīklu. Bāzes modelim mēs vispirms veicam datu tīrīšanu, ti, pieturzīmju noņemšanu, atstarpju noņemšanu utt., izmantojot regulārā izteiksmes bibliotēku, un pēc tam izmantojam vārdu marķieri no NLTK, lai marķierizētu esejas. LSTM tīkls ir apmācīts, izmantojot eseju GloVe kodējumus, lai izvadītu vektoru, kura garums ir 6, kas atspoguļo katra no iepriekšminētajiem sešiem analītiskajiem rādītājiem rezultātu. Mēs izmantojam vidējo kvadrātu kļūdu zudumu (MSELoss), lai apmācītu neironu tīklu.


DistilBERT : DistilBERT ir mazs, ātrs un viegls transformatora modelis, kas apmācīts, destilējot BERT bāzi. Tam ir par 40% mazāk parametru nekā bert-base uncased, un tas darbojas par 60% ātrāk, vienlaikus saglabājot vairāk nekā 95% BERT veiktspējas, ko mēra ar GLUE valodas izpratnes etalonu. BERT izmanto pašapziņu, lai uztvertu kontekstuālo informāciju no visas secības [2]. Tas uzlabo modeļa spēju novērtēt eseju paraugus un nodrošināt precīzāku rezultātu. Šim modelim mēs izmantojam automātisko marķieri, lai marķierizētu esejas un pēc tam nodotu šos marķierus iepriekš apmācītajam DistilBERT modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divu slāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izejas vektoru, kas atspoguļo katra no sešiem iepriekš aprakstītajiem rakstīšanas atribūtiem.


T5 : T5 jeb teksta pārsūtīšanas uz tekstu transformators ir kodētāja-dekodētāja modelis, kas ir iepriekš apmācīts nekontrolētu un uzraudzītu uzdevumu daudzuzdevumu maisījumam, un kuram katrs uzdevums tiek pārveidots teksta-teksta formātā. Izmantojot BERT, kas ir iepriekš apmācīts maskētajam LM un nākamā teikuma prognozēšanas mērķim, mums ir atsevišķi jāprecizē dažādi iepriekš sagatavotā modeļa gadījumi dažādiem pakārtotiem uzdevumiem, piemēram, secību klasifikācijai. T5 teksta pārveides ietvars nodrošina vienkāršu veidu, kā apmācīt vienu modeli dažādiem teksta uzdevumiem, izmantojot to pašu zaudēšanas funkciju un dekodēšanas procedūru. Šī pirmsapmācības sistēma nodrošina modelim vispārējas nozīmes “zināšanas”, kas uzlabo tā veiktspēju pakārtotajos uzdevumos [12]. Mēs izmantojām automātisko marķieri, lai marķierizētu esejas, un pēc tam nodevām šos marķierus iepriekš apmācītajam T5-Base modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divu slāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izvades vektoru (līdzīgi kā DistilBERT).


RoBERTa-bāze : RoBERTa ir vēl viens BERT līdzīgs maskētas valodas modelis, ko izstrādājis Facebook. RoBERTa gadījumā dinamiskā maskēšana tiek izmantota visu apmācību laikā visiem laikmetiem, savukārt BERT maska ir statiska. Tādējādi modelis apgūst daudz vairāk žetonu nekā BERT. Turpmāki veiktspējas uzlabojumi tiek panākti, apmācot daudz lielāku datu korpusu nekā BERT (10x) un lielāku vārdu krājumu. Pateicoties šīm izmaiņām apmācībā, RoBERTa pārspēj BERT lielākajā daļā GLUE un SQuAD uzdevumu [9].


Longformer : Longformer ir BERT līdzīgs transformatora modelis, kas attīstījies no RoBERTa kontrolpunkta un apmācīts kā maskētas valodas modelis (MLM) gariem dokumentiem. Tā atbalsta sekvences, kuru garums ir līdz 4096 žetoniem. Parasti uz transformatoriem balstīti modeļi, kas izmanto pašapziņas mehānismu, nespēj apstrādāt garas secības, jo atmiņas un skaitļošanas prasības pieaug kvadrātiski līdz ar secības garumu. Tas padara neiespējamu efektīvu garu secību apstrādi. Longformers novērš šo galveno ierobežojumu, ieviešot uzmanības mehānismu, kas lineāri mērogojas ar secības garumu [1]. Tas izmanto bīdāmo logu un paplašinātu bīdāmo logu uzmanības mehānismu, lai attēlotu vietējo un globālo kontekstu. Longformer modelim mēs izmantojam līdzīgu pieeju kā DistilBERT. Mēs izmantojam automātisko marķieri, lai marķierizētu esejas, un pēc tam nododam šos marķierus iepriekš apmācītajam Longformer modelim, lai iegūtu eseju vektora attēlojumu. Pēc tam mēs apmācām divslāņu neironu tīklu, izmantojot MSELoss, lai atgrieztu 6-dimensiju izvades vektoru (līdzīgi kā DistilBERT).


Mēs esam arī izmantojuši gradientu uzkrāšanu, lai apmācītu savus modeļus lielākam partijas izmēram, nekā mūsu Colab izpildlaika GPU spēja ievietot savā atmiņā. Longformer modeļa lielā izmēra dēļ mums bija ierobežots tikai divu partijas lielums. Tik mazs partijas lielums radītu nestabilus gradienta aprēķinus. Mēs to apiet ar gradienta uzkrāšanos — tā vietā, lai pēc katras iterācijas atkal izplatītu zaudējumus, mēs uzkrājam zaudējumus un atkārtojam kļūdu tikai pēc noteikta pakešu skaita, lai uzlabotu gradienta atjauninājumu stabilitāti [3].

2.3. Novērtēšana

Lai novērtētu mūsu modeļa prognozēto rezultātu precizitāti, kā metriku izmantosim vidējo kolonnas saknes vidējo kvadrātisko kļūdu (MCRMSE). Metrika tiek aprēķināta šādi:

2.4. Eksperimenti

Pēc iepriekš aprakstīto modeļu ieviešanas mēs izmēģinājām dažus eksperimentus, lai uzlabotu šo modeļu prognozēšanas kļūdu. Sīkāka informācija par šiem eksperimentiem ir šāda:


  • Izvades kvantifikācija : ELLIPSE korpusā katra analītiskā mērījuma rezultāts svārstās no 1,0 līdz 5,0 ar soli pa 0,5, un augstāki rādītāji atbilst lielākai prasmēm šajā mērī. Mēs esam modificējuši savu neironu tīklu tā, lai izvade būtu ierobežota starp 1 un 5. Mēs to izdarījām, iekļaujot sigmoīdu slāni, caur kuru izvada izvadi, un pēc tam reizinim šo izvadi ar 4 un pievienojam tai 1. Turklāt, kad rezultāti ir ģenerēti no neironu tīkla, mēs veicam matemātiskas operācijas punktu skaitu = int[(2 * score + 0,5) / 2] , lai pārliecinātos, ka izvade palielinās tikai par 0,5. Šīs darbības mērķis bija atkārtot sākotnējo rezultātu formātu un pārbaudīt, vai šāda modifikācija uzlabo precizitāti.


  • Svērtais RMSE : ELLIPSE korpusā katra analītiskā mērījuma rezultāts svārstās no 1,0 līdz 5,0 ar soli 0,5. Tomēr katra rezultāta sadalījums datu kopā nav līdzīgs. Atsevišķi rādītāji, piemēram, 2,5, 3 un 3,5, mūsu datu kopā ir biežāk sastopami katram analītiskajam mērījumam, turpretim rādītāji, piemēram, 1 un 5, visā datu kopā sastopami reti. Lai ņemtu vērā šo nelīdzsvarotību, mēs izmantojām svērtās vidējās kvadrātiskās kļūdas (WRMSE) funkciju, kur noteikta rezultāta biežuma apgrieztā vērtība tiek izmantota kā svars, un mēs apgriežam šo svaru, ja tas ir ārkārtīgi augsts salīdzinājumā ar citiem svariem.


  • MultiHead arhitektūra : kā minēts iepriekšējā sadaļā, tā kā katra rezultāta sadalījums datu kopā nav līdzīgs, mēs eksperimentējām ar pasākumam specifisku galīgo divu slāņu neironu tīklu, lai prognozētu rezultātus. Tāpēc vienas izvades galviņas vietā, kas paredz 6 dažādas punktu vērtības, mēs ieviesām 6 dažādas izvades galviņas, lai prognozētu katra analītiskā pasākuma rezultātu.


  • Automātiskais kodētājs : datu kopa, kas tiek nodrošināta pašreizējam uzdevumam, proti, esejas vairāku klašu vērtēšanai, ir tikai aptuveni 4 000 paraugu. Tomēr ELLIPSE un PERSUADE korpusā kopā ir vairāk nekā 180 000 eseju citiem AES uzdevumiem, piemēram, atsevišķu punktu skaits veselām esejām un eseju daļām. Tāpēc automātiskos kodētājus izmanto, lai izmantotu šo lielāko datubāzi un veiktu daļēji uzraudzītu mācīšanos. Īsi sakot, kodējumi no valodu modeļiem, piemēram, BERT, T5, tiek nodoti caur automātisko kodētāju tīklu, kas apmācīts, izmantojot visus 180 000 paraugus. Pēc tam, lai prognozētu vairāku klašu rādītājus, izmantojot 2 slāņu neironu tīklu regresijas galviņai, līdzīgi kā pilnībā uzraudzītajā scenārijā, tiek izmantots sašaurinājuma slāņa kodējums vai atslēgtās valodas modeļa kodējumi no automātiskā kodētāja dekodētāja daļas. Tādējādi, izmantojot lielāku nemarķēto datu kopu, lai apmācītu automātisko kodētāju kā priekšapstrādātāju, mēs cenšamies uzlabot uzraudzītās mācīšanās prognozes. Šajā pētījumā mēs aplūkojām abus denozētos kodējumus, kuru pamatā ir DistilBERT kodējumi.

3. Rezultāti un diskusija

Iepriekš apmācītu kodējumu efekts : 1. tabulā ir apkopota veiktspējas metrika, kas iegūta, mainot iepriekš sagatavotos modeļus, kas aprakstīti 2.2. sadaļā. Šajos palaijumos iepriekš apmācīto modeļu kodējumi tiek tieši izvadīti caur 2 slāņu neironu tīklu, kas tiek apmācīts, izmantojot MSE zudumu, un neviens no 2.4. sadaļā apskatītajiem iespējamiem uzlabojumiem netiek īstenots. Tā kā šī ir vairāku klašu regresija, modeļu veiktspēja katrai vērtēšanas metrikai ir parādīta 3. tabulā.


No 1. tabulā uzskaitītajām transformatoru arhitektūrām redzams, ka maskētās valodas modeļi DistilBERT, RoBERTa un Longformer darbojas labāk nekā ģeneratīvais modelis T5 — iespējams, tāpēc, ka maskētie modeļi ir vairāk pielāgoti diskriminējošiem uzdevumiem ar skaitļu izvadi. Ir nepieciešami turpmāki pētījumi, lai secinātu, vai to var vispārināt vairākiem ģeneratīviem valodu modeļiem. Kopumā RoBERTa ir labākais prognozēšanas rādītājs starp dažādiem modeļiem, iespējams, pateicoties tā daudz lielākajam apmācības korpusam un izcilajai maskēšanai.

1. tabula. Kopējais MCRMSE rezultāts dažādiem modeļiem

Modelis

MCRMSE metrika

Pamatlīnija

1.36

DistilBERTS

0,4934

T5-bāze

0,5320

Roberta

0,4746

Ilggadējs

0,4899


Regresijas galviņas uzlabojumu ietekme : iepriekš mēs pētījām regresijas galviņas mainīgās ievades ietekmi (ti, mainot iepriekš sagatavotos modeļus un tajos esošos kodējumus), vienlaikus saglabājot regresijas galviņas apmācības konstantu. Šajā sadaļā mēs izpētām regresijas galvas apmācības mainīšanas efektu, vienlaikus saglabājot kodējumus nemainīgus. 2.4. sadaļā ir uzskaitītas dažādas izmaiņas regresijas apmācībā, kas ir izpētītas šajā pētījumā. Ņemiet vērā, ka šajā sadaļā tiek izmantots DistilBERT modelis, jo tas ir ātrākais modelis un tam ir zemākas GPU prasības. Rezultāti dažādām apmācību shēmām/uzlabojumiem ir parādīti 2. tabulā.

2. tabula: MCRMSE rezultāts dažādiem modeļiem

Eksperimentējiet

MCRMSE

Izvades kvantizācija

0,5294

Svērtais RMSE

0,5628

MultiHead arhitektūra

0,508

Autoencoder Denoising

0,575


Diemžēl neviena no šīm regresijas modeļa apmācības variācijām nerada ievērojamu prognozēšanas precizitātes uzlabošanos, salīdzinot ar mūsu sākotnējiem modeļiem. Faktiski 2. tabulā norādītās validācijas veiktspējas metrika norāda uz veiktspējas samazināšanos ar šīm modifikācijām. Nav skaidrs, kāpēc šis samazinājums notiek, un turpmāka izpēte ar lielāku datu kopu ir būtiska, lai pārbaudītu, vai šis veiktspējas samazinājums nav artefakts.


Attiecībā uz visām teksta kodēšanas un regresijas galvas apmācības variācijām no validācijas MCRMSE rādītājiem atsevišķiem mērījumiem mēs novērojam, ka kohēzija un gramatika ir visgrūtāk prognozējama visos modeļos (sk. 3. tabulu). Tas varētu būt AES izmantoto iepriekš apmācīto valodu modeļu ierobežojums, nevis mūsu modelēšana. Kims et al. (2020) [5] parāda pašreizējo valodu modeļu ierobežojumus attiecībā uz gramatiski labi informētiem un sniedz virzienus tālākai virzībai valodu modeļos.

3. tabula. MCRMSE rezultāts individuālajam analītiskajam pasākumam

Modelis (vai Exp.)

Kohēzija

Sintakse

Vārdu krājums

Frazeoloģija

Gramatika

konvencijas

Pamatlīnija

1.37

1.35

1.32

1.34

1.44

1.36

destilBERT

0.54

0,51

0.46

0,52

0,57

0.49

T5-Bāze

0,55

0,52

0.48

0,54

0,58

0,53

Roberta

0,51

0.47

0.42

0.47

0,51

0.46

Ilggadējs

0.54

0.48

0.46

0.49

0,53

0.47

destilBERT + izejas kvantēšana

0,55

0,53

0.48

0,53

0,57

0,51

destilBERT + WRMSE

0,56

0,56

0,55

0,56

0.61

0,53

destilBERT + Multi Head Arch.

0,53

0,50

0,45

0,51

0,56

0.49

Autoencoder + destilBERT

0,59

0,56

0,52

0,56

0.61

0,55


4. Secinājums

Šajā darbā mēs pētījām dažādu iepriekš apmācītu arhitektūru un metožu ietekmi, lai apmācītu regresijas galvu automatizētā eseju vērtēšanas uzdevumā, kur mēs novērtējam katru eseju skalā no 1 līdz 5 sešām lingvistiskajām metrikām (piemēram, kohēzija, gramatika, vārdu krājums). utt.). Datu kopa ir ņemta no ELLIPSE korpusa, jo īpaši no Kaggle sacensībās uzskaitīto datu apakškopas. Mēs apsvērām piecas dziļās mācīšanās arhitektūras un piecus veidus, kā apmācīt regresijas galvu, un novērojām, izmantojot RoBERTa-bāzi ar vienkāršu 2 slāņu padeves slāni, lai prognozētu rezultātus, jo vairāku klašu izvade sniedza vislabāko rezultātu.


Kā gaidīts, transformatoru arhitektūras ievērojami pārspēja GloVe+LSTM bāzes modeli. Turklāt transformatoru arhitektūrās mēs redzam, ka maskētās valodas modeļi (DistilBERT, RoBERTa, Longformer) nodrošina izcilu veiktspēju, salīdzinot ar ģeneratīvās valodas modeli T5. Lai gan šis novērojums neattiecas uz visiem ģeneratīvajiem modeļiem, intuitīvi MLM dominēšana šķiet konsekventa, jo tie ir īpaši apmācīti skaitliskiem rezultātiem.


Vēl viens interesants šī pētījuma novērojums ir tāds, ka regresijas galvas apmācības mainīšana, mainot zudumu funkcijas, ierobežojot izejas un uz automātisko kodētāju balstītu izmēru samazināšanu/atskaņošanu, kā arī datu palielināšanu, neuzlaboja modeļa veiktspēju. Tas ir diezgan negaidīti, un mēs pilnībā neizprotam šīs parādības iemeslus. Nākamajā pētījumā šīs pieejas var atkārtot ar lielāku datu kopu - tas palīdz noteikt, vai šos novērojumus par regresijas galvas apmācību var vispārināt.


Rezumējot, mēs novērojam, ka, izmantojot RoBERTa kodējumus ar 2 slāņu uz priekšu vērstu neironu tīklu, lai vienlaicīgi prognozētu sešus rezultātus, līdzīgi kā mācīšanās vairāku uzdevumu veikšanā, tiek nodrošināta vislabākā veiktspēja. Jo īpaši, ņemot vērā datu kopas nelielo izmēru, tiek uzskatīts, ka spēcīga iepriekš apmācīta modeļa izmantošana ievērojami uzlabo modeļa paredzamo veiktspēju. Turklāt esejas gramatikas novērtēšana ir sliktāka nekā jebkura cita vērtēšanas metrika, un tas ir raksturīgs valodas modelim. Tāpēc turpmākajos darbos jākoncentrējas uz valodas modeļu uzlabošanu, lai labāk uztvertu valodas gramatiskos aspektus.

Atsauces

  1. Iz Beltagijs, Metjū E Pīterss un Ārmans Koens. 2020. Longformer: garo dokumentu transformators. arXiv preprint arXiv:2004.05150 .
  2. Džeikobs Devlins, Ming-Wei Chang, Kenton Lee un Kristina Toutanova. 2018. BERT: dziļo divvirzienu transformatoru iepriekšēja apmācība valodas izpratnei. arXiv preprint arXiv:1810.04805 .
  3. Joeri R Hermans, Gerasimos Spanakis un Rico Möckel. 2017. Uzkrātā gradienta normalizācija. Āzijas konferencē par mašīnmācīšanos , 439.–454. lpp. PMLR.
  4. Zixuan Ke un Vincents Ng. 2019. gads. Automatizēta eseju vērtēšana: jaunākā līmeņa apskats. In IJCAI , sēj. 19, 6300.-6308.lpp.
  5. Taeuk Kim, Jihun Choi, Daniel Edmiston un Sang-goo Lee. 2020. Vai iepriekš apmācīti valodu modeļi zina frāzes? Vienkāršas, bet spēcīgas pamatlīnijas gramatikas ievadīšanai.
  6. Mācību aģentūras laboratorija. 2022a. Atsauksmes balva - angļu valodas apguve.
  7. Mācību aģentūras laboratorija. 2022b. Atsauksmes balva - Studentu rakstu vērtēšana.
  8. Mācību aģentūras laboratorija. 2022c. Atsauksmju balva – iedarbīgu argumentu prognozēšana.
  9. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer un Veselin Stojanov. 2019. Roberta: stabili optimizēta Berta pirmsapmācības pieeja. arXiv preprint arXiv:1907.11692.
  10. Sjū Lotridža, Bens Godeks, Amirs Džafari un Milāns Patels. 2021. gads. Padziļinātās mācīšanās un klasiskās automatizētās vērtēšanas pieejas robustuma salīdzināšana spēļu stratēģijās. Tehniskais ziņojums - Cambium Assessment Inc.
  11. Hujens Ngujens un Lūsio Derijs. 2016. Neironu tīkli automatizētai eseju vērtēšanai. CS224d Stanford Reports: 1-11.
  12. Ādams Roberts un Kolins Rafels. 2020. Pārsūtīšanas mācīšanās izpēte, izmantojot T5: teksta pārsūtīšanas transformatoru. Piekļuve, 23.–07. lpp.
  13. Kaveh Taghipour un Hwee Tou Ng. 2016. Neironāla pieeja automatizētai eseju vērtēšanai. In Proceedings of the 2016 Conference on empīriskās metodes dabiskās valodas apstrādē, 1882.-1891.lpp.
  14. Noams Šazīrs Nikijs Parmars Jakobs Uskoreits Lions Džounss Aidans N. Gomess Lokass Kaizers Vasvani, Ašišs un Ilija Polosukhinas. 2017. Uzmanība ir viss, kas jums nepieciešams. Neironu informācijas apstrādes sistēmu sasniegumi, 30.