paint-brush
Automated Essay Scoring Gamit ang Malaking Modelo ng Wikasa pamamagitan ng@junaidsyed
Bagong kasaysayan

Automated Essay Scoring Gamit ang Malaking Modelo ng Wika

sa pamamagitan ng Junaid Syed15m2024/10/12
Read on Terminal Reader

Masyadong mahaba; Upang basahin

Tinutugunan ng papel na ito ang mga hamon ng Automated Essay Scoring (AES), na nagbibigay-diin sa kahirapan sa pagmamarka ng mga sanaysay dahil sa mga pansariling katangian tulad ng pagkakaisa, gramatika, at kaugnayan. Nakatuon ang pag-aaral sa anim na analytic na sukatan at nagmumungkahi ng mga pagpapabuti sa mga kasalukuyang pamamaraan sa pamamagitan ng paggamit ng multi-task learning, mga network ng autoencoder, at mga advanced na modelo tulad ng Longformer para sa paghawak ng mas mahahabang sanaysay. Sa kabila ng mga makabuluhang pag-unlad sa mga modelo tulad ng BERT, nagpapatuloy ang mga isyu tulad ng mga paghihigpit sa haba ng token at kawalan ng pag-unawa sa konteksto. Sinasaliksik ng papel ang mga solusyon, kabilang ang mga pag-encode ng dokumento, upang mapabuti ang katumpakan at pagiging patas ng AES.
featured image - Automated Essay Scoring Gamit ang Malaking Modelo ng Wika
Junaid Syed HackerNoon profile picture
0-item

Mga may-akda:

  • Junaid Syed, Georgia Institute of Technology
  • Sai Shanbhag, Georgia Institute of Technology
  • Vamsi Krishna Chakravarthy, Georgia Institute of Technology


Ang Automated Essay Scoring (AES) ay isang klasikong gawain ng NLP na pinag-aralan nang maraming dekada. Ang AES ay may maraming praktikal na kaugnayan at napakalaking potensyal na pang-ekonomiya - Ang AES ay ang pundasyon para sa malalaking mapagkumpitensyang pagsusulit (hal. SAT, GRE) at gayundin ang umuusbong na merkado ng online na pag-aaral. Maraming mga philanthropic at non-profit na organisasyon tulad ng Bill & Melinda Gates Foundation at Zuckerberg-Chan Initiative ang nagpopondo ng maraming Kaggle competition sa AES [6, 7, 8]. Sa kabila ng mga pagsisikap na ito, gayunpaman, ang problema ay malayong malutas dahil sa mga pangunahing paghihirap sa pagmamarka ng sanaysay. Ang pagsusuri sa isang sanaysay ay lubos na subjective at nagsasangkot ng mga abstract na kadahilanan tulad ng pagkakaisa, gramatika, kaugnayan, atbp. na mahirap kalkulahin. Bilang resulta, ang pagkuha ng mga label para sa data ng pagsasanay na may butil na rating ng isang sanaysay sa mga feature gaya ng grammar, coherence, atbp ay medyo mahal. Dahil dito, ang set ng data ng pagsasanay ay medyo limitado kumpara sa iba pang mga gawain sa NLP tulad ng (masked) na mga modelo ng Wika, NER, POS tagging, machine translation, atbp. Higit pa rito, ang pagbibigay ng isang simpleng pangkalahatang marka ay nagbibigay ng kaunti o walang feedback sa mag-aaral at ginagawa hindi nakakatulong sa mga mag-aaral sa kanilang pag-unlad. Samakatuwid, ang kasalukuyang mga pagsisikap ay nakatuon sa pagsusuri ng sanaysay sa mga butil-butil na aspeto sa halip na isang marka. Nakakatulong din ito sa pag-iwas sa sobrang pag-akma dahil kailangan na ngayong gumanap nang maayos ang modelo ng hula sa lahat ng sukatan at hindi lamang sa isang sukatan, sa pangkalahatan, maaari itong isipin bilang isang multi-task na modelo. Sa kasalukuyang pag-aaral, tumutuon kami sa anim na sukatan: cohesion, syntax, bokabularyo, parirala, grammar, at mga kumbensyon.


1.1 Pagsusuri sa Panitikan

Bago ang 2010s, karamihan sa mga modelo ng AES ay umaasa sa mga hand-crafted na feature na idinisenyo ng mga computational linguist [10, 4]. Gayunpaman, ang mga modelong ito ay karaniwang may kinikilingan sa ilang partikular na tampok (hal. haba ng sanaysay) at hindi maaaring gawing pangkalahatan sa mga paksa at sukatan. Ang pagkiling sa mga feature na ginawa ng kamay ay natugunan sa pamamagitan ng pagpapalit sa mga ito ng mga pag-embed ng salita na natutunan ng mga modelo ng wika tulad ng Word2Vec at GloVe. Batay sa mga pag-embed ng salita na ito, ang mga marka ng sanaysay ay hinulaang bilang mga gawain sa pagbabalik at pag-uuri sa pamamagitan ng pagdaragdag ng isang neural network sa ibaba ng agos ng salitang mga pag-embed. Sa pamamagitan ng paggamit ng mga pag-embed na sinanay sa isang malaking corpus, makikita ang isang makabuluhang pagpapabuti sa pagmamarka ng sanaysay para sa lahat ng mga sukatan pati na rin ang pangkalahatang marka [11]. Gayunpaman, ang mismong mga salitang pag-embed na mahalaga sa mga pagpapabuti ng pagganap ay napatunayang ang pinakamalaking limitasyon ng modelo. Dahil ang mga pag-embed ay talagang nagmula sa Bag-of-Words na diskarte, hindi nila makuha ang anumang impormasyon sa konteksto na bahagyang nakuha ng mga hand-crafted linguistic feature sa mga nakaraang modelo. Sa halip na magdagdag ng mga hand-crafted na feature at potensyal na muling ipakilala ang mga kakulangan ng mga nakaraang modelo, ang problema ng kakulangan ng kontekstwal na impormasyon ay natugunan sa pamamagitan ng mekanismo ng atensyon gamit ang LSTM [13] at mga arkitektura ng transpormer. Ang gawain nina Vaswani at Polosukhin [14] ay matagumpay na nakabuo ng modelong BERT gamit ang mga transformer. Dahil sa tagumpay ng modelong BERT at mga arkitektura ng transpormer, maraming mga modelo ng wika na nakabatay sa atensyon ang binuo. Ngayon, sa halip na mga pag-embed ng salita, maaaring makuha ng isa ang pag-embed sa antas ng pangungusap o dokumento na kumukuha ng impormasyon sa konteksto. Gamit ang malalalim na pag-embed na ito, binuo ang mga modelo ng neural network upang mahulaan ang mga marka ng sanaysay (kapwa bilang mga gawain sa pag-uuri at regression).


1.2 Mga Limitasyon ng Kasalukuyang Pamamaraan

Sa kabila ng pag-unlad na ito, umiiral ang matinding limitasyon sa paggamit ng modelong BERT. Lottridge et al. (2021) [10] ay nagpakita ng kakulangan ng katatagan ng modelo para sa mga sanaysay ng laro, random shuffle, at mga sanaysay sa Babel. Malaki ang pagkakaiba-iba ng performance sa iba't ibang klase at sukatan. Upang matugunan ang disbentaha na ito, sa pagsisiyasat na ito, imodelo namin ang lahat ng sukatan nang sabay-sabay sa pamamagitan ng multi-task learning. Ang isa pang pangunahing limitasyon ng pagsusuri na batay sa BERT ay ang haba ng token ay limitado sa 512 sa modelong BERT. Hinahangad naming tugunan ito sa pamamagitan ng paggamit ng mga mas advanced na arkitektura gaya ng Longformer na nagbibigay-daan sa hanggang 4096 na mga token bawat dokumento. Para sa set ng data na isinasaalang-alang sa pag-aaral na ito (mga detalye sa Seksyon 2.1), higit sa 40% ng mga dokumento ay higit sa 512 token ang haba. Samakatuwid, ang pagputol ng dokumento sa 512 na mga token lamang na may karaniwang modelong BERT ay magreresulta sa isang malaking pagkawala sa konteksto. Ang ikatlong pangunahing limitasyon ng iba't ibang pag-aaral ay ang limitadong dataset - kahit na maraming pag-aaral ang nakatutok sa AES, ang bawat isa sa mga dataset na iyon ay magkakaiba ang marka, at dahil dito, ang mga modelo ay hindi madaling sanayin sa lahat ng set ng data. Samakatuwid, sa pag-aaral na ito, sinisiyasat namin ang utility ng mga autoencoder network para sanayin ang mga dataset at gamitin ang autoencoder-derived encodings para magsagawa ng mga gawain sa AES. Sa buod, sinisiyasat ng pag-aaral na ito ang epekto ng iba't ibang deep learning-based na pag-encode ng dokumento sa automated na pagmamarka ng sanaysay. Ang set ng data, pamamaraan, mga eksperimento, at ang mga malalim na pag-embed na isinasaalang-alang sa pag-aaral na ito ay ipinakilala sa Seksyon 2. Bukod sa pag-iiba-iba ng mga malalim na pag-embed, sinusuri namin ang mga paraan upang pagsamahin ang iba't ibang AES dataset sa pamamagitan ng pagsasanay sa mga malalim na pag-encode sa isang network ng Autoencoder. Ang mga resulta mula sa lahat ng mga pamamaraang ito ay ipinakita sa Seksyon 3 at ang mga konklusyon pati na rin ang mga direksyon para sa karagdagang pagsisiyasat ay ibinibigay sa Seksyon 4.

2. Pamamaraan

2.1 Data

Ang Learning Agency Lab, Georgia State University, at Vanderbilt University ay nakakolekta ng malaking bilang ng mga sanaysay mula sa mga ahensya ng estado at pambansang edukasyon, gayundin sa mga non-profit na organisasyon. Mula sa koleksyong ito, nabuo nila ang The Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements (PERSUADE) corpus, na binubuo ng mga argumentative essay na isinulat ng mga mag-aaral sa grade 6-12, at ang English Language Learner Insight, Proficiency and Skills Evaluation. (ELLIPSE) corpus, na binubuo ng mga sanaysay na isinulat ng English Language Learner (ELLs) sa mga baitang 8-12.


ELLIPSE corpus: Ang ELLIPSE corpus ay naglalaman ng mahigit 7,000 sanaysay na isinulat ng mga ELL sa mga baitang 8-12. Ang mga sanaysay na ito ay isinulat bilang bahagi ng state standardized writing assessments mula sa 2018-19 at 2019-20 school years. Ang mga sanaysay sa ELLIPSE corpus ay binigyan ng annotation ng mga taga-rate ng tao para sa mga antas ng kasanayan sa wika gamit ang limang-puntong rubric sa pagmamarka na binubuo ng parehong holistic at analytic na mga sukat. Nakatuon ang holistic na iskala sa pangkalahatang antas ng kasanayan sa wika na ipinakita sa mga sanaysay, samantalang ang mga analytic na sukat ay kinabibilangan ng mga rating ng cohesion, syntax, phraseology, bokabularyo, gramatika, at mga kumbensyon. Ang marka para sa bawat analytic na sukat ay mula 1.0 hanggang 5.0 sa mga pagtaas ng 0.5 na may mas malalaking marka na tumutugma sa higit na kahusayan sa panukalang iyon.


PERSUADE corpus: Ang PERSUADE corpus ay naglalaman ng mahigit 25,000 argumentative essay na isinulat ng mga estudyante sa US sa grade 6-12. Ang mga sanaysay na ito ay isinulat bilang bahagi ng pambansa at estadong standardized writing assessments mula 2010-2020. Ang bawat sanaysay sa PERSUADE corpus ay binigyan ng annotation ng mga human rater para sa mga elemento ng argumentative at diskurso pati na rin ang mga hierarchical na relasyon sa pagitan ng mga elemento ng argumentative. Ang rubric ng anotasyon ay binuo upang matukoy at suriin ang mga elemento ng diskurso na karaniwang makikita sa pagsulat ng argumentative.


Para sa proyektong ito, ginagamit namin ang ELLIPSE corpus at sabay-sabay na hinuhulaan ang marka para sa anim na analytic na sukat: cohesion, syntax, bokabularyo, parirala, grammar, at mga kumbensyon. Bukod pa rito, sinusubukan naming pahusayin ang aming katumpakan ng hula sa pamamagitan ng paggamit ng autoencoder. Ang ideya ay upang sanayin ang isang autoencoder gamit ang ELLIPSE at PERSUADE corpus. Sa pamamagitan ng prosesong ito, maaaring makuha ng naka-compress na feature vector mula sa autoencoder ang mga feature ng mga sanaysay na mahalaga sa pagmamarka na maaaring makaligtaan ng mga feature ng modelo ng wika na nauna nang sinanay.

2.2 Diskarte

Gaya ng nasabi kanina, ang layunin ng proyektong ito ay hulaan ang marka ng anim na analitikong sukat: cohesion, syntax, bokabularyo, parirala, gramatika, at mga kumbensyon sa mga argumentative essay na isinulat ng 8th-12th grade English language learners. Para sa gawaing ito, bubuo muna kami ng baseline at pagkatapos ay gumamit ng maraming pre-trained na modelo upang mapabuti ang baseline.


Baseline : Ang baseline ay binuo gamit ang GloVe embeddings at isang bidirectional LSTM network. Para sa baseline model, ginagawa muna namin ang paglilinis ng data ie ang pag-alis ng mga bantas, pag-alis ng white space, atbp gamit ang regex library at pagkatapos, gamitin ang salitang tokenizer mula sa NLTK para i-tokenize ang mga sanaysay. Ang isang LSTM network ay sinanay sa mga GloVe encoding ng mga sanaysay upang mag-output ng isang vector na may haba na 6 na kumakatawan sa puntos para sa bawat isa sa anim na analytic na sukat sa itaas. Ginagamit namin ang Mean Squared Error loss (MSELoss) para sanayin ang neural network.


DistilBERT : Ang DistilBERT ay isang maliit, mabilis, at magaan na modelo ng Transformer na sinanay sa pamamagitan ng distilling base ng BERT. Mayroon itong 40% na mas kaunting mga parameter kaysa sa bert-base-uncased at tumatakbo nang 60% na mas mabilis habang pinapanatili ang higit sa 95% ng mga performance ng BERT na sinusukat sa GLUE na benchmark sa pag-unawa sa wika. Gumagamit ang BERT ng pansin sa sarili upang makuha ang kontekstwal na impormasyon mula sa buong pagkakasunud-sunod [2]. Pinapabuti nito ang kakayahan ng modelo na suriin ang mga sample ng sanaysay at magbigay ng mas tumpak na marka. Para sa modelong ito, gumagamit kami ng auto tokenizer para i-tokenize ang mga sanaysay at pagkatapos ay ipasa ang mga token na ito sa pre-trained na modelong DistilBERT para makuha ang vector representation ng mga essay. Pagkatapos ay sanayin namin ang isang dalawang-layer na neural network gamit ang MSELoss upang ibalik ang isang 6-dimensional na output vector na kumakatawan sa mga marka para sa bawat isa sa anim na katangian ng pagsulat na inilarawan sa itaas.


Ang T5 : Ang T5 o Text-To-Text Transfer Transformer ay isang modelong encoder-decoder na paunang sinanay sa isang multi-task na pinaghalong hindi pinangangasiwaan at pinangangasiwaang mga gawain at kung saan ang bawat gawain ay na-convert sa isang text-to-text na format. Sa BERT, na pre-trained sa layunin ng Masked LM at Next Sentence Prediction, kailangan nating hiwalay na i-fine-tune ang iba't ibang instance ng pre-trained na modelo sa iba't ibang downstream na gawain tulad ng sequence classification. Ang text-to-text framework ng T5 ay nagbibigay ng isang simpleng paraan upang sanayin ang isang modelo sa iba't ibang uri ng mga gawain sa text gamit ang parehong loss function at decoding procedure. Ang balangkas ng pre-training na ito ay nagbibigay ng modelo ng pangkalahatang layunin na "kaalaman" na nagpapabuti sa pagganap nito sa mga gawain sa ibaba ng agos [12]. Gumamit kami ng auto-tokenizer para i-tokenize ang mga sanaysay at pagkatapos ay ipinasa ang mga token na ito sa pre-trained na T5-Base na modelo para makuha ang vector representation ng mga essay. Pagkatapos ay sanayin namin ang isang dalawang-layer na neural network gamit ang MSELoss upang ibalik ang 6-dimensional na output vector (katulad ng DistilBERT).


RoBERTa-base : Ang RoBERTa ay isa pang tulad-BERT na modelo ng masked language na binuo ng Facebook. Sa kaso ng RoBERTa, ang dynamic na masking ay ginagamit sa buong pagsasanay para sa lahat ng panahon, habang sa BERT ang mask ay static. Sa pamamagitan nito, natututo ang modelo ng mas maraming token kaysa sa BERT. Ang karagdagang pagpapabuti ng pagganap ay nakakamit sa pamamagitan ng pagsasanay sa isang mas malaking corpus ng data kaysa sa BERT (10x) at isang mas malaking hanay ng bokabularyo. Sa pamamagitan ng mga pagbabagong ito sa pagsasanay, nahihigitan ng RoBERTa ang BERT sa karamihan ng mga gawaing GLUE at SQuAD [9].


Longformer : Ang Longformer ay isang BERT-like transformer model na nag-evolve mula sa RoBERTa checkpoint at sinanay bilang Masked Language Model (MLM) sa mahahabang dokumento. Sinusuportahan nito ang mga pagkakasunud-sunod ng haba hanggang 4,096 na mga token. Karaniwan, ang mga modelong nakabatay sa transpormer na gumagamit ng mekanismo ng self-attention ay hindi makakapagproseso ng mahahabang sequence dahil ang memory at computational na kinakailangan ay lumalaki nang quadratically sa haba ng sequence. Ginagawa nitong hindi magagawa ang mahusay na pagproseso ng mahabang pagkakasunud-sunod. Tinutugunan ng mga Longformer ang pangunahing limitasyong ito sa pamamagitan ng pagpapakilala ng mekanismo ng atensyon na linearly na sumusukat sa haba ng pagkakasunud-sunod [1]. Gumagamit ito ng sliding-window at dilat na sliding-window na mekanismo ng atensyon upang makuha ang lokal at pandaigdigang konteksto. Para sa modelo ng Longformer, gumagamit kami ng katulad na diskarte bilang DistilBERT. Gumagamit kami ng auto-tokenizer upang i-tokenize ang mga sanaysay at pagkatapos ay ipasa ang mga token na ito sa pre-trained na Longformer na modelo upang makuha ang vector representasyon ng mga sanaysay. Pagkatapos ay sanayin namin ang isang dalawang-layer na neural network gamit ang MSELoss upang ibalik ang 6-dimensional na output vector (katulad ng DistilBERT).


Gumamit din kami ng gradient accumulation para sanayin ang aming mga modelo sa mas malaking laki ng batch kaysa sa nagawang magkasya ng aming Colab runtime GPU sa memorya nito. Dahil sa malaking sukat ng modelo ng Longformer, nalimitahan kami sa isang batch size na dalawa lang. Ang ganitong maliit na laki ng batch ay magreresulta sa hindi matatag na gradient computations. Iniiwasan namin ito nang may gradient accumulation - sa halip na i-backpropagate ang pagkawala pagkatapos ng bawat pag-ulit, iniipon namin ang pagkawala at i-backpropagate lang ang error pagkatapos ng isang tiyak na bilang ng mga batch upang mapabuti ang katatagan ng mga gradient update [3].

2.3 Pagsusuri

Upang suriin ang katumpakan ng mga hinulaang marka ng aming modelo, gagamitin namin ang mean column root mean squared error (MCRMSE) bilang sukatan. Ang sukatan ay kinakalkula bilang:

2.4 Mga Eksperimento

Pagkatapos ipatupad ang mga modelong inilarawan sa itaas, sinubukan namin ang ilang eksperimento upang mapabuti ang error sa paghula ng mga modelong ito. Ang mga detalye ng mga eksperimentong ito ay nasa ibaba:


  • Quantization ng Output : Sa ELLIPSE corpus, ang marka para sa bawat analytic na sukat ay mula 1.0 hanggang 5.0 sa mga pagtaas ng 0.5 na may mas malaking mga marka na tumutugma sa higit na kahusayan sa panukalang iyon. Binago namin ang aming neural network upang ang output ay napilitan sa pagitan ng 1 at 5. Ginawa namin ito sa pamamagitan ng pagsasama ng isang sigmoid layer kung saan dumadaan ang output at pagkatapos ay i-multiply namin ang output na ito sa 4 at idagdag ang 1 dito. Higit pa rito, kapag nabuo na ang mga resulta mula sa neural net nagsasagawa kami ng mathematical operation score = int[(2 * score + 0.5) / 2] upang matiyak na ang output ay tumataas sa mga hakbang na 0.5 lamang. Nilalayon ng operasyong ito na kopyahin ang format ng mga orihinal na marka at suriin kung ang naturang pagbabago ay nagpapabuti sa katumpakan.


  • Weighted RMSE : Sa ELLIPSE corpus, ang marka para sa bawat analytic measure ay mula 1.0 hanggang 5.0 sa mga increment na 0.5. Gayunpaman, hindi magkatulad ang distribusyon ng bawat marka sa dataset. Ang ilang partikular na marka gaya ng 2.5, 3, at 3.5 ay nangyayari nang mas madalas sa aming dataset para sa bawat isa sa mga analytic na sukat samantalang ang mga marka tulad ng 1, at 5 ay madalang na nagaganap sa kabuuan ng dataset. Upang isaalang-alang ang kawalan ng timbang na ito, gumamit kami ng weighted root mean square error (WRMSE) function kung saan ang kabaligtaran ng frequency ng isang partikular na marka ay ginagamit bilang timbang at pinuputol namin ang timbang na ito kung ito ay napakataas kumpara sa iba pang mga timbang.


  • MultiHead Architecture : Gaya ng nabanggit sa nakaraang seksyon, dahil hindi magkatulad ang distribusyon ng bawat marka sa dataset, nag-eksperimento kami sa pagkakaroon ng final two-layer neural network na tukoy sa sukat para mahulaan ang mga score. Kaya sa halip na iisang output head na hinuhulaan ang 6 na magkakaibang halaga ng marka, nagpatupad kami ng 6 na magkakaibang output head upang mahulaan ang marka para sa bawat analytical measure.


  • Autoencoder : Ang dataset na ibinigay para sa kasalukuyang gawain ng multi-class na pagmamarka ng isang sanaysay ay mga 4k sample lang. Gayunpaman, sa ELLIPSE at PERSUADE corpus na magkasama, mayroong higit sa 180k na sanaysay para sa iba pang mga gawain sa AES, tulad ng mga solong marka para sa buong sanaysay, at mga bahagi ng mga sanaysay. Samakatuwid, ginagamit ang mga autoencoder upang magamit ang mas malaking database na ito at magsagawa ng semi-supervised na pag-aaral. Sa madaling sabi, ang mga pag-encode mula sa mga modelo ng wika tulad ng BERT, T5 ay ipinapasa sa isang autoencoder network na sinanay gamit ang lahat ng 180k na sample. Pagkatapos, alinman sa bottleneck layer encoding o ang denoised language model encodings mula sa decoder na bahagi ng autoencoder ay ginagamit upang mahulaan ang mga multi-class na marka gamit ang isang 2-layer na neural network para sa regression head, katulad ng ganap na pinangangasiwaang senaryo. Kaya, sa pamamagitan ng paggamit ng mas malaking hanay ng walang label na data upang sanayin ang isang autoencoder bilang isang preprocessor, sinisikap naming mapabuti ang pinangangasiwaang mga hula sa pag-aaral. Sa pag-aaral na ito, isinasaalang-alang namin ang parehong mga denoised encoding batay sa DistilBERT encodings.

3. Mga Resulta at Talakayan

Epekto ng Pre-trained Encodings : Ang Talahanayan 1 ay nagbubuod sa sukatan ng pagganap na nakuha sa pamamagitan ng pag-iiba-iba ng mga pre-trained na modelo na inilarawan sa Seksyon 2.2. Sa mga pagpapatakbong ito, ang mga pag-encode mula sa mga pre-trained na modelo ay direktang ipinapasa sa isang 2-layer na neural network na sinanay gamit ang pagkawala ng MSE, at wala sa mga potensyal na pagpapahusay na tinalakay sa Seksyon 2.4 ang ipinatupad. Dahil ito ay isang multi-class regression, ang pagganap ng mga modelo para sa bawat sukatan ng pagmamarka ay ipinapakita sa Talahanayan 3.


Kabilang sa mga arkitektura ng transformer na nakalista sa Talahanayan 1, nakita namin na ang mga modelo ng masked language na DistilBERT, RoBERTa, at Longformer ay mas mahusay na gumaganap kaysa sa generative model na T5 - posibleng dahil ang mga masked na modelo ay mas nakatutok sa mga gawaing diskriminatibo na may mga numeric na output. Ang karagdagang pananaliksik ay kinakailangan upang tapusin kung ito ay maaaring gawing pangkalahatan para sa maramihang mga generative na modelo ng wika. Sa pangkalahatan, ang RoBERTa ang may pinakamahusay na marka ng hula sa iba't ibang mga modelo, malamang dahil sa mas malaking training corpus nito at superior masking.

Talahanayan 1: Pangkalahatang marka ng MCRMSE para sa iba't ibang modelo

Modelo

MCRMSE metric

Baseline

1.36

DistilBERT

0.4934

T5-base

0.5320

ROBERTa

0.4746

Longformer

0.4899


Epekto ng mga pagpapabuti sa regression head : Dati, ginalugad namin ang epekto ng iba't ibang input sa regression head (ibig sabihin, sa pamamagitan ng pag-iiba-iba ng mga pre-trained na modelo at ang mga encodings doon), habang pinapanatili ang pare-parehong pagsasanay sa regression head. Sa seksyong ito, tinutuklasan namin ang epekto ng pag-iiba-iba ng pagsasanay ng regression head habang pinapanatili ang mga pag-encode na pare-pareho. Inililista ng Seksyon 2.4 ang iba't ibang pagbabago sa pagsasanay sa regression na ginalugad sa pag-aaral na ito. Tandaan na sa buong seksyong ito, ginagamit ang modelong DistilBERT dahil ito ang pinakamabilis na modelo at may mas mababang mga kinakailangan sa GPU. Ang mga resulta para sa iba't ibang mga scheme ng pagsasanay/pagpapahusay ay ipinapakita sa Talahanayan 2.

Talahanayan 2: Marka ng MCRMSE para sa iba't ibang modelo

Eksperimento

MCRMSE

Quantization ng Output

0.5294

Timbang na RMSE

0.5628

Arkitektura ng MultiHead

0.508

Autoencoder Denoising

0.575


Sa kasamaang palad, wala sa mga variation na ito sa pagsasanay sa modelo ng regression ang nagreresulta sa isang makabuluhang pagpapabuti sa katumpakan ng hula kung ihahambing sa aming mga orihinal na modelo. Sa katunayan, ang sukatan ng pagganap sa set ng pagpapatunay sa Talahanayan 2 ay nagpapahiwatig ng pagbaba sa pagganap sa mga pagbabagong ito. Hindi malinaw kung bakit nangyayari ang pagbawas na ito at ang karagdagang pag-aaral na may mas malaking dataset ay mahalaga upang ma-verify na ang pagbawas sa performance na ito ay hindi isang artifact.


Para sa lahat ng variation sa text encoding at regression head training, napapansin namin mula sa validation na mga marka ng MCRMSE para sa mga indibidwal na hakbang na ang pagkakaisa at grammar ay tila ang pinakamahirap hulaan sa lahat ng mga modelo (tingnan ang Talahanayan 3). Ito ay maaaring isang limitasyon ng mga pre-trained na modelo ng wika na ginamit sa AES at hindi ang aming pagmomodelo. Kim et al. (2020) [5] ay nagpapakita ng mga limitasyon ng kasalukuyang mga modelo ng wika sa pagiging may kaalaman sa gramatika at nagbibigay ng mga direksyon para sa karagdagang pag-unlad sa mga modelo ng wika.

Talahanayan 3: MCRMSE score para sa indibidwal na analytic measure

Modelo (o Exp.)

Pagkakaisa

Syntax

Talasalitaan

Phraseology

Balarila

Mga kombensiyon

Baseline

1.37

1.35

1.32

1.34

1.44

1.36

distilBERT

0.54

0.51

0.46

0.52

0.57

0.49

T5-Base

0.55

0.52

0.48

0.54

0.58

0.53

ROBERTa

0.51

0.47

0.42

0.47

0.51

0.46

Longformer

0.54

0.48

0.46

0.49

0.53

0.47

distilBERT + output quantization

0.55

0.53

0.48

0.53

0.57

0.51

distilBERT + WRMSE

0.56

0.56

0.55

0.56

0.61

0.53

distilBERT + Multi Head Arch.

0.53

0.50

0.45

0.51

0.56

0.49

Autoencoder + distilBERT

0.59

0.56

0.52

0.56

0.61

0.55


4. Konklusyon

Sa gawaing ito, inimbestigahan namin ang epekto ng iba't ibang pre-trained na mga arkitektura at pamamaraan para sanayin ang regression head sa Automated Essay Scoring na gawain, kung saan binibigyan namin ng marka ang bawat sanaysay sa sukat na 1 hanggang 5 para sa anim na sukatan ng lingguwistika (hal., cohesion, grammar, bokabularyo , atbp.). Ang dataset ay kinuha mula sa ELLIPSE corpus, partikular ang subset ng data na nakalista sa mga kumpetisyon sa Kaggle. Isinaalang-alang namin ang limang deep-learning na arkitektura at limang paraan para sanayin ang regression head at naobserbahan ang paggamit ng RoBERTa-base na may simpleng 2-layer na feed-forward na layer upang mahulaan ang mga score dahil ang multi-class na output ay nagbigay ng pinakamahusay na resulta.


Gaya ng inaasahan, higit na nalampasan ng mga arkitektura ng transformer ang baseline model ng GloVe+LSTM. Higit pa rito, sa loob ng mga arkitektura ng transpormer, nakikita natin na ang mga modelo ng naka-maskarang wika (DistilBERT, RoBERTa, Longformer) ay nagbibigay ng higit na mahusay na pagganap kapag inihambing sa generative na modelo ng wika na T5. Bagama't ang pagmamasid na ito ay hindi pangkalahatan sa lahat ng mga generative na modelo, intuitively ang pangingibabaw ng MLM ay tila pare-pareho habang sila ay partikular na sinanay para sa mga numerical na output.


Ang isa pang kawili-wiling obserbasyon ng pag-aaral na ito ay ang pag-iiba-iba ng pagsasanay ng regression head sa pamamagitan ng pagpapalit ng mga function ng pagkawala, pagpigil sa mga output, at pagbabawas/pag-denoising ng dimensyon na nakabatay sa autoencoder, kasama ang pagpapalaki ng data, ay hindi nagpabuti sa pagganap ng modelo. Ito ay medyo hindi inaasahan, at hindi namin lubos na nauunawaan ang mga dahilan sa likod ng hindi pangkaraniwang bagay na ito. Sa isang pag-aaral sa hinaharap, ang mga diskarteng ito ay maaaring ulitin gamit ang isang mas malaking dataset - nakakatulong ito na matukoy kung ang mga obserbasyon na ito tungkol sa pagsasanay sa regression head ay maaaring gawing pangkalahatan.


Sa buod, napagmasdan namin na ang paggamit ng RoBERTa encodings na may 2-layer feed-forward neural net para mahulaan ang anim na score nang sabay-sabay, katulad ng multi-task learning, ay nagbibigay ng pinakamahusay na performance. Lalo na, dahil sa maliit na sukat ng dataset, ang epekto ng paggamit ng isang matatag na pre-trained na modelo ay nakikita na makabuluhang mapabuti ang predictive na pagganap ng modelo. Gayundin, ang pagganap sa pagsusuri sa gramatika ng sanaysay ay mas malala kaysa sa anumang iba pang sukatan ng pagsusuri, at ito ay likas sa modelo ng wika. Samakatuwid, ang mga gawain sa hinaharap ay dapat tumuon sa pagpapabuti ng mga modelo ng wika upang mas mahusay na makuha ang mga aspeto ng gramatika ng wika.

Mga sanggunian

  1. Iz Beltagy, Matthew E Peters, at Arman Cohan. 2020. Longformer: Ang long-document transpormer. arXiv preprint arXiv:2004.05150 .
  2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, at Kristina Toutanova. 2018. BERT: Pre-training ng deep bidirectional transformers para sa pag-unawa sa wika. arXiv preprint arXiv:1810.04805 .
  3. Joeri R Hermans, Gerasimos Spanakis, at Rico Möckel. 2017. Naipon na gradient normalization. Sa Asian Conference on Machine Learning , pahina 439–454. PMLR.
  4. Zixuan Ke at Vincent Ng. 2019. Automated essay scoring: Isang survey ng state of the art. Sa IJCAI , vol. 19, pp. 6300-6308.
  5. Taeuk Kim, Jihun Choi, Daniel Edmiston, at Sang-goo Lee. 2020. Alam ba ng mga pre-trained na modelo ng wika ang mga parirala? Simple ngunit matibay na baseline para sa grammar induction.
  6. Ang Learning Agency Lab. 2022a. Premyo ng feedback - pag-aaral ng wikang Ingles.
  7. Ang Learning Agency Lab. 2022b. Premyo ng feedback - Pagsusuri sa pagsulat ng mag-aaral.
  8. Ang Learning Agency Lab. 2022c. Premyo ng feedback - Paghuhula ng mga epektibong argumento.
  9. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, at Veselin Stoyanov. 2019. Roberta: Isang mahusay na na-optimize na diskarte sa pretraining ng bert. arXiv preprint arXiv:1907.11692.
  10. Sue Lottridge, Ben Godek, Amir Jafari, at Milan Patel. 2021. Paghahambing ng tibay ng malalim na pag-aaral at mga klasikal na automated na diskarte sa pagmamarka sa mga diskarte sa paglalaro. Teknikal na ulat - Cambium Assessment Inc.
  11. Huyen Nguyen at Lucio Dery. 2016. Neural network para sa automated essay grading. Mga Ulat ng CS224d Stanford: 1-11.
  12. Adam Roberts at Colin Raffel. 2020. Pag-explore ng transfer learning gamit ang T5: ang text-to-text transfer transformer. Na-access sa, pahina 23–07.
  13. Kaveh Taghipour at Hwee Tou Ng. 2016. Isang neural approach sa automated essay scoring. Sa Proceedings of the 2016 conference on empirical method in natural language processing, pp. 1882-1891.
  14. Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Łukasz Kaiser Vaswani, Ashish at Illia Polosukhin. 2017. Atensyon lang ang kailangan mo. Mga pag-unlad sa sistema ng pagproseso ng neural na impormasyon, 30.