paint-brush
Uly dil modellerini ulanyp awtomatlaşdyrylan esse baha bermektarapyndan@junaidsyed
764 oka
764 oka

Uly dil modellerini ulanyp awtomatlaşdyrylan esse baha bermek

tarapyndan Junaid Syed15m2024/10/12
Read on Terminal Reader

Örän uzyn; Okamak

Bu kagyz, bitewi, grammatika we ýerliklilik ýaly subýektiw aýratynlyklar sebäpli düzme ýazmagyň kynlygyny nygtap, Awtomatlaşdyrylan düzme skoriniň (AES) kynçylyklaryny çözýär. Gözleg, alty sany analitiki ölçege gönükdirilip, has köp esse işlemek üçin köp wezipeli okuwy, awtoenkoder torlaryny we Longformer ýaly öňdebaryjy modelleri ulanmak arkaly häzirki usullardan gowulaşmagy teklip edýär. BERT ýaly modeller bilen ep-esli öňe gidişlige garamazdan, uzynlygyň çäklendirilmegi we kontekst taýdan düşünişmezlik ýaly meseleler dowam edýär. Kagyz, AES-iň takyklygyny we adalatlylygyny ýokarlandyrmak üçin resminama kodlamalaryny goşmak bilen çözgütleri öwrenýär.
featured image - Uly dil modellerini ulanyp awtomatlaşdyrylan esse baha bermek
Junaid Syed HackerNoon profile picture
0-item

Uthorsazyjylar:

  • Junaid Syed, Jorjiýa Tehnologiýa Instituty
  • Saý Şanbhag, Jorjiýa Tehnologiýa Instituty
  • Wamsi Krişna Çakrawarti, Jorjiýa Tehnologiýa Instituty


Awtomatlaşdyrylan esse baha bermek (AES), onlarça ýyl bäri öwrenilen nusgawy NLP meselesidir. AES-iň köp amaly ähmiýeti we ägirt uly ykdysady potensialy bar - AES iri bäsdeşlik synaglarynyň (mysal üçin SAT, GRE) we ösýän onlaýn okuw bazary üçin özen bolup durýar. Bil we Melinda Geýts gaznasy we Zukerberg-Çan başlangyjy ýaly birnäçe haýyr-sahawat we telekeçilik däl guramalar AES-de birnäçe Kaggle ýaryşyny maliýeleşdirdi [6, 7, 8]. Şeýle-de bolsa, bu tagallalara garamazdan, düzme ýazmakda düýpli kynçylyklar sebäpli mesele çözülmeli däl. Esse baha bermek ýokary subýektiw bolup, hasaplamak kyn bolan jebislik, grammatika, ýerliklilik we ş.m. ýaly abstrakt faktorlary öz içine alýar. Netijede, grammatika, utgaşyklyk we ş.m. ýaly aýratynlyklar boýunça düzme granular reýtingi bolan okuw maglumatlary üçin bellikleri almak gaty gymmat. Netijede, (maskaly) Dil modelleri, NER, POS belligi, maşyn terjimesi we ş.m. ýaly beýleki NLP meseleleri bilen deňeşdirilende okuw maglumatlary toplumy gaty çäklidir. Mundan başga-da, ýönekeý umumy bal bermek okuwçynyň pikirini az görkezýär ösüşinde okuwçylara kömek etme. Şonuň üçin häzirki tagallalar ýekeje bal däl-de, granular taraplar boýunça düzme baha bermäge gönükdirilendir. Bu, şeýle hem çakdanaşa laýyk gelmezlige kömek edýär, sebäbi çaklama modeli indi diňe bir ölçeg däl-de, ähli ölçeglerde gowy işlemeli, esasanam, köp wezipeli model hökmünde pikir edip bolar. Häzirki gözlegde, alty ölçege ünsi jemleýäris: jebislik, sintaksis, söz baýlygy, frazeologiýa, grammatika we konwensiýalar.


1.1 Edebiýat gözleg

2010-njy ýyllardan ozal AES modelleriniň köpüsi hasaplaýyş dilçileri tarapyndan döredilen elde ýasalan aýratynlyklara daýanýardy [10, 4]. Şeýle-de bolsa, bu modeller adatça käbir aýratynlyklara (meselem, düzme uzynlygy) ikitaraplaýyn garaýardy we mowzuklar we ölçegler boýunça umumylaşdyryp bilmedi. El bilen ýasalan aýratynlyklara bolan gapma-garşylyk, olary Word2Vec we GloVe ýaly dil modelleri tarapyndan öwrenilen söz ornaşdyrmak bilen çözüldi. Bu söz goýmalaryna esaslanyp, düzme ballary regressiýa we klassifikasiýa meseleleri hökmünde sözleriň aşaky akymyna nerw ulgamyny goşmak bilen çak edilýärdi. Uly korpusda tälim berlen nagyşlary ulanmak bilen, ähli ölçegler üçin düzme ballarynda we umumy balda ep-esli gowulaşma bolýar [11]. Şeýle-de bolsa, öndürijiligi gowulandyrmak üçin möhüm ähmiýete eýe bolan söz goýmasy, modeliň iň uly çäklendirmesi bolup çykdy. Içerki sözler, esasan, “Bag-of-Words” çemeleşmesinden gelip çykanlygy sebäpli, öňki modellerde elde ýasalan lingwistik aýratynlyklar bilen bölekleýin ele alnan kontekstli maglumatlary alyp bilmedi. El bilen ýasalan aýratynlyklary goşmagyň we öňki modelleriň kemçiliklerini täzeden açmagyň ýerine, kontekstdäki maglumatlaryň ýoklugy meselesi LSTM [13] we transformator arhitekturasy arkaly üns mehanizminiň üsti bilen çözüldi. Vaswani bilen Polosuhiniň [14] işi transformatorlary ulanyp BERT modelini üstünlikli ösdürdi. BERT modeliniň we transformator arhitekturasynyň üstünliginden tolgundyrylan köp sanly dil modelleri döredildi. Indi söz goýmagyň ýerine kontekstdäki maglumatlary alýan sözlemi ýa-da resminama derejesinde goýmagy alyp bolýar. Bu çuňňur ornaşdyryşlary ulanyp, düzme ballaryny çaklamak üçin neýron ulgam modelleri döredilýär (klassifikasiýa we regressiýa meseleleri hökmünde).


1.2 Häzirki çemeleşmeleriň çäklendirmeleri

Bu öňe gidişlige garamazdan, BERT modelini ulanmak bilen düýpli çäklendirmeler bar. Lottridge we ş.m. (2021) [10] oýun oçerkleri, tötänleýin üýtgetmek we Babel eserleri üçin modeliň berkliginiň ýokdugyny görkezdi. Öndürijilik dürli synplarda we ölçeglerde düýpgöter üýtgeýär. Bu kemçiligi çözmek üçin bu derňewde köp ölçegli okuw arkaly ähli ölçegleri bir wagtda modelleşdireris. BERT esasly derňewiň ýene bir esasy çäklendirmesi, belligiň uzynlygynyň BERT modelinde 512 bilen çäklenmegidir. “Longformer” ýaly has ösen arhitekturalary ulanyp, her resminama 4096 belgä çenli rugsat bermäge synanyşýarys. Bu gözlegde göz öňünde tutulan maglumatlar üçin (2.1 bölümdäki jikme-jiklikler) resminamalaryň 40% -den gowragy 512 belgiden gowrakdyr. Şonuň üçin resminamany adaty BERT modeli bilen diňe 512 belgi bilen kesmek kontekstde ep-esli ýitgä sebäp bolar. Dürli gözlegleriň üçünji esasy çäklendirmesi çäkli maglumat toplumydyr - köp gözlegler AES-e gönükdirilen hem bolsa, şol maglumatlar bazalarynyň hersi başgaça bal alýar we şonuň üçin modeller ähli maglumatlar toplumynda aňsat taýýarlanyp bilinmeýär. Şonuň üçin bu gözlegde, maglumatlar bazalarynda tälim bermek we AES meselelerini ýerine ýetirmek üçin awtoenkoder kodlaryny ulanmak üçin awtoenkoder torlarynyň peýdalydygyny öwrenýäris. Gysgaça aýdylanda, bu gözleg dürli çuňňur öwreniş esasly resminama kodlamalarynyň awtomatiki düzme ballaryna täsirini öwrenýär. Bu işde göz öňünde tutulan maglumatlar toplumy, usulyýet, synaglar we çuňňur goýmalar 2-nji bölümde girizilýär. Çuňňur goýulmalary üýtgetmekden başga-da, “Autoencoder” ulgamyndaky çuňňur kodlamalary öwretmek arkaly dürli AES maglumat bazalaryny birleşdirmegiň usullaryny seljerýäris. Bu çemeleşmeleriň netijeleri 3-nji bölümde görkezilýär we netijeler we goşmaça derňewler 4-nji bölümde berilýär.

2. Usulyýet

2.1 Maglumatlar

Okuw gullugy laboratoriýasy, Jorjiýa döwlet uniwersiteti we Vanderbilt uniwersiteti döwlet we milli bilim edaralaryndan, şeýle hem telekeçilik däl guramalardan köp sanly esse ýygnady. Bu ýygyndydan, 6-12-nji synp okuwçylary tarapyndan ýazylan argumentli oçerklerden we Iňlis dilini öwrenýänleriň düşünjesi, ussatlygy we başarnyklaryna baha bermek, baha bermek, saýlamak we düşünmek üçin ynandyryjy eserler (PERSUADE) korpusyny taýýarladylar. (ELLIPSE) korpus, Iňlis dilini öwreniji (ELLs) tarapyndan 8-12-nji synplarda ýazylan oçerklerden durýar.


ELLIPSE korpusy: ELLIPSE korpusynda ELL-leriň 8-12-nji synplarda ýazan 7000-den gowrak essesi bar. Bu oçerkler, 2018-19 we 2019-20 okuw ýyllaryndaky döwlet standartlaşdyrylan ýazuw bahalandyrmalarynyň bir bölegi hökmünde ýazyldy. ELLIPSE korpusynda ýazylan eserler, umumy baha we analitiki terezini öz içine alýan bäş ballyk rubrikany ulanyp, dil biliş derejesi üçin adam baha berijileri tarapyndan düşündiriş berildi. Bitewi masştab, esselerde görkezilen umumy dil biliş derejesine gönükdirildi, analitiki terezilerde jebislik, sintaksis, frazeologiýa, söz baýlygy, grammatika we konwensiýalar bar. Her bir seljeriş çäresi üçin bal, bu ölçegde has ýokary hünär derejesine laýyk gelýän has köp bal bilen 0,5 artdyrylanda 1,0 bilen 5.0 aralygynda bolýar.


PERSUADE korpusy: PERSUADE korpusynda ABŞ-nyň okuwçylarynyň 6-12-nji synplarda ýazan 25,000-den gowrak argumentli düzme bar. Bu esseler, 2010-2020-nji ýyllar aralygynda milli we döwlet standartlaşdyrylan ýazuw bahalandyrmalarynyň bir bölegi hökmünde ýazyldy. PERSUADE korpusynda ýazylan her bir düzme, argumentli we diskussiýa elementleri, argumentli elementleriň arasyndaky iýerarhiki gatnaşyklar üçin adam baha berijileri tarapyndan düşündirilipdir. Annotasiýa rubrikasy köplenç argumentli ýazuwda duş gelýän disk elementlerini kesgitlemek we baha bermek üçin işlenip düzüldi.


Bu taslama üçin ELLIPSE korpusyny ulanýarys we şol bir wagtyň özünde alty analitik çäräniň balyny çaklaýarys: birleşmek, sintaksis, söz baýlygy, frazeologiýa, grammatika we konwensiýa. Mundan başga-da, awtoenkoder ulanyp, çaklama takyklygymyzy ýokarlandyrmaga synanyşýarys. Bu pikir, ELLIPSE we PERSUADE korpusyny ulanyp, awtomatiki kodlaýjyny taýýarlamakdyr. Bu amalyň üsti bilen, awtoenkoderden gysylan aýratynlyk wektory, öňünden taýýarlanylan dil model aýratynlyklarynyň sypdyryp biläýjek gollaryny ýazmak üçin zerur bolan esseleriň aýratynlyklaryny ele alyp biler.

2.2 çemeleşme

Ozal bellenip geçilişi ýaly, bu taslamanyň maksady alty sany analitiki çäräniň balyny çaklamakdyr: birleşmek, sintaksis, söz baýlygy, frazeologiýa, grammatika we 8-12-nji synp iňlis dilini öwrenýänler tarapyndan ýazylan argumentli esseler boýunça konwensiýalar. Bu ýumuş üçin ilki bilen esasy binýady düzýäris, soň bolsa esasy binýady gowulaşdyrmak üçin öňünden taýýarlanan birnäçe modeli ulanýarys.


Esasy : GloVe goýmalary we iki taraplaýyn LSTM toruny ulanyp işlenip düzüldi. Esasy model üçin ilki bilen regex kitaphanasyny ulanyp, maglumatlary dyngy belgilerini aýyrmak, ak boşlugy aýyrmak we ş.m. arassalaýarys, soň bolsa esseleri bellemek üçin NLTK-dan tokenizer sözüni ulanýarys. Eserleriň GloVe kodlamalarynda LSTM ulgamy, ýokardaky alty analitiki çäräniň hersiniň balyny görkezýän 6 uzynlyk wektoryny çykarmak üçin taýýarlanýar. Nerw ulgamyny türgenleşdirmek üçin ortaça kwadrat ýalňyşlyk ýitgisini (MSELoss) ulanýarys.


DistilBERT : DistilBERT, BERT bazasyny distillirlemek arkaly taýýarlanan kiçi, çalt we ýeňil Transformator modelidir. “BERT-base” -den 40% az parametr bar we GLUE diline düşünmek ölçeginde ölçelýän BERT çykyşlarynyň 95% -den gowragyny gorap saklamak bilen 60% has çalt işleýär. BERT kontekstdäki maglumatlary tutuş yzygiderlilikden almak üçin öz-özüne ünsi ulanýar [2]. Bu, modeliň düzme nusgalaryna baha bermek we has takyk bal bermek ukybyny ýokarlandyrýar. Bu model üçin, esseleri bellemek üçin awtomatik tokenizator ulanýarys we esseleriň wektor görnüşini almak üçin bu bellikleri öňünden taýýarlanan DistilBERT modeline geçirýäris. Soňra ýokarda beýan edilen alty ýazuw häsiýetiniň hersiniň ballaryny görkezýän 6 ölçegli çykyş wektoryny yzyna gaýtarmak üçin MSELoss ulanyp, iki gatly nerw ulgamyny taýýarlaýarys.


T5 : T5 ýa-da Tekstden Tekste Geçiriji Transformator, gözegçilik edilmeýän we gözegçilik edilýän meseleleriň köp wezipeli garyndysynda öňünden taýýarlanan we her bir mesele tekst-tekste öwrülýän kodlaýjy-dekoder modelidir. Maskaly LM we Indiki sözlemi çaklamak maksady bilen öňünden taýýarlanan BERT bilen, yzygiderli klassifikasiýa ýaly dürli aşaky meselelerde öňünden taýýarlanan modeliň dürli mysallaryny aýratyn düzmeli. T5-den-tekst çarçuwasy, şol bir ýitgi funksiýasyny we kodlaşdyrma prosedurasyny ulanyp, dürli tekst meselelerinde ýeke-täk modeli taýýarlamagyň ýönekeý usulyny üpjün edýär. Bu okuwdan öňki çarçuwa, modeli aşaky maksatlardaky işini gowulandyrýan umumy maksatly “bilim” bilen üpjün edýär [12]. Eserleri bellemek üçin awtomatik tokenizator ulandyk we bu bellikleri wektorlaryň wekilçiligini almak üçin bu bellikleri öňünden taýýarlanan T5-Base modeline geçirdik. Soňra 6 ölçegli çykyş wektoryny (DistilBERT meňzeş) yzyna gaýtarmak üçin MSELoss ulanyp, iki gatly nerw ulgamyny taýýarlaýarys.


RoBERTa-base : RoBERTa, Facebook tarapyndan işlenip düzülen BERT ýaly maskaly dil modelidir. RoBERTa ýagdaýynda, ähli döwürler üçin okuwyň dowamynda dinamiki maska ulanylýar, BERT-de bolsa maska statik. Munuň üsti bilen, model BERT-den has köp bellikleri öwrenýär. Has öndürijiligi gowulandyrmak, BERT (10x) -dan has uly maglumat toplumy we has uly söz toplumy boýunça taýýarlyk arkaly gazanylýar. Okuwdaky bu üýtgeşmeler arkaly, RoBERTa GLUE we SQuAD meseleleriniň köpüsinde BERT-den öňe geçýär [9].


Longformer : Longformer, RoBERTa barlag nokadyndan ösen we uzyn resminamalarda Maskaly dil modeli (MLM) hökmünde taýýarlanan BERT meňzeş transformator modelidir. Uzynlygy 4096 belgä çenli yzygiderliligi goldaýar. Adatça, öz-özüne üns bermek mehanizmini ulanýan transformator esasly modeller uzak yzygiderliligi gaýtadan işläp bilmeýärler, sebäbi ýat we hasaplama talaplary yzygiderlilik uzynlygy bilen dört gezek ösýär. Bu uzyn yzygiderliligi netijeli işlemegi aňsatlaşdyrýar. Uzyn işleýänler yzygiderlilik uzynlygy bilen çyzykly terezini çekýän üns mehanizmini girizmek arkaly bu esasy çäklendirmäni çözýärler [1]. Localerli we global konteksti ele almak üçin süýşýän penjire we süýşürilen süýşýän penjire ünsi mehanizmini ulanýar. “Longformer” modeli üçin DistilBERT ýaly çemeleşmäni ulanýarys. Esseleri bellemek üçin awtomatik tokenizator ulanýarys we bu bellikleri wektorlaryň wekilçiligini almak üçin bu bellikleri öňünden taýýarlanan Longformer modeline geçirýäris. Soňra 6 ölçegli çykyş wektoryny (DistilBERT meňzeş) yzyna gaýtarmak üçin MSELoss ulanyp, iki gatly nerw ulgamyny taýýarlaýarys.


Şeýle hem, modellerimizi “Colab” iş wagty GPU-nyň ýadyna salyp bilýäninden has uly partiýa ululygynda türgenleşdirmek üçin gradient ýygnamagyny ulandyk. “Longformer” modeliniň uly göwrümi sebäpli, diňe iki sany partiýa ululygy bilen çäklenýärdik. Şeýle kiçi partiýa ululygy durnuksyz gradient hasaplamalaryna sebäp bolar. Muny gradient ýygnamak bilen ýeňip geçýäris - her gezek gaýtalanylandan soň ýitgini köpeltmegiň ýerine, ýitgini ýygnaýarys we gradient täzelenmeleriniň durnuklylygyny ýokarlandyrmak üçin diňe belli bir topar partiýadan soň ýalňyşlygy köpeldýäris [3].

2.3 Baha bermek

Modelimiziň çak edilýän ballarynyň takyklygyna baha bermek üçin, sütün köküniň ortaça kwadrat ýalňyşlygyny (MCRMSE) ölçeg hökmünde ulanarys. Metrik şeýle hasaplanýar:

2.4 Synaglar

Aboveokarda beýan edilen modelleri durmuşa geçirenimizden soň, bu modelleriň çaklama ýalňyşlygyny gowulandyrmak üçin birnäçe synag geçirdik. Bu synaglaryň jikme-jiklikleri aşakdaky ýaly:


  • Çykyş mukdary : ELLIPSE korpusynda her analitik çäräniň baly 1,0 bilen 5.0 aralygynda 0,5 artdyrylýar, bu ölçegde has ýokary hünär derejesine laýyk gelýän has köp bal bolýar. Nerw ulgamymyzy üýtgetdik, çykyş 1 bilen 5 aralygynda çäklendirilýär. Çykyşyň geçýän sigmoid gatlagyny goşup, bu çykyşy 4-e köpeldýäris we oňa 1 goşýarys. Mundan başga-da, netijeler nerw torundan emele gelensoň, çykyşyň diňe 0,5 ädimde ýokarlanýandygyna göz ýetirmek üçin matematiki operasiýa balyny = int [(2 * ball + 0.5) / 2] ýerine ýetirýäris. Bu amal, asyl ballaryň formatyny köpeltmäge we şeýle üýtgetmäniň takyklygyny ýokarlandyrýandygyna göz ýetirmäge gönükdirilendir.


  • Agramly RMSE : ELLIPSE korpusynda her analitik çäräniň baly 0,5-den 5.0-a çenli üýtgeýär. Şeýle-de bolsa, maglumatlar bazasyndaky her balyň paýlanyşy meňzeş däl. 2.5, 3 we 3.5 ýaly käbir ballar, analitiki çäreleriň her biri üçin maglumatlar bazamyzda köplenç ýüze çykýar, 1 we 5 ýaly ballar maglumatlar bazasynda seýrek bolýar. Bu deňagramsyzlygy hasaba almak üçin, agramly kök ortaça kwadrat ýalňyşlyk (WRMSE) funksiýasyny ulandyk, bu ýerde belli bir balyň ýygylygynyň tersi agram hökmünde ulanylýar we beýleki agramlar bilen deňeşdirilende gaty ýokary bolsa, bu agramy kesýäris.


  • “MultiHead Arhitekturasy” : Öňki bölümde aýdylyşy ýaly, maglumatlar bazasyndaky her balyň paýlanyşy meňzeş däldigi sebäpli, ballary çaklamak üçin belli bir gutarnykly iki gatly nerw ulgamynyň bolmagy bilen synag etdik. Şeýlelik bilen, 6 dürli bal bahasyny çaklaýan ýekeje çykyş kellesiniň ýerine, her analitiki çäre üçin baly çaklamak üçin 6 dürli çykyş kellesini amala aşyrdyk.


  • “Autoencoder” : Düzme köp synply gol salmagyň häzirki meselesi üçin berlen maglumat toplumy bary-ýogy 4k nusga. Şeýle-de bolsa, “ELLIPSE” we “PERSUADE” korpusynda beýleki AES meseleleri üçin 180k-den gowrak düzme bar, meselem, ähli esseler üçin ýekeje bal we esseleriň bölekleri. Şonuň üçin awtoenkoderler bu has uly maglumat bazasyny ulanmak we ýarym gözegçilikli okuwy geçirmek üçin ulanylýar. Gysgaça aýdylanda, BERT, T5 ýaly dil modellerinden kodlamalar, 180k nusgalaryň hemmesini ulanyp tälim berlen awtoenkoder torundan geçýär. Soň bolsa, ýa-da doly gözegçilik edilýän ssenariýa meňzeş, regressiýa kellesi üçin 2 gatly nerw ulgamyny ulanyp, köp synply ballary çaklamak üçin awtomatiki kodlaýjynyň dekodirlenen böleginden ýa-da kesgitlenen dil modeli kodlamalary ulanylýar. Şeýlelik bilen, awtoenkoderi deslapky prosessor hökmünde taýýarlamak üçin ýazylmadyk maglumatlaryň has uly toplumyny ulanyp, gözegçilik edilýän okuw çaklamalaryny gowulaşdyrmaga synanyşýarys. Bu gözlegde, DistilBERT kodlamalaryna esaslanýan denodirlenen kodlamalaryň ikisini hem göz öňünde tutduk.

3. Netijeler we çekişme

Öňünden taýýarlanan kodlamalaryň täsiri : 1-nji tablisada 2.2-nji bölümde beýan edilen deslapky taýýarlanan modelleri üýtgetmek arkaly alnan öndürijilik ölçegi jemlenendir. Bu işlerde, öňünden taýýarlanan modellerden kodlamalar, MSE ýitgisini ulanmak arkaly tälim alýan 2 gatly nerw torundan gönüden-göni geçýär we 2.4-nji bölümde ara alnyp maslahatlaşylan potensial gowulaşmalaryň hiç biri amala aşyrylmaýar. Bu köp synply regressiýa bolany üçin, her bir hasaplaýyş ölçegi üçin modelleriň öndürijiligi 3-nji tablisada görkezilýär.


1-nji tablisada görkezilen transformator arhitekturasynyň arasynda maskaly dil modelleriniň DistilBERT, RoBERTa we Longformer T5 dörediji modelinden has gowy ýerine ýetirýändigini görýäris - belki, maskaly modeller san netijeleri bilen diskriminasiýa meselelerine has sazlanan bolmagy mümkin. Köp döredijilikli dil modelleri üçin umumylaşdyrylyp bilinjekdigi barada netijä gelmek üçin has köp gözleg gerek. Umuman aýdanyňda, RoBERTa dürli modelleriň arasynda iň gowy çaklama balyna eýe, has uly tälim korpusy we ýokary maskalanmagy sebäpli.

1-nji tablisa: Dürli modeller üçin umumy MCRMSE bal

Model

MCRMSE ölçegi

Esasy

1.36

DistilBERT

0.4934

T5-esas

0.5320

RoBERTa

0.4746

Uzyn forma

0.4899


Gowulaşmagyň regressiýa kellesine täsiri : Ozal regress kellesini yzygiderli saklaýan mahalymyz, dürli girişleriň regressiýa kellesine (ýagny, öňünden taýýarlanan modelleri we kodlamalary üýtgetmek arkaly) täsirini öwrenýärdik. Bu bölümde, kodlamalary yzygiderli saklap, regressiýa kellesiniň türgenleşigini üýtgetmegiň täsirini öwrenýäris. 2.4 bölümde bu işde öwrenilýän regress okuwyna dürli üýtgeşmeler sanalandyr. Bu bölümiň dowamynda iň çalt model bolany we GPU talaplarynyň pesligi sebäpli DistilBERT modeliniň ulanylýandygyny ýadyňyzdan çykarmaň. Dürli okuw shemalary / gowulandyrmalar üçin netijeler 2-nji tablisada görkezilýär.

2-nji tablisa: Dürli modeller üçin MCRMSE bal

Synag

MCRMSE

Çykyş mukdary

0.5294

Agramly RMSE

0.5628

MultiHead arhitekturasy

0.508

“Autoencoder Denoising”

0.575


Gynansagam, regressiýa modelini öwretmek üçin bu üýtgeşmeleriň hiç biri-de asyl modellerimiz bilen deňeşdirilende çaklamanyň takyklygynyň ep-esli gowulaşmagyna getirmeýär. Aslynda, 2-nji tablisada görkezilen tassyklama boýunça öndürijilik ölçegi bu üýtgeşmeler bilen öndürijiligiň azalandygyny görkezýär. Bu peseltmäniň näme üçin bolup geçýändigi belli däl we has uly maglumat bazasy bilen mundan beýläkki gözleg, bu peselişiň artefakt däldigini barlamak üçin zerurdyr.


Tekst kodlamagy we regressiýa baş tälimindäki ähli üýtgeşiklikler üçin, birleşmek we grammatika ähli modellerde çaklamak iň kyn ýaly bolup görünýän aýratyn çäreler üçin MCRMSE ballaryndan tassyklaýarys (3-nji tablisa serediň). Bu, biziň modellemegimiz däl-de, AES-de ulanylýan öňünden taýýarlanan dil modelleriniň çäklendirilmegi bolup biler. Kim we başgalar. (2020) [5] häzirki dil modelleriniň grammatiki taýdan gowy habarly bolmagynyň çäklendirmelerini görkezýär we dil modellerinde mundan beýläkki ösüşler üçin ugurlary görkezýär.

3-nji tablisa: Aýry-aýry seljeriş çäresi üçin MCRMSE bal

Model (ýa-da Exp.)

Jebislik

Sintaksis

Sözlük

Frazeologiýa

Grammatika

Konwensiýalar

Esasy

1.37

1.35

1.32

1.34

1.44

1.36

distilBERT

0.54

0.51

0.46

0.52

0.57

0.49

T5-esas

0.55

0.52

0.48

0.54

0.58

0.53

RoBERTa

0.51

0.47

0.42

0.47

0.51

0.46

Uzyn forma

0.54

0.48

0.46

0.49

0.53

0.47

distilBERT + çykyş mukdary

0.55

0.53

0.48

0.53

0.57

0.51

distilBERT + WRMSE

0.56

0.56

0.55

0.56

0.61

0.53

distilBERT + Köp kelleli arka.

0.53

0.50

0.45

0.51

0.56

0.49

Awtoenkoder + distilBERT

0.59

0.56

0.52

0.56

0.61

0.55


4. Netije

Bu işde, öňünden taýýarlanan arhitekturalaryň we usullaryň regress başyny awtomatlaşdyrylan esse baha bermek meselesine edýän täsirini derňedik, bu ýerde her bir eseri alty dil ölçegleri üçin (mysal üçin, birleşmek, grammatika, söz baýlygy) 1-den 5-e çenli şkalada ýazýarys. we ş.m.). Maglumat toplumy ELLIPSE korpusyndan, esasanam Kaggle ýaryşlarynda sanalan maglumatlaryň bir böleginden alyndy. Çuňňur öwrenýän bäş arhitekturany we regressiýa kellesini türgenleşdirmegiň bäş usulyny göz öňünde tutduk we köp synply çykyşyň iň gowy netije berendigi sebäpli ballary çaklamak üçin ýönekeý 2 gatly iýmitlendiriji gatlak bilen RoBERTa-bazany ulanmagy synladyk.


Garaşylyşy ýaly, transformator arhitekturasy GloVe + LSTM-iň esasy modelinden ep-esli ýokarydy. Mundan başga-da, transformator arhitekturasynyň içinde maskaly dil modelleriniň (DistilBERT, RoBERTa, Longformer) T5 dörediji dil modeli bilen deňeşdirilende has ýokary öndürijilik berýändigini görýäris. Bu syn, ähli döredijilik modellerine umumylaşdyrylmasa-da, MLM-iň agdyklyk etmegi, san netijeleri üçin ýörite taýýarlanylandygy sebäpli, yzygiderli görünýär.


Bu gözlegiň başga bir gyzykly synasy, ýitgileriň funksiýalaryny üýtgetmek, netijeleri çäklendirmek we awtoenkoder esasly ölçeg peseltmek / denizlemek, maglumatlary köpeltmek bilen birlikde regressiýa kellesiniň tälimini üýtgetmek, modeliň işleýşini gowulaşdyrmady. Bu gaty garaşylmadyk zat we bu hadysanyň sebäplerine doly düşünemzok. Geljekki gözlegde, bu çemeleşmeler has uly maglumat toplumy bilen gaýtalanyp bilner - bu regresiň başyny taýýarlamak bilen baglanyşykly bu synlamalaryň umumylaşdyrylyp bilinjekdigini kesgitlemäge kömek edýär.


Gysgaça aýdanymyzda, RoBERTa kodlamalaryny 2 gatly iýmitlendiriji nerw torly alty baldan bir wagtda çaklamak üçin köp wezipeli okuwlara meňzeş iň oňat öndürijilik berýändigini görýäris. Hususan-da, maglumatlar bazasynyň kiçi göwrümini göz öňünde tutup, berk taýýarlanan modeli ulanmagyň täsiri, modeliň çaklaýyş işini ep-esli gowulandyrýar. Şeýle hem, eseriň grammatikasyna baha bermekdäki görkezijiler beýleki baha beriş ölçeglerinden has erbetdir we bu dil modeline mahsusdyr. Şonuň üçin geljekdäki işler diliň grammatiki taraplaryny has gowy ele almak üçin dil modellerini gowulandyrmaga gönükdirilmelidir.

Salgylar

  1. Iz Beltagy, Mäti E Piters we Arman Kohan. 2020 Longformer: Uzyn resminamaly transformator. arXiv deslapky çap arXiv: 2004.05150 .
  2. Jeýkob Devlin, Ming-Wei Çang, Kenton Li we Kristina Toutanowa. 2018. BERT: Dil düşünmek üçin çuňňur iki taraplaýyn transformatorlary taýýarlamak. arXiv deslapky çap arXiv: 1810.04805 .
  3. Joeri R Hermans, Gerasimos Spanakis we Riko Möckel. Gradyentiň kadalaşmagy. Maşyn öwrenmek boýunça Aziýa konferensiýasynda , 439–454-nji sahypa. PMLR.
  4. Zixuan Ke we Winsent Ng. Awtomatiki düzme ballary: Sungatyň ýagdaýyna syn. IJCAI , jilt 19, 6300-6308-nji sahypa.
  5. Taeuk Kim, Jihun Choi, Daniel Edmiston we Sang-goo Li. 2020. Öňünden taýýarlanan dil modelleri sözlemlerden habarlymy? Grammatiki induksiýa üçin ýönekeý, ýöne güýçli esaslar.
  6. Okuw gullugynyň laboratoriýasy. 2022a. Seslenme baýragy - Iňlis dilini öwrenmek.
  7. Okuw gullugynyň laboratoriýasy. 2022b. Seslenme baýragy - Talyplaryň ýazuwyna baha bermek.
  8. Okuw gullugynyň laboratoriýasy. 2022c. Seslenme baýragy - Netijeli argumentleri çaklamak.
  9. Ininhan Liu, Maýl Ott, Naman Goýal, Jingfei Du, Mandar Joşi, Danki Çen, Omer Lewi, Maýk Lewis, Luk Zettlemoýer we Weselin Stoýanow. 2019. Roberta: Berk taýýarlamak üçin berk optimallaşdyrylan çemeleşme. arXiv deslapky çap arXiv: 1907.11692.
  10. Sýu Lottrij, Ben Godek, Amir Jafari we Milan Patel. 2021. Çuňňur öwrenmegiň berkligini we oýun strategiýalaryna nusgawy awtomatlaşdyrylan gol çemeleşmelerini deňeşdirmek. Tehniki hasabat - Cambium Assessment Inc.
  11. Hýuen Nguýen we Lýusio Deri. Awtomatiki düzme bahalandyrmak üçin nerw ulgamlary. CS224d Stenford hasabatlary: 1-11.
  12. Adam Roberts we Kolin Raffel. 2020. T5 bilen geçiriş okuwyny öwrenmek: tekstden tekste geçiriji transformator. Giriş, 23–07 sahypalar.
  13. Kaveh Taghipour we Hwee Tou Ng. 2016. Awtomatiki düzme ýazuwyna nerw çemeleşmesi. Tebigy dilleri gaýtadan işlemegiň empirik usullary boýunça 2016-njy ýyldaky konferensiýanyň materiallarynda, 1882-1891-nji sahypa.
  14. Noam Shazeer Niki Parmar obakob Uszkoreit Llion Jones Aidan N. Gomez Łukasz Kaiser Vaswani, Aşish we Illia Polosukhin. Üns beriň, size gerek zat. Nerw maglumatlary gaýtadan işlemek ulgamynda ösüşler, 30.