Mualliflar:
Avtomatlashtirilgan insho reytingi (AES) ko'p o'n yillar davomida o'rganilgan klassik NLP vazifasidir. AES juda ko'p amaliy ahamiyatga ega va ulkan iqtisodiy salohiyatga ega - AES katta raqobatbardosh imtihonlar (masalan, SAT, GRE) va shuningdek, rivojlanayotgan onlayn ta'lim bozori uchun asosdir. Bill va Melinda Geyts jamg'armasi va Tsukerberg-Chan tashabbusi kabi bir qancha xayriya va notijorat tashkilotlar AES bo'yicha bir nechta Kaggle musobaqalarini moliyalashtirgan [6, 7, 8]. Biroq, bu sa'y-harakatlarga qaramay, insholarni baholashdagi asosiy qiyinchiliklar tufayli muammoni hal qilishdan uzoqdir. Inshoni baholash juda sub'ektivdir va hisoblash qiyin bo'lgan uyg'unlik, grammatika, dolzarblik va boshqalar kabi mavhum omillarni o'z ichiga oladi. Natijada, grammatika, izchillik va boshqalar kabi xususiyatlar bo'yicha inshoning batafsil reytingi bilan o'quv ma'lumotlari uchun teglarni olish juda qimmat. Binobarin, o'quv ma'lumotlari to'plami boshqa NLP vazifalari bilan solishtirganda (maskalangan) til modellari, NER, POS yorlig'i, mashina tarjimasi va boshqalar bilan solishtirganda ancha cheklangan. Bundan tashqari, oddiy umumiy ballni taqdim etish talabaga juda kam fikr bildiradi yoki hech qanday fikr bildirmaydi. o'quvchilarning rivojlanishiga yordam bermang. Shu sababli, hozirgi sa'y-harakatlar inshoni bitta ball emas, balki granulyar jihatlar bo'yicha baholashga qaratilgan. Bu, shuningdek, haddan tashqari moslashishning oldini olishga yordam beradi, chunki bashorat qilish modeli endi faqat bitta ko'rsatkich emas, balki barcha ko'rsatkichlar bo'yicha yaxshi ishlashi kerak, aslida buni ko'p vazifali model deb hisoblash mumkin. Joriy tadqiqotda biz oltita ko'rsatkichga e'tibor qaratamiz: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va konventsiyalar.
2010-yillarga qadar AES modellarining aksariyati hisoblash tilshunoslari tomonidan ishlab chiqilgan qoʻlda ishlangan funksiyalarga tayangan [10, 4]. Biroq, bu modellar odatda ma'lum xususiyatlarga (masalan, insho uzunligi) qaram bo'lib, mavzular va ko'rsatkichlar bo'yicha umumlashtira olmadi. Qo'lda yaratilgan xususiyatlarga nisbatan noxolislik ularni Word2Vec va GloVe kabi til modellari tomonidan o'rganilgan so'zlarni joylashtirish bilan almashtirish orqali hal qilindi. Ushbu so'zlarni o'rnatishga asoslanib, insho ballari so'zlarni joylashtirishning quyi oqimiga neyron tarmog'ini qo'shish orqali regressiya va tasniflash vazifalari sifatida taxmin qilingan. Katta korpusga o'rgatilgan qo'shimchalardan foydalangan holda, barcha ko'rsatkichlar va umumiy ball uchun insho reytingida sezilarli yaxshilanish kuzatiladi [11]. Biroq, ishlashni yaxshilash uchun juda muhim bo'lgan so'zlarni joylashtirish modelning eng katta cheklovi bo'lib chiqdi. O'rnatishlar asosan "So'zlar sumkasi" yondashuvidan kelib chiqqanligi sababli, ular oldingi modellarda qo'lda ishlangan lingvistik xususiyatlar tomonidan qisman olingan kontekstual ma'lumotlarni ushlay olmadilar. Qo'lda yaratilgan xususiyatlarni qo'shish va oldingi modellarning kamchiliklarini qayta tiklash o'rniga, kontekstli ma'lumotlarning etishmasligi muammosi LSTM [13] va transformator arxitekturasidan foydalangan holda diqqat mexanizmi orqali hal qilindi. Vasvani va Polosuxin [14] ishi transformatorlar yordamida BERT modelini muvaffaqiyatli ishlab chiqdi. BERT modeli va transformator arxitekturasining muvaffaqiyati tufayli diqqatga asoslangan ko'plab til modellari ishlab chiqildi. Endi, so'zlarni joylashtirish o'rniga, kontekstual ma'lumotni qamrab oladigan jumla yoki hujjat darajasidagi joylashtirishni olish mumkin. Ushbu chuqur o'rnatishlardan foydalanib, insho ballarini bashorat qilish uchun neyron tarmoq modellari ishlab chiqiladi (tasniflash va regressiya vazifalari sifatida).
Ushbu taraqqiyotga qaramay, BERT modelidan foydalanishda jiddiy cheklovlar mavjud. Lottridge va boshqalar. (2021) [10] oʻyin insholari, tasodifiy aralashish va Babel insholari uchun modelning mustahkamligi yoʻqligini koʻrsatdi. Ishlash turli sinflar va ko'rsatkichlar bo'yicha keskin farq qiladi. Ushbu kamchilikni bartaraf etish uchun ushbu tadqiqotda biz bir vaqtning o'zida ko'p vazifalarni o'rganish orqali barcha ko'rsatkichlarni modellashtiramiz. BERT asosidagi tahlilning yana bir asosiy cheklovi shundaki, BERT modelida token uzunligi 512 bilan cheklangan. Biz buni har bir hujjatga 4096 ta tokenga ruxsat beruvchi Longformer kabi ilg‘or arxitekturalardan foydalangan holda hal qilishga intilamiz. Ushbu tadqiqotda ko'rib chiqilgan ma'lumotlar to'plami uchun (2.1-bo'limda batafsil ma'lumot), hujjatlarning 40% dan ortig'i uzunligi 512 belgidan ortiq. Shuning uchun, standart BERT modeli bilan hujjatni faqat 512 ta tokenga qisqartirish kontekstda katta yo'qotishlarga olib keladi. Turli xil tadqiqotlarning uchinchi asosiy cheklovi cheklangan ma'lumotlar to'plamidir - bir nechta tadqiqotlar AESga qaratilgan bo'lsa-da, bu ma'lumotlar to'plamlarining har biri boshqacha baholanadi va shuning uchun modellarni barcha ma'lumotlar to'plamlarida osongina o'rgatib bo'lmaydi. Shuning uchun, ushbu tadqiqotda biz ma'lumotlar to'plamlari bo'ylab o'qitish va AES vazifalarini bajarish uchun avtomatik kodlovchidan olingan kodlashlardan foydalanish uchun avtokoder tarmoqlarining foydaliligini o'rganamiz. Xulosa qilib aytganda, ushbu tadqiqot turli xil chuqur o'rganishga asoslangan hujjat kodlashlarining avtomatlashtirilgan insho reytingiga ta'sirini o'rganadi. Ushbu tadqiqotda koʻrib chiqilgan maʼlumotlar toʻplami, metodologiyasi, tajribalari va chuqur oʻrnatishlar 2-boʻlimda keltirilgan. Chuqur oʻrnatishlarni oʻzgartirishdan tashqari, biz Autoencoder tarmogʻida chuqur kodlashni oʻrgatish orqali turli AES maʼlumotlar toʻplamlarini birlashtirish yoʻllarini tahlil qilamiz. Ushbu yondashuvlarning barchasi natijalari 3-bo'limda, xulosalar va keyingi tadqiqotlar uchun ko'rsatmalar 4-bo'limda keltirilgan.
Learning Agency Lab, Jorjiya shtat universiteti va Vanderbilt universiteti davlat va milliy ta'lim idoralari, shuningdek, notijorat tashkilotlardan ko'plab insholarni to'pladi. Ular ushbu toʻplamdan 6-12-sinf oʻquvchilari tomonidan yozilgan bahsli insholardan iborat “Rating, Selecting, and Understanding argumentative Essays for the Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements” (PERSUADE) korpusini hamda “Ingliz tilini oʻrganuvchining insight, proficiency and Skills Evaluation” kitobini ishlab chiqdilar. (ELLIPSE) korpus, 8-12-sinflarda ingliz tilini o'rganuvchi (ELLs) tomonidan yozilgan insholardan iborat.
ELLIPSE korpusi: ELLIPSE korpusi 8-12-sinflarda ELL o'quvchilari tomonidan yozilgan 7000 dan ortiq insholarni o'z ichiga oladi. Ushbu insholar 2018-19 va 2019-20 o'quv yillarida davlat standartlashtirilgan yozma baholashning bir qismi sifatida yozilgan. ELLIPSE korpusidagi insholar inson baholovchilari tomonidan tilni bilish darajalari uchun yaxlit va analitik shkalalarni o'z ichiga olgan besh balllik reyting rubrikasidan foydalangan holda izohlangan. Yaxlit shkala insholarda ko'rsatilgan umumiy tilni bilish darajasiga qaratilgan bo'lsa, analitik shkalalar uyg'unlik, sintaksis, frazeologiya, lug'at, grammatika va konventsiyalarning reytinglarini o'z ichiga oladi. Har bir analitik o'lchov uchun ball 1,0 dan 5,0 gacha, 0,5 ga oshib, bu o'lchov bo'yicha ko'proq malakaga mos keladigan kattaroq ball.
PERSUADE korpusi: PERSUADE korpusi 6-12-sinflarda AQSH oʻquvchilari tomonidan yozilgan 25000 dan ortiq argumentativ insholarni oʻz ichiga oladi. Ushbu insholar 2010-2020 yillardagi milliy va davlat standartlashtirilgan yozma baholashning bir qismi sifatida yozilgan. PERSUADE korpusidagi har bir inshoga baholovchilar tomonidan argumentativ va nutq elementlari hamda argumentativ elementlar orasidagi ierarxik munosabatlar uchun izoh berilgan. Annotatsiya rubrikasi argumentativ yozishda keng tarqalgan nutq elementlarini aniqlash va baholash uchun ishlab chiqilgan.
Ushbu loyiha uchun biz ELLIPSE korpusidan foydalanamiz va bir vaqtning o'zida oltita analitik o'lchov uchun ballni taxmin qilamiz: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va konventsiyalar. Bundan tashqari, biz avtomatik kodlovchi yordamida bashorat qilishning aniqligini oshirishga harakat qilamiz. G'oya ELLIPSE va PERSUADE korpusidan foydalangan holda avtokoderni o'rgatishdir. Ushbu jarayon orqali avtokoderdan olingan siqilgan xususiyat vektori oldindan o'rgatilgan til modelining xususiyatlari etishmasligi mumkin bo'lgan ball olish uchun zarur bo'lgan insho xususiyatlarini yozib olishi mumkin.
Yuqorida ta'kidlab o'tilganidek, ushbu loyihaning maqsadi oltita tahliliy o'lchovlar: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va ingliz tilini o'rganuvchi 8-12-sinf o'quvchilari tomonidan yozilgan argumentativ insholar bo'yicha konvensiyalar bo'yicha ballni bashorat qilishdir. Ushbu vazifani bajarish uchun biz birinchi navbatda bazani ishlab chiqamiz va keyin bazani yaxshilash uchun bir nechta oldindan o'rgatilgan modellardan foydalanamiz.
Baseline : Asosiy chiziq GloVe o'rnatish va ikki tomonlama LSTM tarmog'idan foydalangan holda ishlab chiqilgan. Asosiy model uchun biz avval regex kutubxonasi yordamida ma'lumotlarni tozalashni, ya'ni tinish belgilarini olib tashlashni, bo'sh joyni olib tashlashni va hokazolarni amalga oshiramiz, so'ngra insholarni tokenizatsiya qilish uchun NLTK dan tokenizer so'zidan foydalanamiz. LSTM tarmog'i yuqoridagi oltita tahliliy o'lchovlarning har biri uchun ballni ifodalovchi 6 uzunlikdagi vektorni chiqarish uchun insholarning GloVe kodlashlariga o'rgatiladi. Biz neyron tarmoqni o'rgatish uchun o'rtacha kvadrat xatolik yo'qolishidan (MSELoss) foydalanamiz.
DistilBERT : DistilBERT kichik, tez va engil transformator modeli bo'lib, BERT bazasini distillash orqali o'rgatiladi. U GLUE tilini tushunish mezonida o‘lchangan BERTning 95% dan ortig‘ini saqlab qolgan holda 60% tez ishlaydi va 60% tezroq ishlaydi. BERT butun ketma-ketlikdan kontekstual ma'lumotni olish uchun o'z-o'ziga e'tibor beradi [2]. Bu modelning insho namunalarini baholash va aniqroq ball berish qobiliyatini yaxshilaydi. Ushbu model uchun biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalanamiz va keyin insholarning vektor tasvirini olish uchun ushbu tokenlarni oldindan o'rgatilgan DistilBERT modeliga o'tkazamiz. Keyin yuqorida tavsiflangan oltita yozish atributlarining har biri uchun ballni ifodalovchi 6 o'lchovli chiqish vektorini qaytarish uchun MSELoss yordamida ikki qavatli neyron tarmoqni o'rgatamiz.
T5 : T5 yoki matndan matnga uzatish transformatori - bu nazoratsiz va nazorat qilinadigan vazifalarning ko'p vazifali aralashmasi bo'yicha oldindan o'rgatilgan va har bir vazifa matndan matnga formatga aylantiriladigan kodlovchi-dekoder modeli. Masked LM va Next Sentence Prediction maqsadlarida oldindan o'qitilgan BERT bilan biz ketma-ketlikni tasniflash kabi turli quyi oqim vazifalarida oldindan o'rgatilgan modelning turli misollarini alohida sozlashimiz kerak. T5 ning matndan matnga o'tish tizimi bir xil yo'qotish funktsiyasi va dekodlash protsedurasidan foydalangan holda turli xil matn vazifalariga bitta modelni o'rgatishning oddiy usulini taqdim etadi. Ushbu treningdan oldingi asos modelni umumiy maqsadli "bilim" bilan ta'minlaydi, bu esa uning quyi oqimdagi vazifalarda ishlashini yaxshilaydi [12]. Biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalandik va keyin insholarning vektor tasvirini olish uchun ushbu tokenlarni oldindan oʻrgatilgan T5-Base modeliga oʻtkazdik. Keyin 6 o'lchovli chiqish vektorini (DistilBERTga o'xshash) qaytarish uchun MSELoss yordamida ikki qatlamli neyron tarmoqni o'rgatamiz.
RoBERTa-bazasi : RoBERTa Facebook tomonidan ishlab chiqilgan yana bir BERTga o'xshash niqoblangan til modelidir. RoBERTa holatida dinamik niqoblash mashg'ulot davomida barcha davrlar uchun qo'llaniladi, BERTda esa niqob statikdir. Bu orqali model BERTga qaraganda ko'proq tokenlarni o'rganadi. Ish faoliyatini yanada yaxshilashga BERT (10x) ga qaraganda ancha kattaroq maʼlumotlar korpusi va kattaroq lugʻat toʻplamiga oʻrgatish orqali erishiladi. Treningdagi ushbu o'zgarishlar tufayli RoBERTa ko'pchilik GLUE va SQuAD vazifalarida BERTdan ustun turadi [9].
Longformer : Longformer - bu BERT-ga o'xshash transformator modeli bo'lib, u RoBERTa nazorat punktidan ishlab chiqilgan va uzun hujjatlarda Masked Language Model (MLM) sifatida o'qitilgan. U 4096 tokengacha boʻlgan uzunlikdagi ketma-ketlikni qoʻllab-quvvatlaydi. Odatda, o'z-o'ziga e'tibor mexanizmini ishlatadigan transformatorga asoslangan modellar uzoq ketma-ketliklarni qayta ishlay olmaydi, chunki xotira va hisoblash talablari ketma-ketlik uzunligi bilan kvadratik ravishda o'sib boradi. Bu uzoq ketma-ketliklarni samarali qayta ishlashni imkonsiz qiladi. Longformers ushbu asosiy cheklovni ketma-ketlik uzunligi bilan chiziqli ravishda o'lchaydigan diqqat mexanizmini joriy etish orqali hal qiladi [1]. Mahalliy va global kontekstni suratga olish uchun u toymasin oyna va kengaytirilgan toymasin oyna diqqat mexanizmidan foydalanadi. Longformer modeli uchun biz DistilBERT kabi yondashuvdan foydalanamiz. Biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalanamiz va keyin insholarning vektor ko'rinishini olish uchun ushbu tokenlarni oldindan o'rgatilgan Longformer modeliga o'tkazamiz. Keyin 6 o'lchovli chiqish vektorini (DistilBERTga o'xshash) qaytarish uchun MSELoss yordamida ikki qatlamli neyron tarmoqni o'rgatamiz.
Modellarimizni Colab ish vaqti GPU xotirasiga sig‘dira olganidan ko‘ra kattaroq partiya hajmiga o‘rgatish uchun gradient to‘planishidan ham foydalandik. Longformer modelining katta o'lchamlari tufayli biz faqat ikkita partiya hajmi bilan cheklangan edik. Bunday kichik partiya hajmi beqaror gradient hisob-kitoblariga olib keladi. Biz buni gradient to‘planishi bilan chetlab o‘tamiz - har bir iteratsiyadan keyin yo‘qotishni orqaga yoyish o‘rniga, gradient yangilanishlarining barqarorligini yaxshilash uchun ma’lum miqdordagi partiyalardan so‘nggina yo‘qotishni to‘playmiz va xatoni qaytaramiz [3].
Bizning modelimiz bashorat qilingan ballarning to'g'riligini baholash uchun metrik sifatida o'rtacha ustun ildiz o'rtacha kvadrat xatosidan (MCRMSE) foydalanamiz. Ko'rsatkich quyidagicha hisoblanadi:
Yuqorida tavsiflangan modellarni amalga oshirgandan so'ng, biz ushbu modellarning bashorat qilish xatosini yaxshilash uchun bir nechta tajribalarni sinab ko'rdik. Ushbu tajribalarning tafsilotlari quyidagicha:
Oldindan o'qitilgan kodlashlarning ta'siri : 1-jadvalda 2.2-bo'limda tasvirlangan oldindan o'rgatilgan modellarni o'zgartirish orqali olingan ishlash ko'rsatkichlari jamlangan. Ushbu ishlarda oldindan o'rgatilgan modellarning kodlashlari to'g'ridan-to'g'ri MSE yo'qolishi yordamida o'qitiladigan 2 qatlamli neyron tarmoq orqali o'tkaziladi va 2.4-bo'limda muhokama qilingan potentsial yaxshilanishlarning hech biri amalga oshirilmaydi. Bu ko'p toifali regressiya bo'lganligi sababli, har bir ball ko'rsatkichi uchun modellarning ishlashi 3-jadvalda ko'rsatilgan.
1-jadvalda keltirilgan transformator arxitekturalari orasida biz DistilBERT, RoBERTa va Longformerning maskalangan til modellari T5 generativ modelidan yaxshiroq ishlashini ko'ramiz - ehtimol niqoblangan modellar raqamli chiqishlar bilan diskriminativ vazifalarga ko'proq moslashganligi sababli. Buni bir nechta generativ til modellari uchun umumlashtirish mumkinmi, degan xulosaga kelish uchun qo'shimcha tadqiqotlar zarur. Umuman olganda, RoBERTa turli xil modellar orasida eng yaxshi bashorat balliga ega, bu o'zining ancha kattaroq o'quv korpusi va yuqori maskalanishi tufayli.
Model | MCRMSE ko'rsatkichi |
---|---|
Asosiy | 1.36 |
DistilBERT | 0,4934 |
T5 - asos | 0,5320 |
RoBERTa | 0,4746 |
Uzoq muddatli | 0,4899 |
Regressiya boshini yaxshilashning ta'siri : Ilgari biz regressiya boshi o'qitishni doimiy ushlab turganda, regressiya boshiga turli xil kiritishlarning ta'sirini (ya'ni, oldindan o'rgatilgan modellar va undagi kodlashlarni o'zgartirish orqali) o'rganib chiqdik. Ushbu bo'limda biz kodlashlarni doimiy ravishda ushlab turganda regressiya boshini o'zgartirish ta'sirini o'rganamiz. 2.4-bo'limda ushbu tadqiqotda ko'rib chiqilgan regressiya mashg'ulotlaridagi turli xil o'zgarishlar ro'yxati keltirilgan. E'tibor bering, ushbu bo'limda DistilBERT modeli qo'llaniladi, chunki u eng tez model va GPU talablari pastroq. Turli xil o'quv sxemalari/takomillashtirishlar natijalari 2-jadvalda keltirilgan.
Tajriba | MCRMSE |
---|---|
Chiqishni kvantlash | 0,5294 |
Og'irlangan RMSE | 0,5628 |
Ko'p boshli arxitektura | 0,508 |
Autoencoder Denoising | 0,575 |
Afsuski, regressiya modelini o'rgatishdagi ushbu o'zgarishlarning hech biri bizning asl modellarimiz bilan solishtirganda bashorat qilish aniqligini sezilarli darajada oshirishga olib kelmaydi. Aslida, 2-jadvalda o'rnatilgan tekshirish bo'yicha ishlash ko'rsatkichi ushbu o'zgartirishlar bilan ishlashning pasayishini ko'rsatadi. Ushbu pasayish nima uchun sodir bo'layotgani aniq emas va unumdorlikning pasayishi artefakt emasligini tekshirish uchun kattaroq ma'lumotlar to'plami bilan keyingi o'rganish zarur.
Matnni kodlash va regressiya boshlig'ini o'qitishdagi barcha o'zgarishlar uchun biz individual o'lchovlar bo'yicha MCRMSE ballarini tekshirishdan ko'ramizki, birlashish va grammatika barcha modellarda bashorat qilish eng qiyin bo'lib tuyuladi (3-jadvalga qarang). Bu bizning modellashtirishimiz emas, balki AESda qo'llaniladigan oldindan o'rgatilgan til modellarining cheklanishi bo'lishi mumkin. Kim va boshqalar. (2020) [5] hozirgi til modellarining grammatik jihatdan yaxshi ma'lumotga ega bo'lishdagi cheklovlarini ko'rsatadi va til modellarida keyingi taraqqiyot uchun yo'nalishlarni beradi.
Model (yoki tajriba) | Uyg'unlik | Sintaksis | Lug'at | Frazeologiya | Grammatika | Konventsiyalar |
---|---|---|---|---|---|---|
Asosiy | 1.37 | 1.35 | 1.32 | 1.34 | 1.44 | 1.36 |
distilBERT | 0,54 | 0,51 | 0,46 | 0,52 | 0,57 | 0,49 |
T5-tayanch | 0,55 | 0,52 | 0,48 | 0,54 | 0,58 | 0,53 |
RoBERTa | 0,51 | 0,47 | 0,42 | 0,47 | 0,51 | 0,46 |
Uzoq muddatli | 0,54 | 0,48 | 0,46 | 0,49 | 0,53 | 0,47 |
distilBERT + chiqish kvantlash | 0,55 | 0,53 | 0,48 | 0,53 | 0,57 | 0,51 |
distilBERT + WRMSE | 0,56 | 0,56 | 0,55 | 0,56 | 0,61 | 0,53 |
distilBERT + Multi Head Arch. | 0,53 | 0,50 | 0,45 | 0,51 | 0,56 | 0,49 |
Avtokoder + distilBERT | 0,59 | 0,56 | 0,52 | 0,56 | 0,61 | 0,55 |
Ushbu ishda biz regressiya boshini o'rgatish uchun turli xil arxitektura va usullarning Avtomatlashtirilgan insho reytingi topshirig'iga ta'sirini o'rganib chiqdik, bunda biz har bir inshoni oltita lingvistik ko'rsatkich (masalan, uyg'unlik, grammatika, lug'at) uchun 1 dan 5 gacha bo'lgan shkalada baholaymiz. va boshqalar). Ma'lumotlar to'plami ELLIPSE korpusidan, xususan, Kaggle musobaqalarida keltirilgan ma'lumotlarning kichik to'plamidan olingan. Biz beshta chuqur o'rganish arxitekturasini va regressiya boshini o'rgatishning beshta usulini ko'rib chiqdik va ko'p toifali chiqish eng yaxshi natija bergani uchun ballarni bashorat qilish uchun oddiy 2 qatlamli oldinga o'tish qatlami bilan RoBERTa bazasidan foydalangan holda kuzatdik.
Kutilganidek, transformator arxitekturasi GloVe+LSTM ning asosiy modelidan sezilarli darajada oshib ketdi. Bundan tashqari, transformator arxitekturalarida biz niqoblangan til modellari (DistilBERT, RoBERTa, Longformer) generativ til modeli T5 bilan solishtirganda yuqori samaradorlikni ko'rishini ko'ramiz. Garchi bu kuzatuv barcha generativ modellar uchun umumlashtirilmasa ham, MLMning ustunligi intuitiv ko'rinadi, chunki ular raqamli natijalar uchun maxsus o'qitilgan.
Ushbu tadqiqotning yana bir qiziqarli kuzatuvi shundaki, regressiya boshini o'qitishni yo'qotish funktsiyalarini o'zgartirish, natijalarni cheklash va avtomatik kodlovchiga asoslangan o'lchamlarni kamaytirish/denoizalash, ma'lumotlarni ko'paytirish bilan bir qatorda, model ish faoliyatini yaxshilamadi. Bu juda kutilmagan va biz bu hodisaning sabablarini to'liq tushunmayapmiz. Kelgusi tadqiqotda ushbu yondashuvlar kattaroq ma'lumotlar to'plami bilan takrorlanishi mumkin - bu regressiya boshini o'rgatish bo'yicha ushbu kuzatuvlarni umumlashtirish mumkinligini aniqlashga yordam beradi.
Xulosa qilib aytganda, biz ko'p vazifali o'rganishga o'xshash olti ballni bir vaqtning o'zida bashorat qilish uchun 2 qatlamli oldinga yo'naltirilgan neyron tarmog'i bilan RoBERTa kodlashlaridan foydalanish eng yaxshi samaradorlikni ta'minlashini kuzatamiz. Xususan, ma'lumotlar to'plamining kichik hajmini hisobga olgan holda, mustahkam oldindan o'rgatilgan modeldan foydalanish ta'siri modelning bashoratli ishlashini sezilarli darajada yaxshilaydi. Shuningdek, insho grammatikasini baholashdagi ko'rsatkich har qanday boshqa baholash ko'rsatkichlariga qaraganda yomonroqdir va bu til modeliga xosdir. Demak, kelgusi ishlarda tilning grammatik jihatlarini yaxshiroq qamrab olish uchun til modellarini takomillashtirishga e’tibor qaratish lozim.