paint-brush
Katta tilli modellardan foydalangan holda avtomatlashtirilgan insho reytingitomonidan@junaidsyed
761 o'qishlar
761 o'qishlar

Katta tilli modellardan foydalangan holda avtomatlashtirilgan insho reytingi

tomonidan Junaid Syed15m2024/10/12
Read on Terminal Reader

Juda uzoq; O'qish

Ushbu maqola Avtomatlashtirilgan insho reytingi (AES) muammolarini ko'rib chiqadi va insholarni muvofiqlik, grammatika va dolzarblik kabi sub'ektiv xususiyatlar tufayli ball olishdagi qiyinchiliklarni ta'kidlaydi. Tadqiqot oltita analitik ko'rsatkichga qaratilgan va ko'p vazifali o'rganish, avtokoder tarmoqlari va uzunroq insholarni qayta ishlash uchun Longformer kabi ilg'or modellardan foydalangan holda joriy usullarni yaxshilashni taklif qiladi. BERT kabi modellardagi sezilarli yutuqlarga qaramay, token uzunligi cheklovlari va kontekstni tushunishning etishmasligi kabi muammolar saqlanib qolmoqda. Maqolada AESning aniqligi va adolatliligini oshirish uchun hujjatlarni kodlash, jumladan, yechimlar o‘rganiladi.
featured image - Katta tilli modellardan foydalangan holda avtomatlashtirilgan insho reytingi
Junaid Syed HackerNoon profile picture
0-item

Mualliflar:

  • Junaid Syed, Jorjiya texnologiya instituti
  • Sai Shanbhag, Jorjiya texnologiya instituti
  • Vamsi Krishna Chakravarthy, Jorjiya texnologiya instituti


Avtomatlashtirilgan insho reytingi (AES) ko'p o'n yillar davomida o'rganilgan klassik NLP vazifasidir. AES juda ko'p amaliy ahamiyatga ega va ulkan iqtisodiy salohiyatga ega - AES katta raqobatbardosh imtihonlar (masalan, SAT, GRE) va shuningdek, rivojlanayotgan onlayn ta'lim bozori uchun asosdir. Bill va Melinda Geyts jamg'armasi va Tsukerberg-Chan tashabbusi kabi bir qancha xayriya va notijorat tashkilotlar AES bo'yicha bir nechta Kaggle musobaqalarini moliyalashtirgan [6, 7, 8]. Biroq, bu sa'y-harakatlarga qaramay, insholarni baholashdagi asosiy qiyinchiliklar tufayli muammoni hal qilishdan uzoqdir. Inshoni baholash juda sub'ektivdir va hisoblash qiyin bo'lgan uyg'unlik, grammatika, dolzarblik va boshqalar kabi mavhum omillarni o'z ichiga oladi. Natijada, grammatika, izchillik va boshqalar kabi xususiyatlar bo'yicha inshoning batafsil reytingi bilan o'quv ma'lumotlari uchun teglarni olish juda qimmat. Binobarin, o'quv ma'lumotlari to'plami boshqa NLP vazifalari bilan solishtirganda (maskalangan) til modellari, NER, POS yorlig'i, mashina tarjimasi va boshqalar bilan solishtirganda ancha cheklangan. Bundan tashqari, oddiy umumiy ballni taqdim etish talabaga juda kam fikr bildiradi yoki hech qanday fikr bildirmaydi. o'quvchilarning rivojlanishiga yordam bermang. Shu sababli, hozirgi sa'y-harakatlar inshoni bitta ball emas, balki granulyar jihatlar bo'yicha baholashga qaratilgan. Bu, shuningdek, haddan tashqari moslashishning oldini olishga yordam beradi, chunki bashorat qilish modeli endi faqat bitta ko'rsatkich emas, balki barcha ko'rsatkichlar bo'yicha yaxshi ishlashi kerak, aslida buni ko'p vazifali model deb hisoblash mumkin. Joriy tadqiqotda biz oltita ko'rsatkichga e'tibor qaratamiz: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va konventsiyalar.


1.1 Adabiyot so'rovi

2010-yillarga qadar AES modellarining aksariyati hisoblash tilshunoslari tomonidan ishlab chiqilgan qoʻlda ishlangan funksiyalarga tayangan [10, 4]. Biroq, bu modellar odatda ma'lum xususiyatlarga (masalan, insho uzunligi) qaram bo'lib, mavzular va ko'rsatkichlar bo'yicha umumlashtira olmadi. Qo'lda yaratilgan xususiyatlarga nisbatan noxolislik ularni Word2Vec va GloVe kabi til modellari tomonidan o'rganilgan so'zlarni joylashtirish bilan almashtirish orqali hal qilindi. Ushbu so'zlarni o'rnatishga asoslanib, insho ballari so'zlarni joylashtirishning quyi oqimiga neyron tarmog'ini qo'shish orqali regressiya va tasniflash vazifalari sifatida taxmin qilingan. Katta korpusga o'rgatilgan qo'shimchalardan foydalangan holda, barcha ko'rsatkichlar va umumiy ball uchun insho reytingida sezilarli yaxshilanish kuzatiladi [11]. Biroq, ishlashni yaxshilash uchun juda muhim bo'lgan so'zlarni joylashtirish modelning eng katta cheklovi bo'lib chiqdi. O'rnatishlar asosan "So'zlar sumkasi" yondashuvidan kelib chiqqanligi sababli, ular oldingi modellarda qo'lda ishlangan lingvistik xususiyatlar tomonidan qisman olingan kontekstual ma'lumotlarni ushlay olmadilar. Qo'lda yaratilgan xususiyatlarni qo'shish va oldingi modellarning kamchiliklarini qayta tiklash o'rniga, kontekstli ma'lumotlarning etishmasligi muammosi LSTM [13] va transformator arxitekturasidan foydalangan holda diqqat mexanizmi orqali hal qilindi. Vasvani va Polosuxin [14] ishi transformatorlar yordamida BERT modelini muvaffaqiyatli ishlab chiqdi. BERT modeli va transformator arxitekturasining muvaffaqiyati tufayli diqqatga asoslangan ko'plab til modellari ishlab chiqildi. Endi, so'zlarni joylashtirish o'rniga, kontekstual ma'lumotni qamrab oladigan jumla yoki hujjat darajasidagi joylashtirishni olish mumkin. Ushbu chuqur o'rnatishlardan foydalanib, insho ballarini bashorat qilish uchun neyron tarmoq modellari ishlab chiqiladi (tasniflash va regressiya vazifalari sifatida).


1.2 Joriy yondashuvlarning cheklovlari

Ushbu taraqqiyotga qaramay, BERT modelidan foydalanishda jiddiy cheklovlar mavjud. Lottridge va boshqalar. (2021) [10] oʻyin insholari, tasodifiy aralashish va Babel insholari uchun modelning mustahkamligi yoʻqligini koʻrsatdi. Ishlash turli sinflar va ko'rsatkichlar bo'yicha keskin farq qiladi. Ushbu kamchilikni bartaraf etish uchun ushbu tadqiqotda biz bir vaqtning o'zida ko'p vazifalarni o'rganish orqali barcha ko'rsatkichlarni modellashtiramiz. BERT asosidagi tahlilning yana bir asosiy cheklovi shundaki, BERT modelida token uzunligi 512 bilan cheklangan. Biz buni har bir hujjatga 4096 ta tokenga ruxsat beruvchi Longformer kabi ilg‘or arxitekturalardan foydalangan holda hal qilishga intilamiz. Ushbu tadqiqotda ko'rib chiqilgan ma'lumotlar to'plami uchun (2.1-bo'limda batafsil ma'lumot), hujjatlarning 40% dan ortig'i uzunligi 512 belgidan ortiq. Shuning uchun, standart BERT modeli bilan hujjatni faqat 512 ta tokenga qisqartirish kontekstda katta yo'qotishlarga olib keladi. Turli xil tadqiqotlarning uchinchi asosiy cheklovi cheklangan ma'lumotlar to'plamidir - bir nechta tadqiqotlar AESga qaratilgan bo'lsa-da, bu ma'lumotlar to'plamlarining har biri boshqacha baholanadi va shuning uchun modellarni barcha ma'lumotlar to'plamlarida osongina o'rgatib bo'lmaydi. Shuning uchun, ushbu tadqiqotda biz ma'lumotlar to'plamlari bo'ylab o'qitish va AES vazifalarini bajarish uchun avtomatik kodlovchidan olingan kodlashlardan foydalanish uchun avtokoder tarmoqlarining foydaliligini o'rganamiz. Xulosa qilib aytganda, ushbu tadqiqot turli xil chuqur o'rganishga asoslangan hujjat kodlashlarining avtomatlashtirilgan insho reytingiga ta'sirini o'rganadi. Ushbu tadqiqotda koʻrib chiqilgan maʼlumotlar toʻplami, metodologiyasi, tajribalari va chuqur oʻrnatishlar 2-boʻlimda keltirilgan. Chuqur oʻrnatishlarni oʻzgartirishdan tashqari, biz Autoencoder tarmogʻida chuqur kodlashni oʻrgatish orqali turli AES maʼlumotlar toʻplamlarini birlashtirish yoʻllarini tahlil qilamiz. Ushbu yondashuvlarning barchasi natijalari 3-bo'limda, xulosalar va keyingi tadqiqotlar uchun ko'rsatmalar 4-bo'limda keltirilgan.

2. Metodologiya

2.1 Ma'lumotlar

Learning Agency Lab, Jorjiya shtat universiteti va Vanderbilt universiteti davlat va milliy ta'lim idoralari, shuningdek, notijorat tashkilotlardan ko'plab insholarni to'pladi. Ular ushbu toʻplamdan 6-12-sinf oʻquvchilari tomonidan yozilgan bahsli insholardan iborat “Rating, Selecting, and Understanding argumentative Essays for the Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements” (PERSUADE) korpusini hamda “Ingliz tilini oʻrganuvchining insight, proficiency and Skills Evaluation” kitobini ishlab chiqdilar. (ELLIPSE) korpus, 8-12-sinflarda ingliz tilini o'rganuvchi (ELLs) tomonidan yozilgan insholardan iborat.


ELLIPSE korpusi: ELLIPSE korpusi 8-12-sinflarda ELL o'quvchilari tomonidan yozilgan 7000 dan ortiq insholarni o'z ichiga oladi. Ushbu insholar 2018-19 va 2019-20 o'quv yillarida davlat standartlashtirilgan yozma baholashning bir qismi sifatida yozilgan. ELLIPSE korpusidagi insholar inson baholovchilari tomonidan tilni bilish darajalari uchun yaxlit va analitik shkalalarni o'z ichiga olgan besh balllik reyting rubrikasidan foydalangan holda izohlangan. Yaxlit shkala insholarda ko'rsatilgan umumiy tilni bilish darajasiga qaratilgan bo'lsa, analitik shkalalar uyg'unlik, sintaksis, frazeologiya, lug'at, grammatika va konventsiyalarning reytinglarini o'z ichiga oladi. Har bir analitik o'lchov uchun ball 1,0 dan 5,0 gacha, 0,5 ga oshib, bu o'lchov bo'yicha ko'proq malakaga mos keladigan kattaroq ball.


PERSUADE korpusi: PERSUADE korpusi 6-12-sinflarda AQSH oʻquvchilari tomonidan yozilgan 25000 dan ortiq argumentativ insholarni oʻz ichiga oladi. Ushbu insholar 2010-2020 yillardagi milliy va davlat standartlashtirilgan yozma baholashning bir qismi sifatida yozilgan. PERSUADE korpusidagi har bir inshoga baholovchilar tomonidan argumentativ va nutq elementlari hamda argumentativ elementlar orasidagi ierarxik munosabatlar uchun izoh berilgan. Annotatsiya rubrikasi argumentativ yozishda keng tarqalgan nutq elementlarini aniqlash va baholash uchun ishlab chiqilgan.


Ushbu loyiha uchun biz ELLIPSE korpusidan foydalanamiz va bir vaqtning o'zida oltita analitik o'lchov uchun ballni taxmin qilamiz: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va konventsiyalar. Bundan tashqari, biz avtomatik kodlovchi yordamida bashorat qilishning aniqligini oshirishga harakat qilamiz. G'oya ELLIPSE va PERSUADE korpusidan foydalangan holda avtokoderni o'rgatishdir. Ushbu jarayon orqali avtokoderdan olingan siqilgan xususiyat vektori oldindan o'rgatilgan til modelining xususiyatlari etishmasligi mumkin bo'lgan ball olish uchun zarur bo'lgan insho xususiyatlarini yozib olishi mumkin.

2.2 Yondashuv

Yuqorida ta'kidlab o'tilganidek, ushbu loyihaning maqsadi oltita tahliliy o'lchovlar: uyg'unlik, sintaksis, lug'at, frazeologiya, grammatika va ingliz tilini o'rganuvchi 8-12-sinf o'quvchilari tomonidan yozilgan argumentativ insholar bo'yicha konvensiyalar bo'yicha ballni bashorat qilishdir. Ushbu vazifani bajarish uchun biz birinchi navbatda bazani ishlab chiqamiz va keyin bazani yaxshilash uchun bir nechta oldindan o'rgatilgan modellardan foydalanamiz.


Baseline : Asosiy chiziq GloVe o'rnatish va ikki tomonlama LSTM tarmog'idan foydalangan holda ishlab chiqilgan. Asosiy model uchun biz avval regex kutubxonasi yordamida ma'lumotlarni tozalashni, ya'ni tinish belgilarini olib tashlashni, bo'sh joyni olib tashlashni va hokazolarni amalga oshiramiz, so'ngra insholarni tokenizatsiya qilish uchun NLTK dan tokenizer so'zidan foydalanamiz. LSTM tarmog'i yuqoridagi oltita tahliliy o'lchovlarning har biri uchun ballni ifodalovchi 6 uzunlikdagi vektorni chiqarish uchun insholarning GloVe kodlashlariga o'rgatiladi. Biz neyron tarmoqni o'rgatish uchun o'rtacha kvadrat xatolik yo'qolishidan (MSELoss) foydalanamiz.


DistilBERT : DistilBERT kichik, tez va engil transformator modeli bo'lib, BERT bazasini distillash orqali o'rgatiladi. U GLUE tilini tushunish mezonida o‘lchangan BERTning 95% dan ortig‘ini saqlab qolgan holda 60% tez ishlaydi va 60% tezroq ishlaydi. BERT butun ketma-ketlikdan kontekstual ma'lumotni olish uchun o'z-o'ziga e'tibor beradi [2]. Bu modelning insho namunalarini baholash va aniqroq ball berish qobiliyatini yaxshilaydi. Ushbu model uchun biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalanamiz va keyin insholarning vektor tasvirini olish uchun ushbu tokenlarni oldindan o'rgatilgan DistilBERT modeliga o'tkazamiz. Keyin yuqorida tavsiflangan oltita yozish atributlarining har biri uchun ballni ifodalovchi 6 o'lchovli chiqish vektorini qaytarish uchun MSELoss yordamida ikki qavatli neyron tarmoqni o'rgatamiz.


T5 : T5 yoki matndan matnga uzatish transformatori - bu nazoratsiz va nazorat qilinadigan vazifalarning ko'p vazifali aralashmasi bo'yicha oldindan o'rgatilgan va har bir vazifa matndan matnga formatga aylantiriladigan kodlovchi-dekoder modeli. Masked LM va Next Sentence Prediction maqsadlarida oldindan o'qitilgan BERT bilan biz ketma-ketlikni tasniflash kabi turli quyi oqim vazifalarida oldindan o'rgatilgan modelning turli misollarini alohida sozlashimiz kerak. T5 ning matndan matnga o'tish tizimi bir xil yo'qotish funktsiyasi va dekodlash protsedurasidan foydalangan holda turli xil matn vazifalariga bitta modelni o'rgatishning oddiy usulini taqdim etadi. Ushbu treningdan oldingi asos modelni umumiy maqsadli "bilim" bilan ta'minlaydi, bu esa uning quyi oqimdagi vazifalarda ishlashini yaxshilaydi [12]. Biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalandik va keyin insholarning vektor tasvirini olish uchun ushbu tokenlarni oldindan oʻrgatilgan T5-Base modeliga oʻtkazdik. Keyin 6 o'lchovli chiqish vektorini (DistilBERTga o'xshash) qaytarish uchun MSELoss yordamida ikki qatlamli neyron tarmoqni o'rgatamiz.


RoBERTa-bazasi : RoBERTa Facebook tomonidan ishlab chiqilgan yana bir BERTga o'xshash niqoblangan til modelidir. RoBERTa holatida dinamik niqoblash mashg'ulot davomida barcha davrlar uchun qo'llaniladi, BERTda esa niqob statikdir. Bu orqali model BERTga qaraganda ko'proq tokenlarni o'rganadi. Ish faoliyatini yanada yaxshilashga BERT (10x) ga qaraganda ancha kattaroq maʼlumotlar korpusi va kattaroq lugʻat toʻplamiga oʻrgatish orqali erishiladi. Treningdagi ushbu o'zgarishlar tufayli RoBERTa ko'pchilik GLUE va SQuAD vazifalarida BERTdan ustun turadi [9].


Longformer : Longformer - bu BERT-ga o'xshash transformator modeli bo'lib, u RoBERTa nazorat punktidan ishlab chiqilgan va uzun hujjatlarda Masked Language Model (MLM) sifatida o'qitilgan. U 4096 tokengacha boʻlgan uzunlikdagi ketma-ketlikni qoʻllab-quvvatlaydi. Odatda, o'z-o'ziga e'tibor mexanizmini ishlatadigan transformatorga asoslangan modellar uzoq ketma-ketliklarni qayta ishlay olmaydi, chunki xotira va hisoblash talablari ketma-ketlik uzunligi bilan kvadratik ravishda o'sib boradi. Bu uzoq ketma-ketliklarni samarali qayta ishlashni imkonsiz qiladi. Longformers ushbu asosiy cheklovni ketma-ketlik uzunligi bilan chiziqli ravishda o'lchaydigan diqqat mexanizmini joriy etish orqali hal qiladi [1]. Mahalliy va global kontekstni suratga olish uchun u toymasin oyna va kengaytirilgan toymasin oyna diqqat mexanizmidan foydalanadi. Longformer modeli uchun biz DistilBERT kabi yondashuvdan foydalanamiz. Biz insholarni tokenizatsiya qilish uchun avtomatik tokenizatordan foydalanamiz va keyin insholarning vektor ko'rinishini olish uchun ushbu tokenlarni oldindan o'rgatilgan Longformer modeliga o'tkazamiz. Keyin 6 o'lchovli chiqish vektorini (DistilBERTga o'xshash) qaytarish uchun MSELoss yordamida ikki qatlamli neyron tarmoqni o'rgatamiz.


Modellarimizni Colab ish vaqti GPU xotirasiga sig‘dira olganidan ko‘ra kattaroq partiya hajmiga o‘rgatish uchun gradient to‘planishidan ham foydalandik. Longformer modelining katta o'lchamlari tufayli biz faqat ikkita partiya hajmi bilan cheklangan edik. Bunday kichik partiya hajmi beqaror gradient hisob-kitoblariga olib keladi. Biz buni gradient to‘planishi bilan chetlab o‘tamiz - har bir iteratsiyadan keyin yo‘qotishni orqaga yoyish o‘rniga, gradient yangilanishlarining barqarorligini yaxshilash uchun ma’lum miqdordagi partiyalardan so‘nggina yo‘qotishni to‘playmiz va xatoni qaytaramiz [3].

2.3 Baholash

Bizning modelimiz bashorat qilingan ballarning to'g'riligini baholash uchun metrik sifatida o'rtacha ustun ildiz o'rtacha kvadrat xatosidan (MCRMSE) foydalanamiz. Ko'rsatkich quyidagicha hisoblanadi:

2.4 Tajribalar

Yuqorida tavsiflangan modellarni amalga oshirgandan so'ng, biz ushbu modellarning bashorat qilish xatosini yaxshilash uchun bir nechta tajribalarni sinab ko'rdik. Ushbu tajribalarning tafsilotlari quyidagicha:


  • Chiqarishni kvantlash : ELLIPSE korpusida har bir analitik o'lchov uchun ball 0,5 ga oshib 1,0 dan 5,0 gacha bo'lib, bu o'lchov bo'yicha ko'proq malakaga mos keladigan kattaroq ballar. Biz neyron tarmog'imizni shunday o'zgartirdikki, chiqish 1 dan 5 gacha bo'ladi. Biz buni sigmasimon qatlamni qo'shdik, bu orqali chiqish o'tadi va keyin biz bu chiqishni 4 ga ko'paytiramiz va unga 1 qo'shamiz. Bundan tashqari, natijalar neyron tarmoqdan olingandan so'ng, chiqish faqat 0,5 bosqichda o'sishiga ishonch hosil qilish uchun matematik operatsiya ball = int[(2 * ball + 0,5) / 2] bajaramiz. Ushbu operatsiya asl ballar formatini takrorlash va bunday o'zgartirish aniqlikni oshirish yoki yo'qligini tekshirishga qaratilgan.


  • Og'irlangan RMSE : ELLIPSE korpusida har bir analitik o'lchov uchun ball 0,5 dan 1,0 dan 5,0 gacha o'zgarib turadi. Biroq, ma'lumotlar to'plamidagi har bir ballning taqsimlanishi o'xshash emas. 2.5, 3 va 3.5 kabi baʼzi ballar har bir tahliliy oʻlchov uchun maʼlumotlar toʻplamimizda tez-tez uchraydi, 1 va 5 kabi ballar esa maʼlumotlar toʻplamida kamdan-kam uchraydi. Ushbu nomutanosiblikni hisobga olish uchun biz o'rtacha o'rtacha kvadrat xato (WRMSE) funktsiyasidan foydalandik, bunda ma'lum bir ball chastotasining teskarisi og'irlik sifatida ishlatiladi va agar u boshqa og'irliklarga nisbatan juda yuqori bo'lsa, biz ushbu vaznni kesib tashlaymiz.


  • Ko'p boshli arxitektura : Oldingi bo'limda aytib o'tilganidek, ma'lumotlar to'plamidagi har bir ballning taqsimlanishi o'xshash emasligi sababli, biz ballarni bashorat qilish uchun o'lchovga xos yakuniy ikki qatlamli neyron tarmog'iga ega bo'lishni sinab ko'rdik. Shunday qilib, 6 xil ball qiymatini bashorat qiladigan bitta chiqish boshi o'rniga biz har bir tahliliy o'lchov uchun ballni taxmin qilish uchun 6 xil chiqish boshini qo'lladik.


  • Avtokodlovchi : Inshoning ko'p toifali reytingining joriy vazifasi uchun taqdim etilgan ma'lumotlar to'plami atigi 4k namunadir. Biroq, ELLIPSE va PERSUADE korpusida boshqa AES vazifalari uchun 180 mingdan ortiq insho mavjud, masalan, butun insholar uchun bitta ball va insholarning qismlari. Shuning uchun, avtokoderlar ushbu kattaroq ma'lumotlar bazasidan foydalanish va yarim nazorat ostida o'rganish uchun ishlatiladi. Qisqacha aytganda, BERT, T5 kabi til modellarining kodlashlari barcha 180k namunalar yordamida o'qitilgan avtomatik kodlovchi tarmog'i orqali uzatiladi. Keyinchalik, to'liq nazorat ostidagi stsenariyga o'xshash regressiya boshi uchun 2 qatlamli neyron tarmog'idan foydalangan holda ko'p toifali ballarni bashorat qilish uchun avtokoderning dekoder qismidagi darboğaz qatlamini kodlash yoki denoised til modeli kodlashlari ishlatiladi. Shunday qilib, avtokoderni oldindan protsessor sifatida o'rgatish uchun yorliqsiz ma'lumotlarning kattaroq to'plamidan foydalanib, biz nazorat ostida o'rganish bashoratlarini yaxshilashga intilamiz. Ushbu tadqiqotda biz DistilBERT kodlashlariga asoslangan ikkala denoised kodlashni ko'rib chiqdik.

3. Natijalar va muhokama

Oldindan o'qitilgan kodlashlarning ta'siri : 1-jadvalda 2.2-bo'limda tasvirlangan oldindan o'rgatilgan modellarni o'zgartirish orqali olingan ishlash ko'rsatkichlari jamlangan. Ushbu ishlarda oldindan o'rgatilgan modellarning kodlashlari to'g'ridan-to'g'ri MSE yo'qolishi yordamida o'qitiladigan 2 qatlamli neyron tarmoq orqali o'tkaziladi va 2.4-bo'limda muhokama qilingan potentsial yaxshilanishlarning hech biri amalga oshirilmaydi. Bu ko'p toifali regressiya bo'lganligi sababli, har bir ball ko'rsatkichi uchun modellarning ishlashi 3-jadvalda ko'rsatilgan.


1-jadvalda keltirilgan transformator arxitekturalari orasida biz DistilBERT, RoBERTa va Longformerning maskalangan til modellari T5 generativ modelidan yaxshiroq ishlashini ko'ramiz - ehtimol niqoblangan modellar raqamli chiqishlar bilan diskriminativ vazifalarga ko'proq moslashganligi sababli. Buni bir nechta generativ til modellari uchun umumlashtirish mumkinmi, degan xulosaga kelish uchun qo'shimcha tadqiqotlar zarur. Umuman olganda, RoBERTa turli xil modellar orasida eng yaxshi bashorat balliga ega, bu o'zining ancha kattaroq o'quv korpusi va yuqori maskalanishi tufayli.

1-jadval: Turli modellar uchun umumiy MCRMSE ball

Model

MCRMSE ko'rsatkichi

Asosiy

1.36

DistilBERT

0,4934

T5 - asos

0,5320

RoBERTa

0,4746

Uzoq muddatli

0,4899


Regressiya boshini yaxshilashning ta'siri : Ilgari biz regressiya boshi o'qitishni doimiy ushlab turganda, regressiya boshiga turli xil kiritishlarning ta'sirini (ya'ni, oldindan o'rgatilgan modellar va undagi kodlashlarni o'zgartirish orqali) o'rganib chiqdik. Ushbu bo'limda biz kodlashlarni doimiy ravishda ushlab turganda regressiya boshini o'zgartirish ta'sirini o'rganamiz. 2.4-bo'limda ushbu tadqiqotda ko'rib chiqilgan regressiya mashg'ulotlaridagi turli xil o'zgarishlar ro'yxati keltirilgan. E'tibor bering, ushbu bo'limda DistilBERT modeli qo'llaniladi, chunki u eng tez model va GPU talablari pastroq. Turli xil o'quv sxemalari/takomillashtirishlar natijalari 2-jadvalda keltirilgan.

2-jadval: Turli modellar uchun MCRMSE ball

Tajriba

MCRMSE

Chiqishni kvantlash

0,5294

Og'irlangan RMSE

0,5628

Ko'p boshli arxitektura

0,508

Autoencoder Denoising

0,575


Afsuski, regressiya modelini o'rgatishdagi ushbu o'zgarishlarning hech biri bizning asl modellarimiz bilan solishtirganda bashorat qilish aniqligini sezilarli darajada oshirishga olib kelmaydi. Aslida, 2-jadvalda o'rnatilgan tekshirish bo'yicha ishlash ko'rsatkichi ushbu o'zgartirishlar bilan ishlashning pasayishini ko'rsatadi. Ushbu pasayish nima uchun sodir bo'layotgani aniq emas va unumdorlikning pasayishi artefakt emasligini tekshirish uchun kattaroq ma'lumotlar to'plami bilan keyingi o'rganish zarur.


Matnni kodlash va regressiya boshlig'ini o'qitishdagi barcha o'zgarishlar uchun biz individual o'lchovlar bo'yicha MCRMSE ballarini tekshirishdan ko'ramizki, birlashish va grammatika barcha modellarda bashorat qilish eng qiyin bo'lib tuyuladi (3-jadvalga qarang). Bu bizning modellashtirishimiz emas, balki AESda qo'llaniladigan oldindan o'rgatilgan til modellarining cheklanishi bo'lishi mumkin. Kim va boshqalar. (2020) [5] hozirgi til modellarining grammatik jihatdan yaxshi ma'lumotga ega bo'lishdagi cheklovlarini ko'rsatadi va til modellarida keyingi taraqqiyot uchun yo'nalishlarni beradi.

3-jadval: Shaxsiy tahliliy o'lchov uchun MCRMSE ball

Model (yoki tajriba)

Uyg'unlik

Sintaksis

Lug'at

Frazeologiya

Grammatika

Konventsiyalar

Asosiy

1.37

1.35

1.32

1.34

1.44

1.36

distilBERT

0,54

0,51

0,46

0,52

0,57

0,49

T5-tayanch

0,55

0,52

0,48

0,54

0,58

0,53

RoBERTa

0,51

0,47

0,42

0,47

0,51

0,46

Uzoq muddatli

0,54

0,48

0,46

0,49

0,53

0,47

distilBERT + chiqish kvantlash

0,55

0,53

0,48

0,53

0,57

0,51

distilBERT + WRMSE

0,56

0,56

0,55

0,56

0,61

0,53

distilBERT + Multi Head Arch.

0,53

0,50

0,45

0,51

0,56

0,49

Avtokoder + distilBERT

0,59

0,56

0,52

0,56

0,61

0,55


4. Xulosa

Ushbu ishda biz regressiya boshini o'rgatish uchun turli xil arxitektura va usullarning Avtomatlashtirilgan insho reytingi topshirig'iga ta'sirini o'rganib chiqdik, bunda biz har bir inshoni oltita lingvistik ko'rsatkich (masalan, uyg'unlik, grammatika, lug'at) uchun 1 dan 5 gacha bo'lgan shkalada baholaymiz. va boshqalar). Ma'lumotlar to'plami ELLIPSE korpusidan, xususan, Kaggle musobaqalarida keltirilgan ma'lumotlarning kichik to'plamidan olingan. Biz beshta chuqur o'rganish arxitekturasini va regressiya boshini o'rgatishning beshta usulini ko'rib chiqdik va ko'p toifali chiqish eng yaxshi natija bergani uchun ballarni bashorat qilish uchun oddiy 2 qatlamli oldinga o'tish qatlami bilan RoBERTa bazasidan foydalangan holda kuzatdik.


Kutilganidek, transformator arxitekturasi GloVe+LSTM ning asosiy modelidan sezilarli darajada oshib ketdi. Bundan tashqari, transformator arxitekturalarida biz niqoblangan til modellari (DistilBERT, RoBERTa, Longformer) generativ til modeli T5 bilan solishtirganda yuqori samaradorlikni ko'rishini ko'ramiz. Garchi bu kuzatuv barcha generativ modellar uchun umumlashtirilmasa ham, MLMning ustunligi intuitiv ko'rinadi, chunki ular raqamli natijalar uchun maxsus o'qitilgan.


Ushbu tadqiqotning yana bir qiziqarli kuzatuvi shundaki, regressiya boshini o'qitishni yo'qotish funktsiyalarini o'zgartirish, natijalarni cheklash va avtomatik kodlovchiga asoslangan o'lchamlarni kamaytirish/denoizalash, ma'lumotlarni ko'paytirish bilan bir qatorda, model ish faoliyatini yaxshilamadi. Bu juda kutilmagan va biz bu hodisaning sabablarini to'liq tushunmayapmiz. Kelgusi tadqiqotda ushbu yondashuvlar kattaroq ma'lumotlar to'plami bilan takrorlanishi mumkin - bu regressiya boshini o'rgatish bo'yicha ushbu kuzatuvlarni umumlashtirish mumkinligini aniqlashga yordam beradi.


Xulosa qilib aytganda, biz ko'p vazifali o'rganishga o'xshash olti ballni bir vaqtning o'zida bashorat qilish uchun 2 qatlamli oldinga yo'naltirilgan neyron tarmog'i bilan RoBERTa kodlashlaridan foydalanish eng yaxshi samaradorlikni ta'minlashini kuzatamiz. Xususan, ma'lumotlar to'plamining kichik hajmini hisobga olgan holda, mustahkam oldindan o'rgatilgan modeldan foydalanish ta'siri modelning bashoratli ishlashini sezilarli darajada yaxshilaydi. Shuningdek, insho grammatikasini baholashdagi ko'rsatkich har qanday boshqa baholash ko'rsatkichlariga qaraganda yomonroqdir va bu til modeliga xosdir. Demak, kelgusi ishlarda tilning grammatik jihatlarini yaxshiroq qamrab olish uchun til modellarini takomillashtirishga e’tibor qaratish lozim.

Ma'lumotnomalar

  1. Iz Beltagi, Metyu E Peters va Arman Kohan. 2020. Longformer: Uzoq hujjat transformatori. arXiv oldindan chop etish arXiv: 2004.05150 .
  2. Jeykob Devlin, Ming-Vey Chang, Kenton Li va Kristina Toutanova. 2018. BERT: Tilni tushunish uchun chuqur ikki tomonlama transformatorlarni oldindan tayyorlash. arXiv oldindan chop etish arXiv: 1810.04805 .
  3. Joeri R Hermans, Gerasimos Spanakis va Riko Mökel. 2017. Yig'ilgan gradientni normallashtirish. Mashinani o'rganish bo'yicha Osiyo konferentsiyasida , 439-454-betlar. PMLR.
  4. Zixuan Ke va Vinsent Ng. 2019. Avtomatlashtirilgan insho reytingi: San'at darajasi bo'yicha so'rov. IJCAIda , jild. 19, 6300-6308-betlar.
  5. Taeuk Kim, Jihun Choi, Daniel Edmiston va Sang-gu Li. 2020. Oldindan tayyorlangan til modellari iboralardan xabardormi? Grammatik induksiya uchun oddiy, ammo kuchli asoslar.
  6. O'quv agentligi laboratoriyasi. 2022a. Fikr-mulohaza mukofoti - ingliz tilini o'rganish.
  7. O'quv agentligi laboratoriyasi. 2022b. Fikr-mulohaza mukofoti - Talabalarning yozishini baholash.
  8. O'quv agentligi laboratoriyasi. 2022c. Fikr-mulohaza mukofoti - samarali dalillarni bashorat qilish.
  9. Yinxan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mayk Lyuis, Lyuk Zettlemoyer va Veselin Stoyanov. 2019. Roberta: Bertni tayyorlashdan oldin optimallashtirilgan yondashuv. arXiv oldindan chop etish arXiv: 1907.11692.
  10. Sue Lottridge, Ben Godek, Amir Jafari va Milan Patel. 2021. Oʻyin strategiyalariga chuqur oʻrganish va klassik avtomatlashtirilgan ball hisoblash yondashuvlarining mustahkamligini solishtirish. Texnik hisobot - Cambium Assessment Inc.
  11. Xyuyen Nguyen va Lusio Deri. 2016. Inshoni avtomatlashtirilgan baholash uchun neyron tarmoqlar. CS224d Stenford hisobotlari: 1-11.
  12. Adam Roberts va Kolin Raffel. 2020. T5 bilan uzatishni o'rganish: matndan matnga uzatish transformatori. Kiritilgan, 23–07-betlar.
  13. Kave Taghipour va Hwee Tou Ng. 2016. Inshoni avtomatlashtirilgan baholashga neyron yondashuv. Tabiiy tilni qayta ishlashda empirik usullar bo'yicha 2016 yilgi konferentsiya materiallarida, 1882-1891-betlar.
  14. Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomes Lukasz Kaiser Vaswani, Ashish va Illia Polosuxin. 2017. Sizga kerak bo'lgan narsa - diqqat. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 30.