paint-brush
Аутоматско бодовање есеја помоћу великих језичких моделаод стране@junaidsyed
764 читања
764 читања

Аутоматско бодовање есеја помоћу великих језичких модела

од стране Junaid Syed15m2024/10/12
Read on Terminal Reader

Предуго; Читати

Овај рад се бави изазовима аутоматског бодовања есеја (АЕС), наглашавајући потешкоће у бодовању есеја због субјективних карактеристика као што су кохезија, граматика и релевантност. Студија се фокусира на шест аналитичких метрика и предлаже побољшања у односу на тренутне методе коришћењем учења са више задатака, мрежа аутокодера и напредних модела као што је Лонгформер за руковање дужим есејима. Упркос значајном напретку са моделима као што је БЕРТ, проблеми као што су ограничења дужине токена и недостатак разумевања контекста и даље постоје. Рад истражује решења, укључујући кодирање докумената, за побољшање тачности и праведности АЕС-а.
featured image - Аутоматско бодовање есеја помоћу великих језичких модела
Junaid Syed HackerNoon profile picture
0-item

Аутори:

  • Џунејд Сајед, Технолошки институт Џорџије
  • Саи Сханбхаг, Георгиа Институте оф Тецхнологи
  • Вамси Крисхна Цхакравартхи, Георгиа Институте оф Тецхнологи


Аутоматско оцењивање есеја (АЕС) је класичан НЛП задатак који се проучава деценијама. АЕС има много практичне важности и огроман економски потенцијал – АЕС је камен темељац за велике конкурентне испите (нпр. САТ, ГРЕ), а такође и тржиште онлајн учења у процвату. Неколико филантропских и непрофитних организација као што су Билл & Мелинда Гатес Фоундатион и Зуцкерберг-Цхан Инитиативе су финансирале вишеструка Каггле такмичења на АЕС-у [6, 7, 8]. Међутим, упркос овим напорима, проблем је далеко од решења због фундаменталних потешкоћа са бодовањем есеја. Оцењивање есеја је веома субјективно и укључује апстрактне факторе као што су кохезија, граматика, релевантност, итд. које је тешко израчунати. Као резултат тога, добијање ознака за податке о обуци са грануларном оценом есеја по карактеристикама као што су граматика, кохерентност итд. је прилично скупо. Сходно томе, скуп података за обуку је прилично ограничен у поређењу са другим НЛП задацима као што су (маскирани) језички модели, НЕР, ПОС означавање, машинско превођење, итд. Штавише, пружање једноставног укупног резултата даје мало или нимало повратне информације ученику и чини не помажу ученицима у њиховом напредовању. Због тога су тренутни напори усмерени на оцењивање есеја о грануларним аспектима, а не о појединачној оцени. Ово такође помаже да се избегне претерано прилагођавање јер модел предвиђања сада мора да добро функционише на свим метрикама, а не само на једној метрици, у суштини, ово се може замислити као модел са више задатака. У тренутној студији фокусирамо се на шест метрика: кохезију, синтаксу, речник, фразеологију, граматику и конвенције.


1.1 Преглед литературе

Пре 2010-их, већина АЕС модела се ослањала на ручно израђене карактеристике које су дизајнирали рачунарски лингвисти [10, 4]. Међутим, ови модели су обично били пристрасни према одређеним карактеристикама (нпр. дужина есеја) и нису могли да се генерализују на теме и метрике. Пристрасност према ручно израђеним функцијама је адресирана тако што су их заменили уграђивањем речи које су научили језички модели као што су Ворд2Вец и ГлоВе. На основу ових уградњи речи, резултати есеја су предвиђени као задаци регресије и класификације додавањем неуронске мреже низводно од уградње речи. Коришћењем уградњи обучених на великом корпусу, приметно је значајно побољшање у бодовању есеја за све метрике, као иу укупном резултату [11]. Међутим, управо уграђивање речи које је било кључно за побољшање перформанси показало се као највеће ограничење модела. Пошто су уградње у суштини произашле из приступа вреће речи, нису могле да обухвате ниједну контекстуалну информацију која је делимично била обухваћена ручно израђеним језичким карактеристикама у претходним моделима. Уместо додавања ручно израђених карактеристика и потенцијалног поновног увођења недостатака претходних модела, проблем недостатка контекстуалних информација је адресиран преко механизма пажње користећи ЛСТМ [13] и трансформаторске архитектуре. Рад Васванија и Полосукина [14] успешно је развио БЕРТ модел коришћењем трансформатора. Подстакнути успехом БЕРТ модела и трансформаторских архитектура, развијен је налет језичких модела заснованих на пажњи. Сада, уместо уграђивања речи, могло би се добити уграђивање на нивоу реченице или документа које обухвата контекстуалне информације. Користећи ове дубоке уградње, развијају се модели неуронске мреже за предвиђање резултата есеја (и као задаци класификације и регресије).


1.2 Ограничења садашњих приступа

Упркос овом напретку, постоје озбиљна ограничења са коришћењем БЕРТ модела. Лоттридге ет ал. (2021) [10] је показао недостатак робусности модела за есеје у игри, насумично мешање и Бабелове есеје. Перформансе се драстично разликују у различитим класама и метрикама. Да бисмо решили овај недостатак, у овој истрази ћемо моделирати све метрике истовремено кроз учење са више задатака. Још једно кључно ограничење анализе засноване на БЕРТ-у је да је дужина токена ограничена на 512 у БЕРТ моделу. Ово покушавамо да решимо коришћењем напреднијих архитектура као што је Лонгформер који дозвољавају до 4096 токена по документу. За скуп података који се разматра у овој студији (детаљи у одељку 2.1), више од 40% докумената има дужину преко 512 токена. Према томе, скраћивање документа на само 512 токена са стандардним БЕРТ моделом би довело до значајног губитка у контексту. Треће кључно ограничење различитих студија је ограничен скуп података – иако се више студија фокусирало на АЕС, сваки од тих скупова података се бодује другачије, па се модели не могу лако обучити за све скупове података. Стога, у овој студији, истражујемо корисност мрежа аутокодера за обуку кроз скупове података и користимо кодирања изведена из аутокодера за обављање АЕС задатака. Укратко, ова студија истражује ефекат различитих кодирања докумената заснованих на дубоком учењу на аутоматско бодовање есеја. Скуп података, методологија, експерименти и дубоко уграђивање који се разматрају у овој студији представљени су у одељку 2. Поред варирања дубоког уграђивања, анализирамо начине комбиновања различитих АЕС скупова података обучавањем дубинских кодирања преко мреже Аутоенцодер-а. Резултати свих ових приступа представљени су у одељку 3, а закључци као и правци за даља истраживања дати су у одељку 4.

2. Методологија

2.1 Подаци

Лабораторија Агенције за учење, Државни универзитет Џорџије и Универзитет Вандербилт прикупили су велики број есеја од државних и националних образовних агенција, као и од непрофитних организација. Из ове збирке развили су корпус Тхе Персуасиве Ессаис фор Ратинг, Селецтинг, анд Ундерстандинг Аргументативе анд Дисцоурсе Елементс (ПЕРСУАДЕ), који се састоји од аргументираних есеја које су написали ученици од 6. до 12. разреда, и Увид, знање и вештине ученика енглеског језика за евалуацију (ЕЛЛИПСЕ) корпус, који се састоји од есеја које су написали ученици енглеског језика (ЕЛЛс) у разредима 8-12.


ЕЛЛИПСЕ корпус: ЕЛЛИПСЕ корпус садржи преко 7000 есеја које су написали ЕЛЛ у разредима 8-12. Ови есеји су писани као део државних стандардизованих оцењивања писања из школске 2018-19 и 2019-20. Есеје у корпусу ЕЛЛИПСЕ су обележили људски оцењивачи за нивое знања језика користећи рубрику бодовања у пет поена која је садржала и холистичке и аналитичке скале. Холистичка скала се фокусирала на укупан ниво знања језика који је приказан у есејима, док су аналитичке скале укључивале оцене кохезије, синтаксе, фразеологије, речника, граматике и конвенција. Оцена за сваку аналитичку меру се креће од 1,0 до 5,0 у корацима од 0,5 са већим резултатима који одговарају већој стручности у тој мери.


ПЕРСУАДЕ корпус: ПЕРСУАДЕ корпус садржи преко 25.000 аргументованих есеја које су написали амерички ученици од 6. до 12. разреда. Ови есеји су написани као део националних и државних стандардизованих процена писања од 2010-2020. Сваки есеј у ПЕРСУАДЕ корпусу је био анотиран од стране људи који оцењују аргументе и елементе дискурса, као и хијерархијске односе између аргументативних елемената. Рубрика за напомене је развијена да идентификује и процени елементе дискурса који се обично налазе у аргументованом писању.


За овај пројекат користимо корпус ЕЛЛИПСЕ и истовремено предвиђамо резултат за шест аналитичких мера: кохезију, синтаксу, речник, фразеологију, граматику и конвенције. Поред тога, покушавамо да побољшамо нашу тачност предвиђања коришћењем аутоенкодера. Идеја је да се обучи аутоенкодер користећи корпус ЕЛЛИПСЕ и ПЕРСУАДЕ. Кроз овај процес, компримовани вектор карактеристика из аутокодера би могао да ухвати карактеристике есеја битне за бодовање које би унапред обучене карактеристике језичког модела могле да пропусте.

2.2 Приступ

Као што је раније речено, циљ овог пројекта је да се предвиди резултат од шест аналитичких мера: кохезија, синтакса, речник, фразеологија, граматика и конвенције о аргументованим есејима које су написали ученици енглеског језика од 8. до 12. разреда. За овај задатак прво развијамо основну линију, а затим користимо више унапред обучених модела да бисмо побољшали основну линију.


Основна линија : Основна линија је развијена коришћењем ГлоВе уградње и двосмерне ЛСТМ мреже. За основни модел, прво вршимо чишћење података, тј. уклањање знакова интерпункције, уклањање размака, итд. користећи библиотеку регуларних израза, а затим користимо реч токенизер из НЛТК-а да токенизујемо есеје. ЛСТМ мрежа је обучена на ГлоВе кодирања есеја да би произвела вектор дужине 6 који представља резултат за сваку од горњих шест аналитичких мера. Користимо средњи квадратни губитак грешке (МСЕЛосс) за обуку неуронске мреже.


ДистилБЕРТ : ДистилБЕРТ је мали, брз и лаган модел трансформатора обучен дестилацијом БЕРТ базе. Има 40% мање параметара од берт-басе-унцасед и ради 60% брже док задржава преко 95% перформанси БЕРТ-а измерених на ГЛУЕ тесту за разумевање језика. БЕРТ користи самопажњу да ухвати контекстуалне информације из читаве секвенце [2]. Ово побољшава способност модела да процени узорке есеја и пружи тачнији резултат. За овај модел користимо аутоматски токенизер да токенизујемо есеје и затим прослеђујемо ове токене унапред обученом ДистилБЕРТ моделу да бисмо добили векторску репрезентацију есеја. Затим обучавамо двослојну неуронску мрежу користећи МСЕЛосс да вратимо 6-димензионални излазни вектор који представља резултате за сваки од шест горе описаних атрибута писања.


Т5 : Т5 или Тект-То-Тект Трансфер Трансформер је модел кодер-декодер који је унапред обучен за мешавину задатака без надзора и надзора за више задатака и за који се сваки задатак претвара у формат текста у текст. Са БЕРТ-ом, који је унапред обучен за Маскирани ЛМ и циљ предвиђања следеће реченице, морамо одвојено да фино подесимо различите инстанце унапред обученог модела за различите низводне задатке као што је класификација секвенце. Т5-ов оквир тект-то-тект пружа једноставан начин за обуку једног модела за широк спектар текстуалних задатака користећи исту функцију губитка и процедуру декодирања. Овај оквир пре обуке обезбеђује моделу „знање“ опште намене које побољшава његове перформансе на низводним задацима [12]. Користили смо ауто-токенизатор да токенизујемо есеје, а затим пренели ове токене у унапред обучени Т5-Басе модел да бисмо добили векторску репрезентацију есеја. Затим обучавамо двослојну неуронску мрежу користећи МСЕЛосс да вратимо 6-димензионални излазни вектор (слично ДистилБЕРТ-у).


РоБЕРТа-басе : РоБЕРТа је још један модел маскираног језика сличан БЕРТ-у који је развио Фацебоок. У случају РоБЕРТа, динамичко маскирање се користи током тренинга за све епохе, док је у БЕРТ-у маска статична. Кроз ово, модел учи много више токена него у БЕРТ-у. Даље побољшање перформанси постиже се обуком на много већем корпусу података од БЕРТ-а (10к) и већем скупу речника. Кроз ове промене у обуци, РоБЕРТа надмашује БЕРТ на већини задатака ГЛУЕ и СКуАД [9].


Лонгформер : Лонгформер је модел трансформатора сличан БЕРТ-у који је еволуирао из РоБЕРТа контролне тачке и обучен као модел маскираног језика (МЛМ) на дугим документима. Подржава секвенце дужине до 4.096 токена. Типично, модели засновани на трансформаторима који користе механизам самопажње нису у стању да обрађују дугачке секвенце јер захтеви за меморијом и рачунарством расту квадратно са дужином секвенце. Ово чини неизводљивим ефикасну обраду дугих секвенци. Лонгформери решавају ово кључно ограничење увођењем механизма пажње који се линеарно скалира са дужином секвенце [1]. Користи механизам пажње клизног прозора и проширеног клизног прозора да ухвати локални и глобални контекст. За модел Лонгформер, користимо сличан приступ као ДистилБЕРТ. Користимо ауто-токенизер да токенизујемо есеје и затим прослеђујемо ове токене унапред обученом Лонгформер моделу да бисмо добили векторску репрезентацију есеја. Затим обучавамо двослојну неуронску мрежу користећи МСЕЛосс да вратимо 6-димензионални излазни вектор (слично ДистилБЕРТ-у).


Такође смо користили акумулацију градијента за обуку наших модела на већој величини серије него што је наш Цолаб рунтиме ГПУ могао да стане у своју меморију. Због велике величине модела Лонгформер, били смо ограничени на величину серије од само два. Тако мала величина серије би резултирала нестабилним прорачунима градијента. Ово заобилазимо акумулацијом градијента – уместо да пропагирамо губитак након сваке итерације, акумулирамо губитак и враћамо грешку само након одређеног броја серија да бисмо побољшали стабилност ажурирања градијента [3].

2.3 Евалуација

Да бисмо проценили тачност предвиђених резултата нашег модела, користићемо средњу средњу квадратну грешку колоне (МЦРМСЕ) као метрику. метрика се израчунава као:

2.4 Експерименти

Након имплементације горе описаних модела, покушали смо са неколико експеримената да побољшамо грешку предвиђања ових модела. Детаљи ових експеримената су следећи:


  • Квантизација излаза : У корпусу ЕЛЛИПСЕ, резултат за сваку аналитичку меру се креће од 1,0 до 5,0 у корацима од 0,5 са већим резултатима који одговарају већој стручности у тој мери. Модификовали смо нашу неуронску мрежу тако да је излаз ограничен између 1 и 5. То смо урадили тако што смо уградили сигмоидни слој кроз који излаз пролази, а затим помножимо овај излаз са 4 и додамо му 1. Штавише, када се резултати генеришу из неуронске мреже, изводимо математичку операцију скор = инт[(2 * резултат + 0,5) / 2] да бисмо били сигурни да се излазни инкременти повећавају само у корацима од 0,5. Ова операција је имала за циљ да понови формат оригиналних резултата и провери да ли таква модификација побољшава тачност.


  • Пондерисани РМСЕ : У корпусу ЕЛЛИПСЕ, резултат за сваку аналитичку меру се креће од 1,0 до 5,0 у корацима од 0,5. Међутим, дистрибуција сваког резултата у скупу података није слична. Одређени резултати као што су 2,5, 3 и 3,5 се чешће јављају у нашем скупу података за сваку од аналитичких мера, док се резултати попут 1 и 5 ретко јављају у читавом скупу података. Да бисмо објаснили ову неравнотежу, користили смо функцију пондерисане средње квадратне грешке (ВРМСЕ) где се инверзна фреквенција одређеног резултата користи као тежина и ову тежину исечемо ако је изузетно висока у поређењу са другим пондерима.


  • МултиХеад архитектура : Као што је поменуто у претходном одељку, пошто дистрибуција сваког резултата у скупу података није слична, експериментисали смо са поседовањем коначне двослојне неуронске мреже специфичне за меру да бисмо предвидели резултате. Дакле, уместо једне излазне главе која предвиђа 6 различитих вредности резултата, имплементирали смо 6 различитих излазних глава да бисмо предвидели резултат за сваку аналитичку меру.


  • Аутоенцодер : Скуп података који је обезбеђен за тренутни задатак вишекласног бодовања есеја је само око 4к узорака. Међутим, у корпусу ЕЛЛИПСЕ и ПЕРСУАДЕ заједно, постоји више од 180 хиљада есеја за друге АЕС задатке, као што су појединачни резултати за читаве есеје и делове есеја. Због тога се аутоматски енкодери користе за искориштавање ове веће базе података и извођење полу-надгледаног учења. Укратко речено, кодирања из језичких модела као што су БЕРТ, Т5 пролазе кроз мрежу аутоенкодера која је обучена коришћењем свих 180к узорака. Затим, или кодирање слоја уског грла или кодирања модела језика без шума из декодерског дела аутоенкодера се користе за предвиђање резултата више класа коришћењем двослојне неуронске мреже за регресиону главу, слично потпуно надгледаном сценарију. Стога, коришћењем већег скупа неозначених података за обуку аутокодера као претпроцесора, настојимо да побољшамо предвиђања учења под надзором. У овој студији, размотрили смо оба кодирања са деноисингом заснована на ДистилБЕРТ кодовима.

3. Резултати и дискусија

Ефекат унапред обучених кодирања : Табела 1 сумира метрику учинка добијену варирањем унапред обучених модела описаних у одељку 2.2. У овим рундама, кодирања из претходно обучених модела се директно преносе кроз двослојну неуронску мрежу која се обучава коришћењем МСЕ губитка, и ниједно од потенцијалних побољшања о којима се говори у одељку 2.4 није имплементирано. Пошто је ово вишекласна регресија, перформансе модела за сваку метрику бодовања приказане су у табели 3.


Међу архитектурама трансформатора наведеним у Табели 1, видимо да модели маскираних језика ДистилБЕРТ, РоБЕРТа и Лонгформер раде боље од генеративног модела Т5 – вероватно зато што су маскирани модели више подешени на дискриминативне задатке са нумеричким излазима. Даља истраживања су неопходна да би се закључило да ли се ово може генерализовати за вишеструке генеративне језичке моделе. Све у свему, РоБЕРТа има најбољи резултат предвиђања међу различитим моделима, вероватно због свог много већег корпуса тренинга и супериорног маскирања.

Табела 1: Укупни МЦРМСЕ резултат за различите моделе

Модел

МЦРМСЕ метрика

Баселине

1.36

ДистилБЕРТ

0,4934

Т5-база

0,5320

РоБЕРТа

0,4746

Лонгформер

0,4899


Ефекат побољшања на регресиону главу : Раније смо истраживали ефекат различитих улаза у регресиону главу (тј. варирањем унапред обучених модела и кодирања у њима), док смо одржавали константну обуку главе регресије. У овом одељку истражујемо ефекат варирања тренинга главе регресије уз задржавање константних кодирања. Одељак 2.4 наводи различите промене у обуци регресије које се истражују у овој студији. Имајте на уму да се у овом одељку користи ДистилБЕРТ модел јер је то најбржи модел и има ниже захтеве за ГПУ. Резултати за различите шеме/побољшања обуке приказани су у табели 2.

Табела 2: МЦРМСЕ резултат за различите моделе

Експериментишите

МЦРМСЕ

Оутпут Куантизатион

0,5294

Веигхтед РМСЕ

0,5628

МултиХеад Арцхитецтуре

0,508

Аутоенцодер Деноисинг

0.575


Нажалост, ниједна од ових варијација за обуку регресионог модела не резултира значајним побољшањем тачности предвиђања у поређењу са нашим оригиналним моделима. У ствари, метрика учинка на скупу валидације у табели 2 указује на пад перформанси са овим модификацијама. Није јасно зашто долази до овог смањења и даља студија са већим скупом података је неопходна да би се потврдило да ово смањење перформанси није артефакт.


За све варијације у кодирању текста и обуци главе регресије, примећујемо из валидационих МЦРМСЕ резултата за појединачне мере да се чини да је кохезију и граматику најтеже предвидети у свим моделима (погледајте табелу 3). Ово би могло бити ограничење унапред обучених језичких модела који се користе у АЕС-у, а не наше моделирање. Ким и др. (2020) [5] показују ограничења актуелних језичких модела у граматичкој доброј информисаности и дају смернице за даљи напредак у језичким моделима.

Табела 3: МЦРМСЕ резултат за појединачну аналитичку меру

Модел (или Екп.)

Кохезија

Синтакса

Речник

Фразеологија

Граматика

конвенције

Баселине

1.37

1.35

1.32

1.34

1.44

1.36

дистилБЕРТ

0,54

0,51

0.46

0,52

0,57

0.49

Т5-Басе

0,55

0,52

0,48

0,54

0,58

0,53

РоБЕРТа

0,51

0,47

0.42

0,47

0,51

0.46

Лонгформер

0,54

0,48

0.46

0.49

0,53

0,47

дистилБЕРТ + квантизација излаза

0,55

0,53

0,48

0,53

0,57

0,51

дистилБЕРТ + ВРМСЕ

0,56

0,56

0,55

0,56

0.61

0,53

дистилБЕРТ + Мулти Хеад Арцх.

0,53

0,50

0,45

0,51

0,56

0.49

Аутоенцодер + дистилБЕРТ

0,59

0,56

0,52

0,56

0.61

0,55


4. Закључак

У овом раду смо истражили ефекат различитих унапред обучених архитектура и метода за обуку главе регресије на задатак аутоматизованог бодовања есеја, где сваки есеј оцењујемо на скали од 1 до 5 за шест језичких метрика (нпр. кохезију, граматику, речник , итд.). Скуп података је преузет из корпуса ЕЛЛИПСЕ, конкретно подскуп података наведених у Каггле такмичењима. Размотрили смо пет архитектура дубоког учења и пет начина за тренирање главе регресије и посматрали коришћење РоБЕРТа-базе са једноставним двослојним слојем унапред да бисмо предвидели резултате јер је излаз из више класа дао најбољи резултат.


Као што се очекивало, трансформаторске архитектуре су значајно надмашиле основни модел ГлоВе+ЛСТМ. Штавише, унутар трансформаторских архитектура, видимо да маскирани језички модели (ДистилБЕРТ, РоБЕРТа, Лонгформер) дају супериорне перформансе у поређењу са генеративним језичким моделом Т5. Иако се ово запажање не генерализује на све генеративне моделе, интуитивно се доминација МЛМ-а чини доследном пошто су они обучени посебно за нумеричке резултате.


Још једно занимљиво запажање ове студије је да варирање обучавања регресионе главе променом функција губитка, ограничавањем излаза и смањењем/умањивање димензионалности засновано на аутокодеру, заједно са повећањем података, није побољшало перформансе модела. Ово је прилично неочекивано и не разумемо у потпуности разлоге који стоје иза овог феномена. У будућој студији, ови приступи се могу поновити са већим скупом података - ово помаже да се утврди да ли се ова запажања у вези са обучавањем главе регресије могу генерализовати.


Укратко, примећујемо да коришћење РоБЕРТа кодирања са 2-слојном неуронском мрежом унапред за предвиђање шест резултата истовремено, слично учењу са више задатака, пружа најбоље перформансе. Посебно, с обзиром на малу величину скупа података, види се да ефекат коришћења робусног претходно обученог модела значајно побољшава предиктивне перформансе модела. Такође, учинак у процени граматике есеја је лошији од било које друге метрике евалуације, а то је својствено језичком моделу. Стога би будући радови требало да се фокусирају на побољшање језичких модела како би се боље обухватили граматички аспекти језика.

Референце

  1. Из Белтаги, Маттхев Е Петерс и Арман Цохан. 2020. Лонгформер: трансформатор дугог документа. арКсив препринт арКсив:2004.05150 .
  2. Јацоб Девлин, Минг-Веи Цханг, Кентон Лее и Кристина Тоутанова. 2018. БЕРТ: Пре-тренинг дубоких двосмерних трансформатора за разумевање језика. арКсив препринт арКсив:1810.04805 .
  3. Јоери Р Херманс, Герасимос Спанакис и Рицо Моцкел. 2017. Нормализација акумулираног градијента. У Азијској конференцији о машинском учењу , стране 439–454. ПМЛР.
  4. Зикуан Ке и Винцент Нг. 2019. Аутоматско бодовање есеја: Преглед стања технике. У ИЈЦАИ , вол. 19, стр. 6300-6308.
  5. Таеук Ким, Јихун Цхои, Даниел Едмистон и Санг-гоо Лее. 2020. Да ли су унапред обучени језички модели свесни фраза? Једноставне, али снажне основе за индукцију граматике.
  6. Лабораторија Агенције за учење. 2022а. Награда за повратне информације - учење енглеског језика.
  7. Лабораторија Агенције за учење. 2022б. Награда за повратну информацију – Вредновање писања ученика.
  8. Лабораторија Агенције за учење. 2022ц. Награда за повратне информације - Предвиђање ефективних аргумената.
  9. Иинхан Лиу, Миле Отт, Наман Гоиал, Јингфеи Ду, Мандар Јосхи, Данки Цхен, Омер Леви, Мике Левис, Луке Зеттлемоиер и Веселин Стојанов. 2019. Роберта: Робусно оптимизован приступ претренинга берта. арКсив препринт арКсив:1907.11692.
  10. Сју Лотриџ, Бен Годек, Амир Џафари и Милан Пател. 2021. Упоређивање робусности дубоког учења и класичних приступа аутоматизованог бодовања са стратегијама игара. Технички извештај - Цамбиум Ассессмент Инц.
  11. Хујен Нгујен и Луцио Дери. 2016. Неуронске мреже за аутоматизовано оцењивање есеја. ЦС224д Станфорд извештаји: 1-11.
  12. Адам Робертс и Колин Рафел. 2020. Истраживање трансферног учења са Т5: трансформатор за пренос текста у текст. Приступљено на, стране 23–07.
  13. Кавех Тагипур и Хви Тоу Нг. 2016. Неурални приступ аутоматизованом бодовању есеја. У Зборник радова конференције 2016. о емпиријским методама у обради природног језика, стр. 1882-1891.
  14. Ноам Схазеер Ники Пармар Јакоб Усзкореит Ллион Јонес Аидан Н. Гомез Łукасз Каисер Васвани, Асхисх и Иллиа Полосукхин. 2017. Пажња је све што вам треба. Напредак у системима за обраду неуронских информација, 30.