Հեղինակներ:
(1) Մարտինա Վիչեկ, Լեհաստանի գիտությունների ակադեմիայի Համակարգչային գիտությունների ինստիտուտ;
(2) Պյոտր Ռիբակ, Համակարգչային գիտությունների ինստիտուտ, Լեհաստանի գիտությունների ակադեմիա;
(3) Łukasz Pszenny, Համակարգչային գիտությունների ինստիտուտ, Լեհաստանի գիտությունների ակադեմիա;
(4) Ալինա Վրոբլևսկա, Համակարգչային գիտությունների ինստիտուտ, Լեհաստանի գիտությունների ակադեմիա.
Խմբագրի նշում. Սա բնական լեզվի նախնական մշակման մեջ օգտագործվող գործիքների գնահատման և համեմատության բարելավման վերաբերյալ ուսումնասիրության 10-րդ մասն է: Մնացածը կարդացեք ստորև։
Վերացական և 1. Ներածություն և հարակից աշխատանքներ
4.1. Գնահատման մեթոդաբանություն
Տրանսֆորմատորների վրա հիմնված ճարտարապետության առաջընթացի շնորհիվ մենք նկատում ենք բնական լեզվի նախնական մշակման (NLPre) գործիքների աճը, որոնք ունակ են լուծելու նախնական NLP առաջադրանքները (օրինակ՝ նշանավորում, խոսքի մասի հատկորոշում, կախվածության վերլուծություն կամ ձևաբանական վերլուծություն) առանց որևէ արտաքին լեզվական ուղղորդման: . Դժվար է նոր լուծումները համեմատել լավ արմատացած նախնական մշակման գործիքների հետ՝ հիմնվելով կանոնների վրա հիմնված մորֆոլոգիական անալիզատորների կամ բառարանների վրա: Տեղյակ լինելով NLPre-ի գնահատման առկա մոտեցումների թերություններին՝ մենք ուսումնասիրում ենք հուսալի և արդար գնահատման և կատարողականի հաշվետվությունների նոր մեթոդ: Ոգեշնչված GLUE-ի չափանիշով, առաջարկվող լեզվակենտրոն համեմատական համակարգը հնարավորություն է տալիս բազմակի NLPre գործիքների համապարփակ շարունակական գնահատումը՝ միաժամանակ վստահելիորեն հետևելով դրանց կատարողականին: Նախատիպային հավելվածը կազմաձևված է լեհերենի համար և ինտեգրված է մանրակրկիտ հավաքված NLPre-PL հենանիշի հետ: Այս հենանիշի հիման վրա մենք իրականացնում ենք լեհական NLPre համակարգերի լայնածավալ գնահատում: Այլ լեզուների համար համեմատական միջավայրերի կառուցումը հեշտացնելու համար, օրինակ՝ NLPre-GA իռլանդերենի կամ NLPre-ZH չինարենի համար, մենք ապահովում ենք չափորոշիչ համակարգի հրապարակայնորեն հրապարակված սկզբնական կոդի ամբողջական անհատականացում: Բոլոր ռեսուրսների հղումները (տեղակայված հարթակներ, ելակետային կոդը, վերապատրաստված մոդելներ, տվյալների հավաքածուներ և այլն) կարելի է գտնել ծրագրի կայքում՝ https://sites.google.com/view/nlpre-benchmark:
Հիմնաբառեր ՝ հենանիշ, առաջատարների աղյուսակ, հատվածավորում, POS հատկորոշում, կախվածության վերլուծություն, լեհերեն
Խոսքի մասնակի (POS) հատկորոշիչներով և կախվածության վերլուծիչներով կանխատեսված մորֆոսինտակտիկ առանձնահատկությունները ընկած են ներքևի տարբեր առաջադրանքների հիմքում, ներառյալ, բայց չսահմանափակվելով զգացմունքների վերլուծությամբ (Sun et al., 2019), հարաբերությունների արդյունահանում (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019), իմաստային դերի պիտակավորում (Wang et al., 2019; Kasai et al., 2019), հարցերի պատասխաններ (Khashabi et al., 2018) կամ մեքենայական թարգմանություն (Chen et al., 2017; Zhang et al., 2019): Հետևաբար, այս հիմնական առաջադրանքները կարող են կոչվել բնական լեզվի նախնական մշակման (NLPre) առաջադրանքներ, քանի որ դրանք նախորդում են առաջադեմ NLP առաջադրանքներին: Քանի որ մորֆոսինտակտային կանխատեսումների որակը վճռորոշ ազդեցություն ունի ներքևում գտնվող առաջադրանքների կատարման վրա (Sachan et al., 2021), խելամիտ է օգտագործել լավագույն գոյություն ունեցող NLPre գործիքները համապատասխան լեզվական հատկանիշները կանխատեսելու համար: Մենք համալրված ենք NLPre-ի տարբեր մեթոդներով՝ սկսած կանոնների վրա հիմնված գործիքներից՝ ձեռքով պատրաստված քերականությամբ (օրինակ՝ Crouch et al., 2011), վիճակագրական համակարգերով (օրինակ՝ Nivre, 2009; McDonald et al., 2005; Straka et al., 2016 թ.), նեյրոնային համակարգեր, որոնք աջակցվում են նախապես պատրաստված լեզվական մոդելներով (օրինակ՝ Qi et al., 2020; Նգուեն և այլք, 2021 ա) մեծ լեզվական մոդելների համար (LLM Ouyang et al., 2022):
NLPre գործիքների ներքին գնահատման և դրանց կատարման հաշվետվությունների համատեքստում առաջարկվել են մի շարք մոտեցումներ, օրինակ՝ ընդհանուր առաջադրանք, կատարողական աղյուսակ և առաջընթացի շտեմարան: Համատեղ առաջադրանքի հիմնական նպատակն է համապարփակ գնահատել մասնակից համակարգերը թողարկված տվյալների հավաքածուների վրա՝ օգտագործելով մանրակրկիտ սահմանված գնահատման մեթոդաբանությունը: Մինչ այժմ կազմակերպվել են բազմաթիվ NLPre-ի համատեղ առաջադրանքներ (օրինակ՝ Buchholz and Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), և դրանք, անկասկած, խթանել են NLPre-ի զարգացումը: Համատեղ առաջադրանքները, թեև լայնորեն հավանության են արժանանում, կասկածելի են՝ որպես NLPre առաջընթացի վերաբերյալ գիտելիքների ամբողջական և արդի աղբյուր: Նախ, նրանք մանրակրկիտ ուսումնասիրում են միայն ընթացիկ մրցույթում առաջարկված լուծումները և չեն ներառում նախորդ կամ հնարավոր ապագա հրատարակություններին մասնակցող համակարգերը: Երկրորդ, քանի որ ընդհանուր առաջադրանքները պարբերաբար կազմակերպվում են, դրանց արդյունքները չեն վերանայվում և կարող են արագ հնանալ: Իհարկե, ընդհանուր առաջադրանքների համար թողարկված տվյալների հավաքածուները կարող են կրկին օգտագործվել նոր գործիքների հետ կապված փորձերում: Նման փորձերի արդյունքները կարելի է հաղորդել անկախ գիտական հրապարակումներում: Այնուամենայնիվ, այս հրապարակումները լայնորեն ցրված են, չունենալով կենտրոնացված հարթակ՝ համակարգված կերպով հետևելու NLPre-ի ընթացիկ առաջընթացին որոշակի լեզվի նկատմամբ:
Նոր կամ արդիականացված NLPre գործիքի արդյունքները սովորաբար հաղորդվում են կատարողականի աղյուսակներում (օրինակ՝ Stanza[1] կամ Trankit[2]): Նման աղյուսակները տեղեկատվություն են տրամադրում գործիքի որակի մասին մի շարք լեզուների նախամշակման ժամանակ: Այնուամենայնիվ, կատարողականի աղյուսակները հաճախ չունեն համեմատություն այլ համակարգերի հետ, որոնք պատրաստված են այս կոնկրետ լեզուների համար: Բացի այդ, քանի որ NL Pre համակարգերը կարող են վերապատրաստվել տվյալների տարբեր թողարկումների վրա (օրինակ՝ Համընդհանուր կախվածությունների), դրանց կատարողական աղյուսակների համեմատությունը վերջնական չէ:
NLP հետազոտության միտումների և առաջընթացի մասին տեղեկատվությունը սովորաբար հավաքվում է հանրային շտեմարաններում, ինչպիսիք են Papers with Code[3] կամ NLP-progress[4]: Այս պահոցները պարունակում են տվյալների հավաքածուների ռեպերտուար ընդհանուր NLP առաջադրանքների համար, օրինակ՝ կախվածության վերլուծություն և POS հատկորոշում, և այս տվյալների հավաքածուների վրա վերապատրաստված և փորձարկված մոդելների դասակարգում: Նրանք բաց են նոր տվյալների հավաքածուների և արդյունքների ներդրման համար, որոնք իրենց արժանահավատությունն ապահովելու համար բխում են հրապարակված և կապակցված գիտական հոդվածներից: Այնուամենայնիվ, նոր կամ արդիականացված NLPre համակարգի գերժամանակակից, դեռ չհրապարակված արդյունքները ենթակա չեն զեկուցման: NLPre առաջադրանքները ուղեկցվում են տվյալների հավաքածուներով հիմնականում անգլերենով, ինչը բարձրացնում է պահեստների լեզվական չներկայացման խնդիրը: Վերջին, բայց ոչ պակաս կարևորը, Papers with Code շտեմարանը հակված է չարաշահումների: Մուտք գործելուց հետո կարելի է ավելացնել նոր արդյունքներ և դրանք կապել անտեղի թղթերի հետ, ինչպես նաև խմբագրել առկա արդյունքները: Կեղծ արդյունքները անմիջապես հրապարակվում են։
Չնայած NLPre-ի առաջընթացի մասին արժեքավոր տեղեկատվությանը, նշված գնահատման մոտեցումները բացահայտում են նաև թերություններ, օրինակ՝ հնացած և թերի արդյունքներ, միջհամակարգային համեմատության բացակայություն, որոշ համակարգերի անտեսում, արդյունքների մանիպուլյացիայի ռիսկ և լեզվակենտրոն հեռանկարի բացակայություն:
Հետևելով NLP հետազոտության ստանդարտ ընթացակարգերին՝ մենք առաջարկում ենք ճշգրիտ և արդարացիորեն գնահատել NLPre գործիքները՝ օգտագործելով համեմատական մեթոդը, որը թույլ է տալիս գնահատել NLP մոդելների կատարողականը և առաջընթացը: NLP հենանիշերը զուգորդվում են առաջատարների հետ, որոնք զեկուցում և թարմացնում են մոդելի կատարողականը հենանիշային առաջադրանքների վերաբերյալ, օրինակ՝ GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021): Պայմանական հենանիշային մոտեցումը կարող է դինամիկորեն բարելավվել, օրինակ՝ Dynabench պլատֆորմը (Kiela et al., 2021), որը թույլ է տալիս օգտվողներին ավելացնել հենանիշային տվյալները՝ մուտքագրելով հատուկ օրինակներ: Մարդկային և «մոդելների մեջ» հենանիշավորման այս սցենարը խոստումնալից է թվում NLU առաջադրանքների համար: Այնուամենայնիվ, այն կարող է արդյունավետ չլինել NLPre-ի դեպքում, քանի որ շարահյուսական ծառերի կամ մորֆոլոգիական առանձնահատկությունների արժանահավատ օրինակների նշումը պահանջում է փորձագիտական գիտելիքներ: Պատահական օգտատերերի շրջանում բազմաթիվ փորձագետներ գտնելը կարող է լուրջ խոչընդոտ հանդիսանալ, ուստի մենք մեր համակարգը ներդնում ենք ստանդարտ չափորոշիչ մեթոդին համահունչ:
Մեր տեղեկություններով, չափանիշը չի կիրառվել NLPre համակարգերը դասակարգելու համար, նույնիսկ եթե այն արժեքավոր և ցանկալի է համայնքի կողմից՝ ստեղծելով ծառերի ափեր կամ նախագծելով առաջադեմ NLP խողովակաշարեր: Մեր NLPre չափորոշիչ մոտեցումը լրացնում է այս բացը: Առաջարկվող առցանց համեմատական համակարգը ավտոմատ կերպով գնահատում է NLPre համակարգերի ներկայացված կանխատեսումները և հրապարակում դրանց կատարողականի վարկանիշը հանրային գնահատման աղյուսակում (տես Բաժին 2.2): Համակարգը լեզվակենտրոն է և ագնոստիկ պիտակներ, թույլ է տալիս համապարփակ և վստահելի գնահատում և հանդիսանում է տվյալ լեզվի համար NLPre առաջընթացի վերաբերյալ տեղեկատվության արդի աղբյուր: Ի տարբերություն նմանատիպ հարթակների, օրինակ՝ Codalab (Pavao et al., 2022), NLPre չափորոշիչ համակարգը լիովին կարգավորելի է և հեշտ է կարգավորվել՝ թույլ տալով օգտվողներին ստեղծել գնահատման միջավայր ցանկացած լեզվի համար: Բացի այդ, այն կարող է ինքնուրույն հյուրընկալվել, ինչը հարմար է դարձնում որոշակի լեզվով աշխատող մշակողների և հետազոտողների համար, որպեսզի այն հասանելի լինի տեղական սերվերում:
NLPre առաջադրանքների համար համեմատական տեխնիկայի օգտագործումը հիմնավորելու համար մենք էմպիրիկ հետազոտություն ենք անցկացնում դժվար սցենարով, օրինակ լեհերենով: Լեհերենի դեպքում առաջանում է մեկ գերիշխող խոչընդոտ՝ տարբեր պիտակային խմբերի, ծանոթագրությունների սխեմաների և տվյալների հավաքածուների միջև անհամապատասխանությունները, որոնք օգտագործվում են տարբեր համակարգերի ուսուցման համար, բացառում են դրանց ուղղակի համեմատությունը: Այսպիսով, մենք ստանդարտացնում ենք NLPre համակարգերի ուսուցումն ու գնահատումը լեհական նոր կատարողականի հենանիշի վրա, այսուհետ՝ NLPre-PL (տես Բաժին 3): Այն բաղկացած է NLPre առաջադրանքների նախապես սահմանված շարքից և գոյություն ունեցող լեհական տվյալների հավաքածուների վերաձեւակերպված տարբերակներից: Բաժին 4-ը ուրվագծում է ընտրված NLPre համակարգերի մեր ամուր և հուսալի գնահատումը NLPre-PL հենանիշի վրա: Մեր գիտելիքների համաձայն, լեհերենով ոչ մի գնահատման փորձ չի իրականացվել՝ համեմատելու համար նախատեսված LLM-ների, նյարդային NLPre համակարգերի և հաստատված պիտակավորման անսարքությունների կատարողականը, պայմանավորված գնահատման համահունչ միջավայրի բացակայության պատճառով:
Այս աշխատանքը կատարում է եռակողմ ներդրում, որը ներառում է նորություն, հետազոտություն և զարգացում, որը հիմնված է բաց կոդով էթոսի վրա: (1) Մենք առաջարկում ենք նոր լեզվի վրա հիմնված չափորոշիչ մոտեցում՝ գնահատելու և դասակարգելու NLPre համակարգերը: (2) Մենք իրականացնում ենք առաջարկվող մոտեցման գիտական գնահատում լեհերենի ոչ տրիվիալ սցենարում հավաքված NLPre-PL հենանիշի վրա: (3) Մենք հրապարակում ենք հենանիշավորման առցանց հարթակներ երեք տարբեր լեզուների համար՝ լեհերեն[5], չինարեն[6] և իռլանդերեն[7] և թողարկում ենք չափորոշիչ համակարգի սկզբնական կոդը որպես բաց կոդով:
Այս փաստաթուղթը հասանելի է arxiv-ում CC BY-NC-SA 4.0 DEED լիցենզիայի ներքո:
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu