Müəlliflər:
(1) Martyna Wiącek, Polşa Elmlər Akademiyasının Kompüter Elmləri İnstitutu;
(2) Piotr Rıbak, Polşa Elmlər Akademiyasının Kompüter Elmləri İnstitutu;
(3) Łukasz Pszenny, Polşa Elmlər Akademiyasının Kompüter Elmləri İnstitutu;
(4) Alina Wróblewska, Polşa Elmlər Akademiyasının Kompüter Elmləri İnstitutu.
Redaktorun qeydi: Bu, təbii dildə ilkin emalda istifadə olunan alətlərin qiymətləndirilməsi və müqayisəsinin təkmilləşdirilməsi üzrə tədqiqatın 10-cu hissəsinin 1-ci hissəsidir. Qalanını aşağıda oxuyun.
Abstrakt və 1. Giriş və əlaqədar işlər
4.1. Qiymətləndirmə metodologiyası
4.2. Qiymətləndirilmiş sistemlər
Transformator əsaslı arxitekturaların inkişafı ilə biz heç bir xarici linqvistik təlimat olmadan ilkin NLP tapşırıqlarını (məsələn, tokenləşdirmə, nitqin bir hissəsinin etiketlənməsi, asılılığın təhlili və ya morfoloji təhlil) həll edə bilən təbii dilin ilkin işlənməsi (NLPre) vasitələrinin yüksəlişini müşahidə edirik. . Qaydalara əsaslanan morfoloji analizatorlara və ya lüğətlərə əsaslanaraq, yeni həlləri yaxşı köklənmiş ilkin emal alətləri ilə müqayisə etmək çətindir. Mövcud NLPre qiymətləndirmə yanaşmalarının çatışmazlıqlarını dərk edərək, biz etibarlı və ədalətli qiymətləndirmə və performans hesabatının yeni üsulunu araşdırırıq. GLUE etalonundan ilhamlanan, təklif olunan dil mərkəzli müqayisə sistemi çoxsaylı NLPre alətlərinin hərtərəfli davamlı qiymətləndirilməsinə imkan verir, eyni zamanda onların performansını etibarlı şəkildə izləyir. Prototip tətbiqi polyak dili üçün konfiqurasiya edilib və hərtərəfli yığılmış NLPre-PL benchmarkı ilə inteqrasiya olunub. Bu meyar əsasında biz Polşanın müxtəlif NLPre sistemlərinin geniş qiymətləndirilməsini həyata keçiririk. Digər dillər üçün müqayisə mühitlərinin qurulmasını asanlaşdırmaq üçün, məsələn, İrlandiya üçün NLPre-GA və ya Çin üçün NLPre-ZH, biz müqayisə sisteminin ictimaiyyətə açıqlanan mənbə kodunun tam fərdiləşdirilməsini təmin edirik. Bütün resurslara keçidləri (yerləşdirilən platformalar, mənbə kodu, öyrədilmiş modellər, verilənlər toplusu və s.) layihənin internet saytında tapa bilərsiniz: https://sites.google.com/view/nlpre-benchmark.
Açar sözlər : müqayisə, liderlər lövhəsi, seqmentləşdirmə, POS etiketləmə, asılılıq təhlili, Polyak
Danışıq hissələri (POS) etiketçiləri və asılılıq təhlilçiləri tərəfindən proqnozlaşdırılan morfosintaktik xüsusiyyətlər, hisslərin təhlili (Sun və digərləri, 2019), əlaqənin çıxarılması (Zhang və digərləri, 2018; Vashishth et al., 2018; Guo et al., 2019), semantik rol etiketi (Wang et al., 2019; Kasai və digərləri, 2019), suala cavab (Khashabi et al., 2018) və ya maşın tərcüməsi (Chen et al., 2017; Zhang et al., 2019). Buna görə də, bu əsas vəzifələr qabaqcıl NLP tapşırıqlarından əvvəl olduğu üçün təbii dildə əvvəlcədən işləmə (NLPre) tapşırıqları adlandırıla bilər. Morfosintaktik proqnozların keyfiyyəti aşağı axın tapşırıqlarının yerinə yetirilməsinə mühüm təsir göstərdiyindən (Sachan və digərləri, 2021), düzgün linqvistik xüsusiyyətləri proqnozlaşdırmaq üçün ən yaxşı mövcud NLPre alətlərindən istifadə etmək ehtiyatlıdır. Biz əl ilə hazırlanmış qrammatikaya malik qayda-əsaslı alətlərdən tutmuş statistik sistemlərə (məsələn, Nivre, 2009; McDonald və digərləri, 2005; Straka və s., 2016), əvvəlcədən öyrədilmiş dil modelləri tərəfindən dəstəklənən sinir sistemləri (məsələn, Qi et al., 2020; Nguyen et al., 2021a) böyük dil modellərinə (LLM Ouyang et al., 2022).
NLPre alətlərinin daxili qiymətləndirilməsi və onların performansının hesabatı kontekstində müxtəlif yanaşmalar təklif edilmişdir, məsələn, paylaşılan tapşırıq, performans cədvəli və tərəqqi deposu. Paylaşılan tapşırığın əsas məqsədi diqqətlə müəyyən edilmiş qiymətləndirmə metodologiyasından istifadə edərək buraxılmış məlumat dəstləri üzrə iştirakçı sistemləri hərtərəfli qiymətləndirməkdir. İndiyə qədər çoxlu NLPre paylaşılan tapşırıqlar təşkil edilmişdir (məsələn, Buchholz və Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018) və şübhəsiz ki, NLPre-nin inkişafına təkan verdi. Geniş bəyənilsə də, paylaşılan tapşırıqlar NLPre tərəqqisi haqqında tam və müasir bilik mənbəyi kimi şübhə doğurur. Birincisi, onlar yalnız cari müsabiqədə irəli sürülən həlləri diqqətlə nəzərdən keçirirlər və əvvəlki nəşrlərdə və ya mümkün gələcək versiyalarda iştirak edən sistemləri daxil etmirlər. İkincisi, paylaşılan tapşırıqlar arabir təşkil edildiyi üçün onların nəticələrinə yenidən baxılmır və tez köhnələ bilər. Şübhəsiz ki, paylaşılan tapşırıqlar üçün buraxılmış verilənlər dəstləri yeni alətlərin cəlb olunduğu təcrübələrdə təkrar istifadə oluna bilər. Belə təcrübələrin nəticələri müstəqil elmi nəşrlərdə təqdim edilə bilər. Buna baxmayaraq, bu nəşrlər geniş yayılmışdır və müəyyən bir dillə bağlı davam edən NLPre tərəqqisini sistematik şəkildə izləmək üçün mərkəzləşdirilmiş platformadan məhrumdur.
Yeni və ya təkmilləşdirilmiş NLPre alətinin nəticələri adətən performans cədvəllərində bildirilir (məsələn, Stanza[1] və ya Trankit[2]). Belə cədvəllər bir sıra dillərin əvvəlcədən işlənməsi zamanı alətin keyfiyyəti haqqında məlumat verir. Performans cədvəlləri çox vaxt bu xüsusi dillər üçün hazırlanmış digər sistemlərlə müqayisə olunmur. Bundan əlavə, NL Pre sistemləri müxtəlif verilənlər bazası buraxılışları (məsələn, Universal Asılılıqlar) üzrə təlim keçə bildiyi üçün onların performans cədvəllərinin müqayisəsi qəti deyil.
NLP tədqiqatında tendensiyalar və tərəqqi haqqında məlumat adətən Kodlu Papers[3] və ya NLP-progress[4] kimi ictimai depolarda toplanır. Bu depolar ümumi NLP tapşırıqları üçün verilənlər dəstlərinin repertuarını ehtiva edir, məsələn, asılılıq təhlili və POS işarələməsi və bu verilənlər dəstləri üzərində öyrədilmiş və sınaqdan keçirilmiş modellərin reytinqləri. Etibarlılığını təmin etmək üçün dərc edilmiş və əlaqəli elmi məqalələrdən qaynaqlanan yeni verilənlər bazası və nəticələrini təqdim etməyə açıqdırlar. Bununla belə, yeni və ya təkmilləşdirilmiş NLPre sisteminin ən qabaqcıl, hələ dərc olunmamış nəticələri barədə hesabat vermək mümkün deyil. NLPre tapşırıqları əsasən ingilis dilində olan verilənlər bazası ilə müşayiət olunur ki, bu da anbarların dildə təmsil olunmaması problemini artırır. Nəhayət, Kod deposu olan Papers sui-istifadəyə meyllidir. Daxil olduqdan sonra yeni nəticələr əlavə edə və onları uyğun olmayan sənədlərlə əlaqələndirə və mövcud nəticələri redaktə edə bilərsiniz. Saxta nəticələr dərhal açıqlanır.
NLPre-də irəliləyişlər haqqında dəyərli məlumat verməsinə baxmayaraq, qeyd olunan qiymətləndirmə yanaşmaları, məsələn, köhnəlmiş və natamam nəticələr, sistemlərarası müqayisənin olmaması, bəzi sistemlərə məhəl qoyulmaması, nəticə manipulyasiyası riski və dil mərkəzli perspektivin olmaması kimi çatışmazlıqları da ortaya qoyur.
NLP tədqiqatında standart prosedurlardan sonra biz NLP modellərinin performansını və tərəqqisini qiymətləndirməyə imkan verən müqayisə metodundan istifadə edərək NLPre alətlərini möhkəm və ədalətli şəkildə qiymətləndirməyi təklif edirik. NLP benchmarkları, GLUE (Wang və digərləri, 2018), XTREME (Hu və digərləri, 2020), GEM (Gehrmann et al., 2021) etalon tapşırıqlar üzrə model performansını bildirən və yeniləyən liderlər lövhələri ilə birləşdirilir. Ənənəvi müqayisə yanaşması dinamik olaraq təkmilləşdirilə bilər, bunu Dynabench platforması (Kiela və digərləri, 2021) misal gətirir ki, bu da istifadəçilərə xüsusi nümunələr daxil etməklə benchmark məlumatlarını artırmağa imkan verir. Bu insan-model-loop müqayisə ssenarisi NLU tapşırıqları üçün perspektivli görünür. Buna baxmayaraq, bu NLPre vəziyyətində təsirli olmaya bilər, çünki sintaktik ağacların və ya morfoloji xüsusiyyətlərin etibarlı nümunələrinin şərh edilməsi ekspert biliklərini tələb edir. Təsadüfi istifadəçilər arasında çoxsaylı ekspertlərin tapılması ciddi maneə ola bilər, beləliklə, biz sistemimizi standart müqayisə metoduna uyğun olaraq həyata keçiririk.
Bildiyimizə görə, müqayisəli qiymətləndirmə NLPre sistemlərini sıralamaq üçün istifadə edilməmişdir, hətta bu, ağac banklarının yaradılması və ya qabaqcıl NLP boru kəmərlərinin layihələndirilməsi cəmiyyət tərəfindən dəyərli və arzu olunan olsa belə. NLPre müqayisəli yanaşmamız bu boşluğu doldurur. Təklif olunan onlayn müqayisə sistemi NLPre sistemlərinin təqdim edilmiş proqnozlarını avtomatik olaraq qiymətləndirir və onların performans reytinqini ictimai skorbordda dərc edir (Bölmə 2.2-yə baxın). Sistem dil mərkəzli və teq-aqnostikdir, hərtərəfli və etibarlı qiymətləndirməyə imkan verir və müəyyən bir dil üçün NLPre tərəqqisinə dair ən müasir məlumat mənbəyini təşkil edir. Oxşar platformalardan, məsələn, Codalab (Pavao və digərləri, 2022) fərqli olaraq, NLPre müqayisə sistemi tam konfiqurasiya edilə bilən və asan qurulan, istifadəçilərə istənilən dil üçün qiymətləndirmə mühiti yaratmağa imkan verir. Bundan əlavə, o, öz-özünə yerləşdirilə bilər ki, bu da müəyyən bir dillə işləyən tərtibatçılar və tədqiqatçılar üçün onun yerli serverdə əlçatan olmasını rahat edir.
NLPre tapşırıqları üçün müqayisə üsulundan istifadəni əsaslandırmaq üçün biz nümunə dil kimi polyak dili ilə çətin bir ssenaridə empirik tədqiqat aparırıq. Polyak dilinin vəziyyətində, bir dominant maneə yaranır - fərqli sistemlərin təlimi üçün istifadə edilən müxtəlif teqlər, annotasiya sxemləri və verilənlər dəstləri arasındakı uyğunsuzluqlar onların birbaşa müqayisəsini istisna edir. Beləliklə, biz NLPre sistemlərinin təlimini və qiymətləndirilməsini Polşa üçün yeni performans göstəricisi, bundan sonra NLPre-PL üzrə standartlaşdırırıq (Bölmə 3-ə baxın). O, əvvəlcədən təyin edilmiş NLPre tapşırıqları dəstindən və mövcud Polşa məlumat dəstlərinin yenidən işlənmiş versiyalarından ibarətdir. Bölmə 4 NLPre-PL etalonunda seçilmiş NLPre sistemlərinin etibarlı və etibarlı qiymətləndirilməsimizi təsvir edir. Əldə etdiyimiz məlumata görə, əlaqəli qiymətləndirmə mühitinin olmaması səbəbindən hazır LLM-lərin, neyron NLPre sistemlərinin və müəyyən edilmiş etiketləmə disambiguatorlarının performansını müqayisə etmək üçün Polşa dilində heç bir qiymətləndirmə təcrübələri aparılmayıb.
Bu iş yenilik, tədqiqat və inkişafı əhatə edən üçtərəfli töhfə verir. (1) NLPre sistemlərini qiymətləndirmək və sıralamaq üçün yeni dil yönümlü müqayisəli yanaşma təklif edirik. (2) Biz yığılmış NLPre-PL etalonunda qeyri-trivial polyak dili ssenarisində təklif olunan yanaşmanın elmi qiymətləndirilməsini həyata keçiririk. (3) Biz üç fərqli dil üçün onlayn müqayisə platformalarını dərc edirik: Polyak[5], Çin[6] və İrlandiya[7] və müqayisə sisteminin mənbə kodunu açıq mənbə kimi buraxırıq.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-asılılıqlar-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu