Waandishi:
(1) Martyna Wiącek, Taasisi ya Sayansi ya Kompyuta, Chuo cha Sayansi cha Poland;
(2) Piotr Rybak, Taasisi ya Sayansi ya Kompyuta, Chuo cha Sayansi cha Poland;
(3) Łukasz Pszenny, Taasisi ya Sayansi ya Kompyuta, Chuo cha Sayansi cha Poland;
(4) Alina Wróblewska, Taasisi ya Sayansi ya Kompyuta, Chuo cha Sayansi cha Poland.
Dokezo la Mhariri: Hii ni Sehemu ya 1 kati ya 10 ya utafiti kuhusu kuboresha tathmini na ulinganishaji wa zana zinazotumika katika kuchakata lugha asilia. Soma mengine hapa chini.
Muhtasari na 1. Utangulizi na kazi zinazohusiana
2.2. Mfumo wa kuweka alama mtandaoni
Pamoja na maendeleo ya usanifu wa msingi wa kibadilishaji, tunaona kuongezeka kwa zana za kuchakata lugha asilia (NLPre) zenye uwezo wa kutatua kazi za awali za NLP (km uwekaji alama, sehemu ya usemi tagi, uchanganuzi wa utegemezi, au uchanganuzi wa kimofolojia) bila mwongozo wowote wa lugha ya nje. . Ni ngumu kulinganisha suluhu za riwaya na vifaa vya uchakataji vilivyoimarishwa vyema, kutegemea vichanganuzi vya kimofolojia vinavyozingatia kanuni au kamusi. Kwa kufahamu mapungufu ya mbinu zilizopo za tathmini ya NLPre, tunachunguza mbinu mpya ya tathmini ya kuaminika na ya haki na kuripoti utendaji. Ikihamasishwa na alama ya GLUE, mfumo unaopendekezwa wa kuweka alama kulingana na lugha huwezesha tathmini ya kina inayoendelea ya zana nyingi za NLPre, huku ukifuatilia utendaji wao kwa njia ya kuaminika. Utumizi wa mfano umesanidiwa kwa ajili ya Kipolandi na kuunganishwa na kigezo cha NLPre-PL kilichokusanywa kikamilifu. Kulingana na kigezo hiki, tunafanya tathmini ya kina ya aina mbalimbali za mifumo ya NLPre ya Kipolandi. Ili kuwezesha ujenzi wa mazingira ya ulinganishaji wa lugha zingine, kwa mfano NLPre-GA kwa Kiayalandi au NLPre-ZH kwa Kichina, tunahakikisha ubinafsishaji kamili wa msimbo wa chanzo uliotolewa hadharani wa mfumo wa kuweka alama. Viungo vya nyenzo zote (mifumo iliyotumika, msimbo wa chanzo, miundo iliyofunzwa, seti za data n.k.) vinaweza kupatikana kwenye tovuti ya mradi: https://sites.google.com/view/nlpre-benchmark.
Maneno muhimu : kuweka alama, ubao wa wanaoongoza, sehemu, kuweka lebo kwenye POS, uchanganuzi wa utegemezi, Kipolandi
Vipengele vya mofosintaksia vilivyobashiriwa na vitambulisho vya sehemu ya usemi (POS) na vichanganuzi vya utegemezi vinazingatia kazi mbalimbali za chini, ikijumuisha, lakini sio tu uchanganuzi wa hisia (Sun et al., 2019), uchimbaji wa uhusiano (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019), uwekaji lebo ya jukumu la kisemantiki (Wang et al., 2019; Kasai et al., 2019), kujibu swali (Khashabi et al., 2018), au tafsiri ya mashine (Chen et al., 2017; Zhang et al., 2019). Kwa hivyo, kazi hizi za msingi zinaweza kurejelewa kama kazi za kuchakata lugha asilia (NLPre), kwani zinatangulia kazi za kina za NLP. Kwa kuwa ubora wa ubashiri wa mofosintaksia una athari muhimu katika utendakazi wa kazi za mkondo wa chini (Sachan et al., 2021), ni busara kutumia zana bora zilizopo za NLPre kutabiri sifa zinazofaa za lugha. Tumewekewa mbinu mbalimbali za NLPre, kuanzia zana zinazotegemea sheria zilizo na sarufi iliyoundwa kwa mikono (km Crouch et al., 2011), kupitia mifumo ya takwimu (km Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), mifumo ya neva inayoungwa mkono na miundo ya lugha iliyofunzwa mapema (km Qi et al., 2020; Nguyen et al., 2021a) hadi miundo mikubwa ya lugha (LLM Ouyang et al., 2022).
Katika muktadha wa kutathmini kihalisi zana za NLPre na kuripoti utendakazi wao, mbinu mbalimbali zimependekezwa, kwa mfano kazi ya pamoja, jedwali la utendaji, na hazina ya maendeleo. Lengo kuu la kazi iliyoshirikiwa ni kutathmini kwa kina mifumo shiriki kwenye seti za data iliyotolewa kwa kutumia mbinu iliyofafanuliwa kwa uangalifu. Kazi nyingi za pamoja za NLPre zimepangwa kufikia sasa (km Buchholz na Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), na bila shaka zilikuza maendeleo ya NLPre. Ingawa kazi zinazoshirikiwa zinapendelewa zaidi, zinatia shaka kama chanzo kamili na cha kisasa cha maarifa kuhusu maendeleo ya NLPre. Kwanza, wanakagua masuluhisho yaliyotolewa tu katika shindano la sasa na hawajumuishi mifumo inayoshiriki katika matoleo ya awali au yanayowezekana yajayo. Pili, kazi zinazoshirikiwa zinapopangwa mara kwa mara, matokeo yake hayarekebishwi na huenda yakapitwa na wakati haraka. Hakika, hifadhidata iliyotolewa kwa kazi zilizoshirikiwa inaweza kutumika tena katika majaribio yanayohusisha zana za riwaya. Matokeo ya majaribio kama haya yanaweza kuripotiwa katika machapisho huru ya kisayansi. Hata hivyo, machapisho haya yametawanyika sana, yanakosa jukwaa kuu la kufuatilia kwa utaratibu maendeleo yanayoendelea ya NLPre kuhusiana na lugha fulani.
Matokeo ya zana mpya au iliyoboreshwa ya NLPre kwa kawaida huripotiwa katika majedwali ya utendaji (km Stanza[1] au Trankit[2]). Majedwali kama haya hutoa habari kuhusu ubora wa zana katika kuchakata seti ya lugha. Majedwali ya utendaji, hata hivyo, mara nyingi hayana ulinganisho na mifumo mingine iliyofunzwa kwa lugha hizi mahususi. Zaidi ya hayo, kwa vile mifumo ya NL Pre inaweza kufunzwa kuhusu matoleo tofauti ya mkusanyiko wa data (km. Universal Dependencies), kulinganisha majedwali yao ya utendakazi si jambo gumu.
Taarifa kuhusu mienendo na maendeleo katika utafiti wa NLP kwa kawaida hukusanywa katika hazina za umma kama vile Karatasi zenye Kanuni[3] au maendeleo ya NLP[4]. Hifadhi hizi zina msururu wa seti za data za kazi za kawaida za NLP, kwa mfano, uchanganuzi tegemezi na kuweka lebo kwenye POS, na viwango vya miundo iliyofunzwa na kufanyiwa majaribio kwenye hifadhidata hizi. Wako tayari kuchangia hifadhidata na matokeo mapya, ambayo, ili kuhakikisha uaminifu wao, yanatokana na karatasi zilizochapishwa na kuunganishwa za kisayansi. Hata hivyo, matokeo ya kisasa ambayo hayajachapishwa ya mfumo mpya au ulioboreshwa wa NLPre hayastahiki kuripotiwa. Majukumu ya NLPre yanaambatana na hifadhidata zaidi katika Kiingereza, na hivyo kuibua tatizo la kutowakilisha lugha katika hazina. Mwisho kabisa, Hati zilizo na hazina ya Kanuni zinakabiliwa na matumizi mabaya. Baada ya kuingia, mtu anaweza kuongeza matokeo mapya na kuyaunganisha na karatasi zisizo na umuhimu na pia kuhariri matokeo yaliyopo. Matokeo ya udanganyifu yanatangazwa mara moja.
Licha ya kutoa taarifa muhimu kuhusu maendeleo katika NLPre, mbinu za tathmini zilizotajwa pia zinafichua mapungufu, kwa mfano, matokeo yaliyopitwa na wakati na yasiyokamilika, ukosefu wa ulinganisho wa mfumo mtambuka, kupuuza baadhi ya mifumo, hatari ya upotoshaji wa matokeo na kutokuwepo kwa mtazamo wa kuzingatia lugha.
Kufuatia taratibu za kawaida katika utafiti wa NLP, tunapendekeza kutathmini kwa uthabiti na kwa haki zana za NLPre kwa kutumia mbinu ya ulinganishaji inayoruhusu kutathmini utendakazi na maendeleo ya miundo ya NLP. Vigezo vya NLP vinaunganishwa na bao za wanaoongoza zinazoripoti na kusasisha utendakazi wa kielelezo kwenye majukumu ya kielelezo, kwa mfano GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). Mbinu ya kawaida ya ulinganishaji inaweza kuimarishwa kiutendaji, ikitolewa mfano na jukwaa la Dynabench (Kiela et al., 2021), ambalo huwawezesha watumiaji kuongeza data ya benchmark kwa kuweka mifano maalum. Hali hii ya ulinganishaji wa kiutu na modeli-katika-kitanzi inaonekana ya kuahidi kwa kazi za NLU. Hata hivyo, huenda isiwe na ufanisi katika kesi ya NLPre, kwani kufafanua mifano ya kuaminika ya miti ya kisintaksia au vipengele vya kimofolojia kunahitaji ujuzi wa kitaalamu. Kupata wataalam wengi miongoni mwa watumiaji wa kawaida kunaweza kuwa kikwazo kikubwa, kwa hivyo tunatekeleza mfumo wetu kulingana na mbinu ya kawaida ya kuweka alama.
Kwa ufahamu wetu, ulinganishaji haujatumiwa kupanga mifumo ya NLPre, hata ikiwa ni ya thamani na inayotakikana na jumuiya kuunda kingo za miti au kubuni mabomba ya juu ya NLP. Mbinu yetu ya kuweka alama za NLPre inajaza pengo hili. Mfumo unaopendekezwa wa kuweka alama mtandaoni hutathmini kiotomati ubashiri uliowasilishwa wa mifumo ya NLPre na kuchapisha kiwango chao cha utendaji kwenye ubao wa matokeo wa umma (ona Sehemu ya 2.2). Mfumo huu unazingatia lugha na tagset-agnostic, huwezesha tathmini ya kina na ya kuaminika na kuunda chanzo cha habari kuhusu maendeleo ya NLPre kwa lugha fulani. Tofauti na mifumo inayofanana, kwa mfano Codalab (Pavao et al., 2022), mfumo wa ulinganishaji wa NLPre unaweza kusanidiwa kikamilifu na ni rahisi kusanidi, kuruhusu watumiaji kuweka mazingira ya tathmini ya lugha yoyote. Zaidi ya hayo, inaweza kujiendesha yenyewe, na kuifanya iwe rahisi kwa wasanidi programu na watafiti wanaofanya kazi na lugha fulani kuifanya ipatikane kwenye seva ya ndani.
Ili kuhalalisha utumiaji wa mbinu ya ulinganishaji wa kazi za NLPre, tunafanya utafiti wa majaribio katika hali ngumu na Kipolandi kama lugha ya mfano. Kwa upande wa Kipolandi, kikwazo kimoja kikuu hutokea - tofauti kati ya lebo tofauti, mipango ya ufafanuzi na seti za data zinazotumiwa kwa mafunzo ya mifumo tofauti huzuia ulinganisho wao wa moja kwa moja. Kwa hivyo tunasawazisha mafunzo na tathmini ya mifumo ya NLPre kwenye kigezo kipya cha utendaji cha Kipolandi, baada ya hapo NLPre-PL (angalia Sehemu ya 3). Inajumuisha seti iliyofafanuliwa awali ya kazi za NLPre na matoleo yaliyoundwa upya ya seti zilizopo za data za Kipolandi. Sehemu ya 4 inaelezea tathmini yetu thabiti na ya kuaminika ya mifumo iliyochaguliwa ya NLPre kwenye alama ya NLPre-PL. Kulingana na ufahamu wetu, hakuna majaribio ya tathmini ambayo yamefanywa katika Kipolandi ili kulinganisha utendakazi wa LLM za nje ya rafu, mifumo ya neva ya NLPre na kuanzisha vidhibiti vya kutambulishwa kwa sababu ya ukosefu wa mazingira madhubuti ya tathmini.
Kazi hii inatoa mchango wa pande tatu unaojumuisha mambo mapya, utafiti, na maendeleo yanayotegemezwa na ethos ya chanzo huria. (1) Tunapendekeza mbinu mpya ya ulinganishaji inayolenga lugha ili kutathmini na kupanga mifumo ya NLPre. (2) Tunafanya tathmini ya kisayansi ya mbinu inayopendekezwa katika hali isiyo ya kawaida ya lugha ya Kipolandi kwenye kigezo kilichokusanywa cha NLPre-PL. (3) Tunachapisha mifumo ya ulinganishaji mtandaoni ya lugha tatu tofauti: Kipolandi[5], Kichina[6] na Kiayalandi[7], na kutoa msimbo wa chanzo wa mfumo wa ulinganishaji kama chanzo huria.
Karatasi hii inapatikana kwenye arxiv chini ya leseni ya CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#utegemezi-zima-v2-5 (UD v2.5)
[3] https://paperwithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu