Autori:
(1) Martyna Wiącek, Institut za kompjuterske nauke, Poljska akademija nauka;
(2) Piotr Rybak, Institut za kompjuterske nauke, Poljska akademija nauka;
(3) Łukasz Pszenny, Institut za kompjuterske nauke, Poljska akademija nauka;
(4) Alina Wróblewska, Institut za kompjuterske nauke, Poljska akademija nauka.
Napomena urednika: Ovo je dio 1 od 10 studije o poboljšanju evaluacije i poređenja alata koji se koriste u prethodnoj obradi prirodnog jezika. Ostatak pročitajte u nastavku.
Sažetak i 1. Uvod i srodni radovi
2.2. Online benchmarking sistem
Sa napretkom arhitektura zasnovanih na transformatorima, uočavamo porast alata za prethodnu obradu prirodnog jezika (NLPre) koji su sposobni da reše preliminarne NLP zadatke (npr. tokenizacija, označavanje dela govora, raščlanjivanje zavisnosti ili morfološka analiza) bez ikakvog spoljašnjeg lingvističkog uputstva. . Teško je upoređivati nova rješenja sa dobro ukorijenjenim alatima za pretprocesiranje, oslanjajući se na morfološke analizatore ili rječnike zasnovane na pravilima. Svjesni nedostataka postojećih pristupa NLPre evaluaciji, istražujemo novi metod pouzdane i poštene evaluacije i izvještavanja o učinku. Inspirisan GLUE benchmarkom, predloženi sistem benčmarkinga orijentisan na jezik omogućava sveobuhvatnu tekuću evaluaciju višestrukih NLPre alata, dok verodostojno prati njihov učinak. Prototip aplikacije je konfigurisan za poljski jezik i integrisan je sa detaljno sastavljenim NLPre-PL benchmarkom. Na osnovu ovog mjerila provodimo opsežnu evaluaciju raznih poljskih NLPre sistema. Da bismo olakšali izgradnju okruženja za benchmarking za druge jezike, npr. NLPre-GA za irski ili NLPre-ZH za kineski, osiguravamo potpunu prilagodbu javno objavljenog izvornog koda sistema za benčmarking. Linkovi na sve resurse (primijenjene platforme, izvorni kod, obučeni modeli, skupovi podataka itd.) mogu se naći na web stranici projekta: https://sites.google.com/view/nlpre-benchmark.
Ključne riječi : benchmarking, tablica s rezultatima, segmentacija, POS tagiranje, raščlanjivanje ovisnosti, poljski
Morfosintaktičke karakteristike predviđene oznakama dijela govora (POS) i raščlanjivači ovisnosti su u osnovi različitih zadataka, uključujući, ali ne ograničavajući se na analizu osjećaja (Sun et al., 2019.), izdvajanje odnosa (Zhang et al., 2018.; Vashishth et al., 2018; Guo et al., 2019), označavanje semantičkih uloga (Wang et al sar., 2019., Kasai et al., 2019.), odgovaranje na pitanja (Khashabi et al., 2018.) ili mašinsko prevođenje (Chen et al., 2017.; Zhang et al., 2019.). Ovi osnovni zadaci se stoga mogu nazvati zadacima preprocesiranja prirodnog jezika (NLPre), jer prethode naprednim zadacima NLP-a. Budući da kvalitet morfosintaktičkih predviđanja ima presudan utjecaj na izvođenje nizvodnih zadataka (Sachan et al., 2021), razumno je koristiti najbolje postojeće NLPre alate za predviđanje odgovarajućih jezičkih karakteristika. Opremljeni smo raznim NLPre metodama, počevši od alata zasnovanih na pravilima sa ručno izrađenim gramatikama (npr. Crouch et al., 2011.), preko statističkih sistema (npr. Nivre, 2009.; McDonald et al., 2005.; Straka et al., 2016), neuronski sistemi podržani unaprijed obučenim jezičkim modelima (npr. Qi et al., 2020; Nguyen et al. al., 2021a) do velikih jezičkih modela (LLM Ouyang et al., 2022).
U kontekstu suštinske evaluacije NLPre alata i izvještavanja o njihovim performansama, predloženi su različiti pristupi, npr. zajednički zadatak, tabela performansi i spremište napretka. Glavni cilj zajedničkog zadatka je sveobuhvatna evaluacija sistema koji učestvuju na objavljenim skupovima podataka koristeći pažljivo definisanu metodologiju evaluacije. Do sada su organizirani brojni NLPre zajednički zadaci (npr. Buchholz i Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), koji su nesumnjivo potaknuli razvoj NLPre. Iako su široko favorizovani, zajednički zadaci su upitni kao potpun i ažuran izvor znanja o NLPre napretku. Prvo, oni istražuju samo rješenja predložena u trenutnom konkursu i ne uključuju sisteme koji su učestvovali u prethodnim izdanjima ili mogućim budućim izdanjima. Drugo, kako se zajednički zadaci organiziraju sporadično, njihovi rezultati se ne revidiraju i mogu brzo zastarjeti. Naravno, skupovi podataka objavljeni za zajedničke zadatke mogu se ponovo koristiti u eksperimentima koji uključuju nove alate. Rezultati takvih eksperimenata mogu se objaviti u nezavisnim naučnim publikacijama. Ipak, ove publikacije su široko rasute, nedostaje im centralizovana platforma za sistematsko praćenje tekućeg NLPre napretka u odnosu na određeni jezik.
Rezultati novog ili nadograđenog NLPre alata se obično prikazuju u tabelama performansi (npr. Stanza[1] ili Trankit[2]). Takve tabele pružaju informacije o kvalitetu alata u prethodnoj obradi skupa jezika. Tabelama performansi, međutim, često nedostaje poređenje sa drugim sistemima obučenim za ove određene jezike. Dodatno, kako NL Pre sistemi mogu biti obučeni na različitim izdanjima skupa podataka (npr. Univerzalne zavisnosti), poređenje njihovih tabela performansi nije konačno.
Informacije o trendovima i napretku u NLP istraživanju obično se prikupljaju u javnim repozitorijumima kao što su Papers with Code[3] ili NLP-progress[4]. Ova spremišta sadrže repertoar skupova podataka za uobičajene NLP zadatke, npr. raščlanjivanje zavisnosti i POS označavanje, i rangiranje modela obučenih i testiranih na ovim skupovima podataka. Otvoreni su za davanje novih skupova podataka i rezultata, koji, kako bi se osigurala njihova vjerodostojnost, potiču iz objavljenih i povezanih naučnih radova. Međutim, najsavremeniji još neobjavljeni rezultati novog ili nadograđenog NLPre sistema ne ispunjavaju uslove za prijavu. NLPre zadaci su praćeni skupovima podataka uglavnom na engleskom, što otvara problem jezičke nepredstavljenosti repozitorija. Na kraju, ali ne i najmanje važno, spremište Papers with Code je sklono zloupotrebi. Nakon prijave, možete dodati nove rezultate i povezati ih sa nerelevantnim radovima, kao i uređivati postojeće rezultate. Lažni rezultati se odmah objavljuju.
Uprkos tome što daju vrijedne informacije o napretku u NLPre-u, pomenuti pristupi evaluaciji također otkrivaju nedostatke, npr. zastarjele i nepotpune rezultate, nedostatak međusistemskog poređenja, zanemarivanje nekih sistema, rizik od manipulacije rezultatima i odsustvo perspektive usmjerene na jezik.
Prateći standardne procedure u NLP istraživanju, predlažemo robusnu i poštenu procjenu NLPre alata koristeći metodu benčmarkinga koja omogućava procjenu učinka i napretka NLP modela. NLP benchmarkovi su upareni sa tablicama lidera koji izveštavaju i ažuriraju performanse modela na zadacima benčmarka, npr. GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). Konvencionalni pristup benchmarkinga može se dinamički poboljšati, što je primjer Dynabench platforme (Kiela et al., 2021), koja omogućava korisnicima da prošire referentne podatke unosom prilagođenih primjera. Ovaj scenario benchmarkinga čovjeka i modela u petlji izgleda obećavajući za NLU zadatke. Ipak, to možda neće biti efikasno u slučaju NLPre-a, jer označavanje vjerodostojnih primjera sintaksičkih stabala ili morfoloških karakteristika zahtijeva stručno znanje. Pronalaženje više stručnjaka među povremenim korisnicima može biti ozbiljna prepreka, stoga implementiramo naš sistem u skladu sa standardnom metodom benchmarkinga.
Koliko znamo, benčmarking nije korišćen za rangiranje NLPre sistema, čak i ako je vredan i poželjan od strane zajednice koja stvara grupe stabala ili dizajnira napredne NLP kanale. Naš NLPre benchmarking pristup popunjava ovu prazninu. Predloženi sistem benčmarkinga na mreži automatski procjenjuje dostavljena predviđanja NLPre sistema i objavljuje njihov rang učinka na javnoj tabli (vidi Odjeljak 2.2). Sistem je orijentisan na jezik i agnostik na skupove oznaka, omogućava sveobuhvatnu i kredibilnu evaluaciju i predstavlja ažuran izvor informacija o NLPre napretku za određeni jezik. Za razliku od sličnih platformi, npr. Codalab (Pavao et al., 2022), NLPre benchmarking sistem je potpuno konfigurabilan i jednostavan za postavljanje, omogućavajući korisnicima da uspostave okruženje za evaluaciju za bilo koji jezik. Osim toga, može biti samo-hostovan, što ga čini pogodnim za programere i istraživače koji rade sa određenim jezikom da mu pristupe na lokalnom serveru.
Da bismo opravdali upotrebu tehnike benchmarkinga za NLPre zadatke, provodimo empirijsko istraživanje u izazovnom scenariju s poljskim kao primjerom jezika. U slučaju poljskog jezika, javlja se jedna dominantna prepreka – neslaganja između različitih skupova oznaka, šema napomena i skupova podataka koji se koriste za obuku različitih sistema isključuju njihovo direktno poređenje. Stoga standardiziramo obuku i evaluaciju NLPre sistema na novom mjerilu performansi za Poljsku, u daljem tekstu NLPre-PL (vidi Odjeljak 3). Sastoji se od unapred definisanog skupa NLPre zadataka i preformulisanih verzija postojećih poljskih skupova podataka. Odjeljak 4 opisuje našu robusnu i pouzdanu procjenu odabranih NLPre sistema na NLPre-PL mjerilu. Prema našim saznanjima, na poljskom jeziku nisu sprovedeni eksperimenti evaluacije da bi se uporedili performansi gotovih LLM-ova, neuronskih NLPre sistema i uspostavljenih razrjeđivača označavanja zbog nedostatka koherentnog okruženja za evaluaciju.
Ovaj rad daje tripartitni doprinos koji obuhvata novosti, istraživanje i razvoj koji je poduprt etosom otvorenog koda. (1) Predlažemo novi pristup benčmarkinga orijentisan na jezik za evaluaciju i rangiranje NLPre sistema. (2) Provodimo naučnu evaluaciju predloženog pristupa u scenariju netrivijalnog poljskog jezika na sastavljenom NLPre-PL benchmarku. (3) Objavljujemo platforme za benčmarking na mreži za tri različita jezika: poljski[5], kineski[6] i irski[7], i objavljujemo izvorni kod sistema benchmarkinga kao open-source.
Ovaj rad je dostupan na arxiv pod licencom CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu