paint-brush
Nový rámec zjednodušuje porovnávanie nástrojov na spracovanie jazykov vo viacerých jazykochpodľa@morphology
Nová história

Nový rámec zjednodušuje porovnávanie nástrojov na spracovanie jazykov vo viacerých jazykoch

podľa Morphology6m2024/12/30
Read on Terminal Reader

Príliš dlho; Čítať

Výskumníci v Poľsku vyvinuli nástroj s otvoreným zdrojom, ktorý zlepšuje hodnotenie a porovnávanie AI používanej pri predbežnom spracovaní prirodzeného jazyka.
featured image - Nový rámec zjednodušuje porovnávanie nástrojov na spracovanie jazykov vo viacerých jazykoch
Morphology HackerNoon profile picture
0-item

Autori:

(1) Martyna Wiącek, Inštitút informatiky Poľskej akadémie vied;

(2) Piotr Rybak, Inštitút informatiky, Poľská akadémia vied;

(3) Łukasz Pszenny, Inštitút informatiky Poľskej akadémie vied;

(4) Alina Wróblewska, Inštitút informatiky Poľskej akadémie vied.

Poznámka redaktora: Toto je časť 1 z 10 štúdie o zlepšení hodnotenia a porovnávania nástrojov používaných pri predbežnom spracovaní prirodzeného jazyka. Prečítajte si zvyšok nižšie.

Tabuľka odkazov

Abstrakt a 1. Úvod a súvisiace práce

  1. NLPre benchmarking

2.1. Koncepcia výskumu

2.2. Online benchmarkingový systém

2.3. Konfigurácia

  1. Benchmark NLPre-PL

3.1. Množiny údajov

3.2. Úlohy

  1. Hodnotenie

4.1. Metodika hodnotenia

4.2. Hodnotené systémy

4.3. Výsledky

  1. Závery
    • Dodatky
    • Poďakovanie
    • Bibliografické odkazy
    • Odkazy na jazykové zdroje

Abstraktné

S pokrokmi v architektúrach založených na transformátoroch pozorujeme vzostup nástrojov na predspracovanie prirodzeného jazyka (NLPre) schopných riešiť predbežné úlohy NLP (napr. tokenizácia, značkovanie slovných druhov, analýza závislostí alebo morfologická analýza) bez akéhokoľvek externého lingvistického vedenia. . Je náročné porovnávať nové riešenia s dobre zakorenenými sadami nástrojov na predbežné spracovanie, spoliehajúc sa na morfologické analyzátory alebo slovníky založené na pravidlách. Vedomí si nedostatkov existujúcich prístupov hodnotenia NLPre skúmame novú metódu spoľahlivého a spravodlivého hodnotenia a podávania správ o výkonnosti. Navrhovaný systém benchmarkingu zameraný na jazyk, inšpirovaný benchmarkom GLUE, umožňuje komplexné priebežné hodnotenie viacerých nástrojov NLPre a zároveň dôveryhodne sleduje ich výkon. Prototyp aplikácie je nakonfigurovaný pre poľštinu a je integrovaný s dôkladne zostaveným benchmarkom NLPre-PL. Na základe tohto benchmarku vykonávame rozsiahle hodnotenie rôznych poľských systémov NLPre. Aby sme uľahčili konštrukciu prostredia benchmarkingu pre iné jazyky, napr. NLPre-GA pre írčinu alebo NLPre-ZH pre čínštinu, zabezpečujeme úplné prispôsobenie verejne vydaného zdrojového kódu systému benchmarkingu. Odkazy na všetky zdroje (nasadené platformy, zdrojový kód, trénované modely, súbory údajov atď.) nájdete na webovej stránke projektu: https://sites.google.com/view/nlpre-benchmark.


Kľúčové slová : benchmarking, leaderboard, segmentácia, POS tagovanie, analýza závislostí, poľština

1. Úvod a súvisiace práce

Morfosyntaktické črty predpovedané taggermi časti reči (POS) a syntaktickými analyzátormi závislostí sú základom rôznych nadväzujúcich úloh, vrátane, ale nie výlučne, analýzy sentimentu (Sun a kol., 2019), extrakcie vzťahov (Zhang a kol., 2018; Vashishth a kol., 2018; Guo a kol., 2019), označovanie sémantickej roly (Wang a kol., 2019); 2019; Kasai et al., 2019), zodpovedanie otázok (Khashabi et al., 2018) alebo strojový preklad (Chen et al., 2017; Zhang et al., 2019). Tieto základné úlohy sa preto môžu označovať ako úlohy predspracovania prirodzeného jazyka (NLPre), keďže predchádzajú pokročilým úlohám NLP. Keďže kvalita morfosyntaktických predpovedí má zásadný vplyv na výkon nadväzujúcich úloh (Sachan et al., 2021), je rozumné použiť najlepšie existujúce nástroje NLPre na predpovedanie správnych jazykových vlastností. Sme vybavení rôznymi metódami NLPre, od nástrojov založených na pravidlách s ručne vytvorenými gramatikami (napr. Crouch et al., 2011), cez štatistické systémy (napr. Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), neurónové systémy podporované vopred trénovanými jazykovými modelmi (napr. Qi et al., 2020; Nguyen et al. al., 2021a) na veľké jazykové modely (LLM Ouyang et al., 2022).


V kontexte vnútorného hodnotenia nástrojov NLPre a podávania správ o ich výkonnosti boli navrhnuté rôzne prístupy, napr. zdieľaná úloha, tabuľka výkonnosti a archív pokroku. Hlavným cieľom spoločnej úlohy je komplexne vyhodnotiť participujúce systémy na uvoľnených datasetoch pomocou starostlivo definovanej metodiky hodnotenia. Doteraz bolo zorganizovaných množstvo spoločných úloh NLPre (napr. Buchholz a Marsi, 2006; Seddah a kol., 2013; Zeman a kol., 2017, 2018) a nepochybne podporili rozvoj NLPre. Hoci sú zdieľané úlohy všeobecne obľúbené, sú otázne ako úplný a aktuálny zdroj vedomostí o pokroku NLPre. Po prvé, skúmajú iba riešenia navrhnuté v aktuálnej súťaži a nezahŕňajú systémy z predchádzajúcich vydaní ani možné budúce. Po druhé, keďže zdieľané úlohy sú organizované sporadicky, ich výsledky sa nerevidujú a môžu rýchlo zastarať. Súbory údajov uvoľnené pre zdieľané úlohy možno určite znova použiť v experimentoch zahŕňajúcich nové nástroje. Výsledky takýchto experimentov možno uviesť v nezávislých vedeckých publikáciách. Napriek tomu sú tieto publikácie značne rozptýlené a chýba im centralizovaná platforma na systematické sledovanie prebiehajúceho pokroku NLPre v súvislosti s konkrétnym jazykom.


Výsledky nového alebo aktualizovaného nástroja NLPre sa zvyčajne uvádzajú v tabuľkách výkonnosti (napr. Stanza[1] alebo Trankit[2]). Takéto tabuľky poskytujú informácie o kvalite nástroja pri predbežnom spracovaní množiny jazykov. Výkonnostným tabuľkám však často chýba porovnanie s inými systémami vyškolenými pre tieto konkrétne jazyky. Okrem toho, keďže systémy NL Pre môžu byť trénované na rôznych vydaniach súborov údajov (napr. Universal Dependencies), porovnávanie ich výkonnostných tabuliek nie je rozhodujúce.


Obrázok 1: Snímka obrazovky rebríčka NLPre-PL.


Informácie o trendoch a pokroku vo výskume NLP sa zvyčajne zhromažďujú vo verejných archívoch, ako sú Papers with Code[3] alebo NLP-progress[4]. Tieto archívy obsahujú repertoár súborov údajov pre bežné úlohy NLP, napr. analýzu závislostí a označovanie POS, a hodnotenia modelov vyškolených a testovaných na týchto súboroch údajov. Sú otvorení prispievaniu novými súbormi údajov a výsledkami, ktoré v záujme zabezpečenia ich dôveryhodnosti pochádzajú z publikovaných a prepojených vedeckých prác. Špičkové, zatiaľ nepublikované výsledky nového alebo modernizovaného systému NLPre však nie sú oprávnené na vykazovanie. Úlohy NLPre sú sprevádzané súbormi údajov väčšinou v angličtine, čo nastoľuje problém jazykovej nereprezentácie úložísk. V neposlednom rade je úložisko Papers with Code náchylné na zneužitie. Po prihlásení je možné pridávať nové výsledky a spájať ich s irelevantnými dokumentmi, ako aj upravovať existujúce výsledky. Podvodné výsledky sú okamžite zverejnené.


Napriek tomu, že uvedené hodnotiace prístupy prinášajú cenné informácie o pokroku v NLPre, odhaľujú aj nedostatky, napr. zastarané a neúplné výsledky, chýbajúce porovnanie medzi systémami, ignorovanie niektorých systémov, riziko manipulácie s výsledkami a absencia perspektívy zameranej na jazyk.


Podľa štandardných postupov vo výskume NLP navrhujeme robustne a spravodlivo hodnotiť nástroje NLPre pomocou metódy benchmarkingu, ktorá umožňuje hodnotenie výkonnosti a pokroku modelov NLP. Benchmarky NLP sú spojené s tabuľkami, ktoré uvádzajú a aktualizujú výkonnosť modelu pri úlohách benchmarku, napr. GLUE (Wang a kol., 2018), XTREME (Hu a kol., 2020), GEM (Gehrmann a kol., 2021). Konvenčný benchmarkingový prístup môže byť dynamicky vylepšený, príkladom je platforma Dynabench (Kiela et al., 2021), ktorá používateľom umožňuje rozširovať benchmarkové údaje zadaním vlastných príkladov. Tento scenár benchmarkingu typu človek a model v slučke sa javí ako sľubný pre úlohy NLU. Napriek tomu to v prípade NLPre nemusí byť účinné, pretože anotovanie dôveryhodných príkladov syntaktických stromov alebo morfologických znakov si vyžaduje odborné znalosti. Nájdenie viacerých odborníkov medzi príležitostnými používateľmi môže byť vážnou prekážkou, preto implementujeme náš systém v súlade so štandardnou metódou benchmarkingu.


Pokiaľ je nám známe, benchmarking sa nepoužil na hodnotenie systémov NLPre, aj keď je hodnotný a žiadaný komunitou, ktorá vytvára stromové banky alebo navrhuje pokročilé kanály NLP. Náš prístup k benchmarkingu NLPre vypĺňa túto medzeru. Navrhovaný online benchmarkingový systém automaticky hodnotí predložené predpovede systémov NLPre a zverejňuje ich hodnotenie výkonnosti na verejnej hodnotiacej tabuľke (pozri časť 2.2). Systém je jazykovo orientovaný a agnostický, umožňuje komplexné a dôveryhodné hodnotenie a predstavuje aktuálny zdroj informácií o pokroku NLPre pre konkrétny jazyk. Na rozdiel od podobných platforiem, napr. Codalab (Pavao et al., 2022), je systém benchmarkingu NLPre plne konfigurovateľný a ľahko nastaviteľný, čo umožňuje používateľom vytvoriť hodnotiace prostredie pre akýkoľvek jazyk. Okrem toho môže byť hosťovaný samostatne, čo uľahčuje vývojárom a výskumníkom pracujúcim s konkrétnym jazykom, aby ho mali prístupný na lokálnom serveri.


Aby sme zdôvodnili použitie techniky benchmarkingu pre úlohy NLPre, vykonávame empirický výskum v náročnom scenári s poľským jazykom ako vzorovým jazykom. V prípade poľštiny vzniká jedna dominantná prekážka – nezrovnalosti medzi rôznymi množinami tagov, anotačnými schémami a množinami údajov využívanými na trénovanie rôznorodých systémov vylučujú ich priame porovnanie. Preto štandardizujeme školenie a hodnotenie systémov NLPre na novom výkonnostnom benchmarku pre poľštinu, ďalej NLPre-PL (pozri časť 3). Pozostáva z preddefinovaného súboru úloh NLPre a preformulovaných verzií existujúcich poľských súborov údajov. Časť 4 uvádza naše robustné a spoľahlivé hodnotenie vybraných systémov NLPre na benchmarku NLPre-PL. Podľa našich vedomostí sa v poľštine neuskutočnili žiadne hodnotiace experimenty na porovnanie výkonu bežných LLM, neurónových systémov NLPre a zavedených dezambiguátorov označovania z dôvodu nedostatku koherentného hodnotiaceho prostredia.


Táto práca predstavuje tripartitný príspevok zahŕňajúci novosť, výskum a vývoj podporený étosom open source. (1) Navrhujeme nový jazykovo orientovaný benchmarkingový prístup na hodnotenie a hodnotenie systémov NLPre. (2) Vykonávame vedecké hodnotenie navrhovaného prístupu v netriviálnom scenári poľského jazyka na zostavenom benchmarku NLPre-PL. (3) Zverejňujeme online benchmarkingové platformy pre tri odlišné jazyky: poľštinu[5], čínštinu[6] a írčinu[7] a vydávame zdrojový kód systému benchmarkingu ako open-source.


Tento dokument je dostupný na arxiv pod licenciou CC BY-NC-SA 4.0 DEED.


[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)


[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-dependencies-v2-5 (UD v2.5)


[3] https://paperswithcode.com


[4] http://nlpprogress.com


[5] https://nlpre-pl.clarin-pl.eu


[6] https://nlpre-zh.clarin-pl.eu


[7] https://nlpre-ga.clarin-pl.eu