Autori:
(1) Martyna Wiącek, Istituto di informatica, Accademia polacca delle scienze;
(2) Piotr Rybak, Istituto di Informatica, Accademia Polacca delle Scienze;
(3) Łukasz Pszenny, Istituto di informatica, Accademia polacca delle scienze;
(4) Alina Wróblewska, Istituto di informatica, Accademia polacca delle scienze.
Nota dell'editore: questa è la Parte 1 di 10 di uno studio sul miglioramento della valutazione e del confronto degli strumenti utilizzati nel preprocessing del linguaggio naturale. Leggi il resto qui sotto.
Abstract e 1. Introduzione e lavori correlati
2.2. Sistema di benchmarking online
4.1 Metodologia di valutazione
Con i progressi delle architetture basate sui trasformatori, osserviamo l'ascesa di strumenti di preelaborazione del linguaggio naturale (NLPre) in grado di risolvere attività preliminari di NLP (ad esempio tokenizzazione, tagging di parti del discorso, analisi delle dipendenze o analisi morfologica) senza alcuna guida linguistica esterna. È arduo confrontare nuove soluzioni con toolkit di preelaborazione ben consolidati, che si basano su analizzatori o dizionari morfologici basati su regole. Consapevoli delle carenze degli attuali approcci di valutazione NLPre, esaminiamo un nuovo metodo di valutazione affidabile ed equa e di reporting delle prestazioni. Ispirato dal benchmark GLUE, il sistema di benchmarking incentrato sulla lingua proposto consente una valutazione continua e completa di più strumenti NLPre, monitorando in modo credibile le loro prestazioni. L'applicazione prototipo è configurata per il polacco e integrata con il benchmark NLPre-PL completamente assemblato. Sulla base di questo benchmark, conduciamo un'ampia valutazione di una varietà di sistemi NLPre polacchi. Per facilitare la costruzione di ambienti di benchmarking per altre lingue, ad esempio NLPre-GA per l'irlandese o NLPre-ZH per il cinese, garantiamo la completa personalizzazione del codice sorgente rilasciato pubblicamente del sistema di benchmarking. I link a tutte le risorse (piattaforme distribuite, codice sorgente, modelli addestrati, set di dati ecc.) sono disponibili sul sito web del progetto: https://sites.google.com/view/nlpre-benchmark.
Parole chiave : benchmarking, classifica, segmentazione, tagging POS, analisi delle dipendenze, polacco
Le caratteristiche morfosintattiche previste dai tagger delle parti del discorso (POS) e dai parser di dipendenza sono alla base di varie attività a valle, tra cui, a titolo esemplificativo ma non esaustivo, l'analisi del sentiment (Sun et al., 2019), l'estrazione delle relazioni (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019), l'etichettatura dei ruoli semantici (Wang et al., 2019; Kasai et al., 2019), la risposta alle domande (Khashabi et al., 2018) o la traduzione automatica (Chen et al., 2017; Zhang et al., 2019). Queste attività sottostanti possono quindi essere definite attività di preelaborazione del linguaggio naturale (NLPre), in quanto precedono le attività NLP avanzate. Poiché la qualità delle previsioni morfosintattiche ha un impatto cruciale sulle prestazioni delle attività downstream (Sachan et al., 2021), è prudente impiegare i migliori strumenti NLPre esistenti per prevedere le caratteristiche linguistiche appropriate. Siamo dotati di vari metodi NLPre, che vanno da strumenti basati su regole con grammatiche artigianali (ad esempio Crouch et al., 2011), attraverso sistemi statistici (ad esempio Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), sistemi neurali supportati da modelli linguistici pre-addestrati (ad esempio Qi et al., 2020; Nguyen et al., 2021a) a grandi modelli linguistici (LLM Ouyang et al., 2022).
Nel contesto della valutazione intrinseca degli strumenti NLPre e della segnalazione delle loro prestazioni, sono stati proposti diversi approcci, ad esempio attività condivisa, tabella delle prestazioni e repository dei progressi. L'obiettivo principale di un'attività condivisa è valutare in modo completo i sistemi partecipanti sui set di dati rilasciati utilizzando la metodologia di valutazione attentamente definita. Finora sono state organizzate numerose attività condivise NLPre (ad esempio Buchholz e Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018) e hanno indubbiamente dato impulso allo sviluppo di NLPre. Sebbene ampiamente favorite, le attività condivise sono discutibili come fonte di conoscenza completa e aggiornata sui progressi di NLPre. In primo luogo, esaminano solo le soluzioni proposte nel concorso attuale e non includono i sistemi che hanno partecipato alle edizioni precedenti o a quelle possibili future. In secondo luogo, poiché le attività condivise sono organizzate sporadicamente, i loro risultati non vengono rivisti e potrebbero rapidamente diventare obsoleti. Certamente, i set di dati rilasciati per attività condivise possono essere riutilizzati in esperimenti che coinvolgono nuovi strumenti. I risultati di tali esperimenti possono essere riportati in pubblicazioni scientifiche indipendenti. Tuttavia, queste pubblicazioni sono ampiamente sparse, prive di una piattaforma centralizzata per tracciare sistematicamente i progressi NLPre in corso rispetto a una lingua particolare.
I risultati di uno strumento NLPre nuovo o aggiornato sono in genere riportati in tabelle delle prestazioni (ad esempio Stanza[1] o Trankit[2]). Tali tabelle forniscono informazioni sulla qualità dello strumento nella preelaborazione di un set di linguaggi. Le tabelle delle prestazioni, tuttavia, spesso non consentono confronti con altri sistemi addestrati per questi particolari linguaggi. Inoltre, poiché i sistemi NL Pre possono essere addestrati su diverse release di dataset (ad esempio di Universal Dependencies), il confronto delle loro tabelle delle prestazioni non è conclusivo.
Le informazioni sulle tendenze e sui progressi nella ricerca NLP sono solitamente raccolte in repository pubblici come Papers with Code[3] o NLP-progress[4]. Questi repository contengono un repertorio di set di dati per attività NLP comuni, ad esempio analisi delle dipendenze e tagging POS, e classifiche di modelli addestrati e testati su questi set di dati. Sono aperti a contribuire con nuovi set di dati e risultati che, per garantirne la credibilità, provengono da articoli scientifici pubblicati e collegati. Tuttavia, i risultati all'avanguardia ma non pubblicati di un sistema NLPre nuovo o aggiornato non sono idonei per la segnalazione. Le attività NLPre sono accompagnate da set di dati per lo più in inglese, sollevando il problema della mancata rappresentazione linguistica dei repository. Ultimo ma non meno importante, il repository Papers with Code è incline all'abuso. Dopo aver effettuato l'accesso, è possibile aggiungere nuovi risultati e collegarli ad articoli irrilevanti, nonché modificare i risultati esistenti. I risultati fraudolenti vengono immediatamente resi pubblici.
Nonostante forniscano informazioni preziose sui progressi nell'NLPre, gli approcci di valutazione menzionati rivelano anche delle carenze, ad esempio risultati obsoleti e incompleti, mancanza di confronto tra sistemi, trascuratezza di alcuni sistemi, rischio di manipolazione dei risultati e assenza di una prospettiva incentrata sulla lingua.
Seguendo le procedure standard nella ricerca NLP, proponiamo di valutare in modo robusto ed equo gli strumenti NLPre utilizzando il metodo di benchmarking che consente la valutazione delle prestazioni e dei progressi dei modelli NLP. I benchmark NLP sono associati a classifiche che segnalano e aggiornano le prestazioni del modello sulle attività di benchmark, ad esempio GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). L'approccio di benchmarking convenzionale può essere migliorato dinamicamente, esemplificato dalla piattaforma Dynabench (Kiela et al., 2021), che consente agli utenti di aumentare i dati di benchmark inserendo esempi personalizzati. Questo scenario di benchmarking human-and-model-in-the-loop sembra promettente per le attività NLU. Tuttavia, potrebbe non essere efficace nel caso di NLPre, poiché l'annotazione di esempi credibili di alberi sintattici o caratteristiche morfologiche richiede conoscenze specialistiche. Trovare più esperti tra gli utenti occasionali può rappresentare un serio ostacolo, per questo implementiamo il nostro sistema in linea con il metodo di benchmarking standard.
A nostra conoscenza, il benchmarking non è stato utilizzato per classificare i sistemi NLPre, anche se è prezioso e desiderato dalla comunità che crea treebank o progetta pipeline NLP avanzate. Il nostro approccio al benchmarking NLPre colma questa lacuna. Il sistema di benchmarking online proposto valuta automaticamente le previsioni inviate dai sistemi NLPre e pubblica la loro classifica delle prestazioni su una bacheca pubblica (vedere Sezione 2.2). Il sistema è incentrato sulla lingua e indipendente dal tagset, consente una valutazione completa e credibile e costituisce una fonte di informazioni aggiornata sui progressi NLPre per una lingua specifica. A differenza di piattaforme simili, ad esempio Codalab (Pavao et al., 2022), il sistema di benchmarking NLPre è completamente configurabile e facile da installare, consentendo agli utenti di stabilire un ambiente di valutazione per qualsiasi lingua. Inoltre, può essere auto-ospitato, rendendo conveniente per sviluppatori e ricercatori che lavorano con una lingua specifica averlo accessibile su un server locale.
Per giustificare l'uso della tecnica di benchmarking per le attività NLPre, conduciamo una ricerca empirica in uno scenario impegnativo con il polacco come lingua di esempio. Nel caso del polacco, sorge un ostacolo dominante: le discrepanze tra diversi tagset, schemi di annotazione e set di dati utilizzati per l'addestramento di sistemi eterogenei impediscono il loro confronto diretto. Pertanto standardizziamo l'addestramento e la valutazione dei sistemi NLPre su un nuovo benchmark delle prestazioni per il polacco, di seguito NLPre-PL (vedere Sezione 3). Consiste in un set predefinito di attività NLPre e versioni riformulate di set di dati polacchi esistenti. La Sezione 4 delinea la nostra valutazione solida e affidabile dei sistemi NLPre selezionati sul benchmark NLPre-PL. In base alla nostra conoscenza, non sono stati condotti esperimenti di valutazione in polacco per confrontare le prestazioni di LLM standard, sistemi NLPre neurali e disambiguatori di tagging consolidati a causa della mancanza di un ambiente di valutazione coerente.
Questo lavoro fornisce un contributo tripartito che comprende novità, ricerca e sviluppo supportati da un'etica open source. (1) Proponiamo un nuovo approccio di benchmarking orientato al linguaggio per valutare e classificare i sistemi NLPre. (2) Conduciamo una valutazione scientifica dell'approccio proposto nello scenario della lingua polacca non banale sul benchmark NLPre-PL assemblato. (3) Pubblichiamo piattaforme di benchmarking online per tre lingue distinte: polacco[5], cinese[6] e irlandese[7] e rilasciamo il codice sorgente del sistema di benchmarking come open source.
Questo articolo è disponibile su arxiv con licenza CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance.html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu