Pengarang:
(1) Martyna Wiącek, Institut Sains Komputer, Akademi Sains Poland;
(2) Piotr Rybak, Institut Sains Komputer, Akademi Sains Poland;
(3) Łukasz Pszenny, Institut Sains Komputer, Akademi Sains Poland;
(4) Alina Wróblewska, Institut Sains Komputer, Akademi Sains Poland.
Nota editor: Ini ialah Bahagian 1 daripada 10 kajian tentang penambahbaikan penilaian dan perbandingan alatan yang digunakan dalam prapemprosesan bahasa semula jadi. Baca selebihnya di bawah.
Abstrak dan 1. Pengenalan dan karya berkaitan
2.2. Sistem penanda aras dalam talian
Dengan kemajuan seni bina berasaskan pengubah, kami melihat peningkatan alat prapemprosesan bahasa semula jadi (NLPre) yang mampu menyelesaikan tugasan awal NLP (cth tokenisasi, penandaan sebahagian daripada pertuturan, penghuraian kebergantungan atau analisis morfologi) tanpa sebarang panduan linguistik luaran . Adalah sukar untuk membandingkan penyelesaian baru dengan kit alat prapemprosesan yang mantap, bergantung pada penganalisis morfologi atau kamus berasaskan peraturan. Menyedari kelemahan pendekatan penilaian NLPre sedia ada, kami menyiasat kaedah baru bagi penilaian dan pelaporan prestasi yang boleh dipercayai dan adil. Diilhamkan oleh penanda aras GLUE, sistem penanda aras tertumpu bahasa yang dicadangkan membolehkan penilaian berterusan menyeluruh bagi berbilang alatan NLPre, sambil menjejaki prestasinya dengan boleh dipercayai. Aplikasi prototaip dikonfigurasikan untuk bahasa Poland dan disepadukan dengan penanda aras NLPre-PL yang dipasang dengan teliti. Berdasarkan penanda aras ini, kami menjalankan penilaian menyeluruh ke atas pelbagai sistem NLPre Poland. Untuk memudahkan pembinaan persekitaran penandaarasan untuk bahasa lain, contohnya NLPre-GA untuk Ireland atau NLPre-ZH untuk bahasa Cina, kami memastikan penyesuaian penuh kod sumber sistem penanda aras yang dikeluarkan secara terbuka. Pautan kepada semua sumber (platform yang digunakan, kod sumber, model terlatih, set data dll.) boleh didapati di tapak web projek: https://sites.google.com/view/nlpre-benchmark.
Kata kunci : penanda aras, papan pendahulu, pembahagian, penandaan POS, penghuraian kebergantungan, Poland
Ciri morfosintaktik yang diramalkan oleh penanda sebahagian pertuturan (POS) dan penghurai kebergantungan mendasari pelbagai tugas hiliran, termasuk tetapi tidak terhad kepada analisis sentimen (Sun et al., 2019), pengekstrakan hubungan (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019), pelabelan peranan semantik (Wang et al., 2019; Kasai et al., 2019), menjawab soalan (Khashabi et al., 2018), atau terjemahan mesin (Chen et al., 2017; Zhang et al., 2019). Oleh itu, tugas asas ini boleh dirujuk sebagai tugasan prapemprosesan bahasa semula jadi (NLPre), kerana tugasan tersebut mendahului tugasan NLP lanjutan. Memandangkan kualiti ramalan morfosyntactic mempunyai kesan penting terhadap prestasi tugas hiliran (Sachan et al., 2021), adalah bijak untuk menggunakan alat NLPre sedia ada yang terbaik untuk meramalkan ciri linguistik yang betul. Kami dilengkapi dengan pelbagai kaedah NLPre, bermula daripada alatan berasaskan peraturan dengan tatabahasa buatan tangan (cth. Crouch et al., 2011), melalui sistem statistik (cth. Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), sistem saraf yang disokong oleh model bahasa pra-terlatih (cth. Qi et al., 2020; Nguyen et al., 2021a) kepada model bahasa yang besar (LLM Ouyang et al., 2022).
Dalam konteks menilai secara intrinsik alatan NLPre dan melaporkan prestasinya, pelbagai pendekatan telah dicadangkan, contohnya tugas bersama, jadual prestasi dan repositori kemajuan. Matlamat utama tugas bersama adalah untuk menilai secara menyeluruh sistem yang mengambil bahagian pada set data yang dikeluarkan menggunakan metodologi penilaian yang ditakrifkan dengan teliti. Banyak tugas bersama NLPre telah dianjurkan setakat ini (cth. Buchholz dan Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), dan sudah pasti ia telah meningkatkan pembangunan NLPre. Walaupun digemari secara meluas, tugas yang dikongsi boleh dipersoalkan sebagai sumber pengetahuan yang lengkap dan terkini tentang kemajuan NLPre. Pertama, mereka hanya meneliti penyelesaian yang dikemukakan dalam peraduan semasa dan tidak termasuk sistem yang mengambil bahagian dalam edisi sebelumnya atau kemungkinan akan datang. Kedua, memandangkan tugas bersama disusun secara sporadis, keputusannya tidak disemak dan mungkin cepat ketinggalan zaman. Sudah tentu, set data yang dikeluarkan untuk tugas bersama boleh digunakan semula dalam eksperimen yang melibatkan alat baharu. Keputusan eksperimen tersebut boleh dilaporkan dalam penerbitan saintifik bebas. Walau bagaimanapun, penerbitan ini tersebar secara meluas, tidak mempunyai platform terpusat untuk mengesan kemajuan NLPre yang berterusan secara sistematik berkenaan dengan bahasa tertentu.
Keputusan alat NLPre baharu atau dinaik taraf biasanya dilaporkan dalam jadual prestasi (cth Stanza[1] atau Trankit[2]). Jadual sedemikian memberikan maklumat tentang kualiti alat dalam prapemprosesan set bahasa. Jadual prestasi, bagaimanapun, sering kekurangan perbandingan dengan sistem lain yang dilatih untuk bahasa tertentu ini. Selain itu, memandangkan sistem Pra NL mungkin dilatih pada keluaran set data yang berbeza (cth. Ketergantungan Sejagat), membandingkan jadual prestasi mereka adalah tidak muktamad.
Maklumat tentang trend dan kemajuan dalam penyelidikan NLP biasanya dikumpulkan dalam repositori awam seperti Papers with Code[3] atau NLP-progress[4]. Repositori ini mengandungi himpunan set data untuk tugasan NLP biasa, contohnya penghuraian kebergantungan dan pengetagan POS, dan kedudukan model yang dilatih dan diuji pada set data ini. Mereka terbuka untuk menyumbang set data dan keputusan baharu, yang, untuk memastikan kredibiliti mereka, berasal daripada kertas saintifik yang diterbitkan dan dipautkan. Walau bagaimanapun, keputusan terkini yang belum diterbitkan bagi sistem NLPre baharu atau dinaik taraf tidak layak untuk dilaporkan. Tugas NLPre disertakan dengan set data kebanyakannya dalam bahasa Inggeris, menimbulkan masalah ketidakwakilan bahasa bagi repositori. Akhir sekali, repositori Papers with Code terdedah kepada penyalahgunaan. Selepas log masuk, seseorang boleh menambah hasil baharu dan memautkannya dengan kertas yang tidak berkaitan serta mengedit keputusan sedia ada. Hasil penipuan dihebahkan segera.
Walaupun memberikan maklumat berharga tentang kemajuan dalam NLPre, pendekatan penilaian yang disebutkan juga mendedahkan kelemahan, contohnya hasil yang lapuk dan tidak lengkap, kekurangan perbandingan silang sistem, mengabaikan beberapa sistem, risiko manipulasi keputusan dan ketiadaan perspektif berpusatkan bahasa.
Mengikuti prosedur standard dalam penyelidikan NLP, kami mencadangkan untuk menilai alat NLPre dengan mantap dan saksama menggunakan kaedah penanda aras yang membolehkan penilaian prestasi dan kemajuan model NLP. Penanda aras NLP digabungkan dengan papan pendahulu yang melaporkan dan mengemas kini prestasi model pada tugas penanda aras, cth GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). Pendekatan penanda aras konvensional mungkin dipertingkatkan secara dinamik, dicontohkan oleh platform Dynabench (Kiela et al., 2021), yang membolehkan pengguna menambah data penanda aras dengan memasukkan contoh tersuai. Senario penanda aras manusiadan-model-dalam-gelung ini kelihatan menjanjikan untuk tugas NLU. Namun begitu, ia mungkin tidak berkesan dalam kes NLPre, kerana menganotasi contoh pokok sintaksis atau ciri morfologi yang boleh dipercayai memerlukan pengetahuan pakar. Mencari berbilang pakar dalam kalangan pengguna biasa boleh menjadi halangan yang serius, oleh itu kami melaksanakan sistem kami selaras dengan kaedah penanda aras standard.
Untuk pengetahuan kami, penanda aras tidak digunakan untuk menentukan kedudukan sistem NLPre, walaupun ia bernilai dan dikehendaki oleh komuniti yang mencipta tebing pokok atau mereka bentuk saluran paip NLP termaju. Pendekatan penanda aras NLPre kami mengisi jurang ini. Sistem penanda aras dalam talian yang dicadangkan secara automatik menilai ramalan sistem NLPre yang diserahkan dan menerbitkan kedudukan prestasi mereka pada papan mata awam (lihat Bahagian 2.2). Sistem ini berpusatkan bahasa dan tagset-agnostik, membolehkan penilaian menyeluruh dan boleh dipercayai dan membentuk sumber maklumat terkini tentang kemajuan NLPre untuk bahasa tertentu. Tidak seperti platform yang serupa, cth Codalab (Pavao et al., 2022), sistem penanda aras NLPre boleh dikonfigurasikan sepenuhnya dan mudah disediakan, membolehkan pengguna mewujudkan persekitaran penilaian untuk mana-mana bahasa. Selain itu, ia boleh dihoskan sendiri, menjadikannya mudah untuk pembangun dan penyelidik yang bekerja dengan bahasa tertentu untuk membolehkannya diakses pada pelayan tempatan.
Untuk mewajarkan penggunaan teknik penandaarasan untuk tugasan NLPre, kami menjalankan penyelidikan empirikal dalam senario yang mencabar dengan bahasa Poland sebagai bahasa contoh. Dalam kes Poland, satu halangan dominan timbul - percanggahan antara set tag, skema anotasi dan set data yang berbeza yang digunakan untuk melatih sistem berbeza menghalang perbandingan langsung mereka. Oleh itu, kami menyeragamkan latihan dan penilaian sistem NLPre pada penanda aras prestasi baharu untuk Poland, selepas ini NLPre-PL (lihat Bahagian 3). Ia terdiri daripada set tugasan NLPre yang dipratentukan dan versi yang dirumus semula bagi set data Poland sedia ada. Bahagian 4 menggariskan penilaian kami yang teguh dan boleh dipercayai bagi sistem NLPre terpilih pada penanda aras NLPre-PL. Mengikut pengetahuan kami, tiada eksperimen penilaian telah dijalankan dalam bahasa Poland untuk membandingkan prestasi LLM luar biasa, sistem NLPre saraf dan penyahkaburan penandaan yang ditubuhkan kerana kekurangan persekitaran penilaian yang koheren.
Kerja ini memberikan sumbangan tiga pihak yang merangkumi kebaharuan, penyelidikan dan pembangunan yang disokong oleh etos sumber terbuka. (1) Kami mencadangkan pendekatan penanda aras berorientasikan bahasa baru untuk menilai dan menilai sistem NLPre. (2) Kami menjalankan penilaian saintifik tentang pendekatan yang dicadangkan dalam senario bahasa Poland yang tidak remeh pada penanda aras NLPre-PL yang dipasang. (3) Kami menerbitkan platform penanda aras dalam talian untuk tiga bahasa berbeza: Poland[5], Cina[6] dan Ireland[7], dan mengeluarkan kod sumber sistem penanda aras sebagai sumber terbuka.
Kertas kerja ini tersedia di arxiv di bawah lesen CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu