Аўтары:
(1) Марціна Вёнцэк, Інстытут інфарматыкі Польскай акадэміі навук;
(2) Пётр Рыбак, Інстытут інфарматыкі Польскай акадэміі навук;
(3) Лукаш Пшэнні, Інстытут інфарматыкі Польскай акадэміі навук;
(4) Аліна Ўрублеўская, Інстытут інфарматыкі Польскай акадэміі навук.
Заўвага рэдактара: гэта частка 1 з 10 даследавання па паляпшэнню ацэнкі і параўнання інструментаў, якія выкарыстоўваюцца ў папярэдняй апрацоўцы натуральнай мовы. Астатняе чытайце ніжэй.
Анатацыя і 1. Уводзіны і сумежныя працы
2.2. Інтэрнэт-сістэма бенчмаркінгу
З развіццём архітэктур, заснаваных на трансфарматары, мы назіраем рост інструментаў папярэдняй апрацоўкі натуральнай мовы (NLPre), здольных вырашаць папярэднія задачы NLP (напрыклад, токенізацыя, пазначэнне часцін мовы, разбор залежнасцей або марфалагічны аналіз) без усялякага знешняга лінгвістычнага кіраўніцтва . Цяжка параўноўваць новыя рашэнні з добра ўкаранёнымі інструментамі папярэдняй апрацоўкі, абапіраючыся на заснаваныя на правілах марфалагічныя аналізатары або слоўнікі. Усведамляючы недахопы існуючых падыходаў да ацэнкі NLPre, мы даследуем новы метад надзейнай і справядлівай ацэнкі і справаздачнасці аб эфектыўнасці. Натхнёная бенчмаркінгам GLUE, прапанаваная моваарыентаваная сістэма бенчмаркінгу дазваляе комплексную бягучую ацэнку некалькіх інструментаў NLPre, адначасова дакладна адсочваючы іх прадукцыйнасць. Прататып прыкладання сканфігураваны для польскай мовы і інтэграваны з старанна сабраным тэстам NLPre-PL. Грунтуючыся на гэтым эталоне, мы праводзім шырокую ацэнку розных польскіх сістэм NLPre. Каб палегчыць стварэнне асяроддзя параўнання для іншых моў, напрыклад, NLPre-GA для ірландскай або NLPre-ZH для кітайскай мовы, мы гарантуем поўную настройку публічна апублікаванага зыходнага кода сістэмы параўнання. Спасылкі на ўсе рэсурсы (разгорнутыя платформы, зыходны код, навучаныя мадэлі, наборы даных і г.д.) можна знайсці на вэб-сайце праекта: https://sites.google.com/view/nlpre-benchmark.
Ключавыя словы : бенчмаркінг, табліца лідэраў, сегментацыя, тэгі POS, разбор залежнасцей, польскі
Марфасінтаксічныя асаблівасці, прадказаныя тэгерамі часцін мовы (POS) і аналізатарамі залежнасцей, ляжаць у аснове розных наступных задач, у тым ліку, але не абмяжоўваючыся аналізам настрояў (Sun et al., 2019), вылучэннем адносін (Zhang et al., 2018; Vashishth et al., 2018; Го і інш., 2019), маркіроўка семантычнай ролі (Ванг і інш al., 2019; Kasai et al., 2019), адказы на пытанні (Khashabi et al., 2018) або машынны пераклад (Chen et al., 2017; Zhang et al., 2019). Такім чынам, гэтыя асноўныя задачы можна назваць задачамі папярэдняй апрацоўкі натуральнай мовы (NLPre), паколькі яны папярэднічаюць складаным задачам NLP. Паколькі якасць марфасінтаксічных прагнозаў мае вырашальны ўплыў на выкананне наступных задач (Sachan et al., 2021), разумна выкарыстоўваць найлепшыя існуючыя інструменты NLPre для прагназавання належных моўных асаблівасцей. У нас ёсць розныя метады NLPre, пачынаючы ад заснаваных на правілах інструментаў і ўручную створаных граматык (напрыклад, Crouch et al., 2011), да статыстычных сістэм (напрыклад, Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), нейронавыя сістэмы, якія падтрымліваюцца папярэдне падрыхтаванымі моўнымі мадэлямі (напрыклад, Qi et al., 2020; Nguyen et al. інш., 2021a) да вялікіх моўных мадэляў (LLM Ouyang et al., 2022).
У кантэксце ўнутранай ацэнкі інструментаў NLPre і справаздачнасці аб іх прадукцыйнасці былі прапанаваны розныя падыходы, напрыклад, агульная задача, табліца прадукцыйнасці і сховішча прагрэсу. Асноўная мэта сумеснай задачы - усебаковая ацэнка сістэм-удзельніц на апублікаваных наборах даных з выкарыстаннем старанна вызначанай метадалогіі ацэнкі. Да гэтага часу былі арганізаваны шматлікія сумесныя задачы NLPre (напрыклад, Buchholz and Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), і яны, несумненна, спрыялі развіццю NLPre. Нягледзячы на тое, што агульныя заданні карыстаюцца шырокай перавагай, сумнеўныя як поўная і актуальная крыніца ведаў аб прагрэсе НЛПрэ. Па-першае, яны ўважліва вывучаюць толькі рашэнні, прапанаваныя ў бягучым конкурсе, і не ўключаюць у сябе сістэмы, якія ўдзельнічаюць у папярэдніх выданнях або магчымых будучых. Па-другое, паколькі агульныя заданні арганізуюцца спарадычна, іх вынікі не пераглядаюцца і могуць хутка састарэць. Безумоўна, наборы дадзеных, выпушчаныя для агульных задач, можна паўторна выкарыстоўваць у эксперыментах з выкарыстаннем новых інструментаў. Аб выніках такіх эксперыментаў можна паведаміць у незалежных навуковых выданнях. Тым не менш, гэтыя публікацыі шырока раскіданыя, не маюць цэнтралізаванай платформы для сістэматычнага адсочвання бягучага прагрэсу NLPre адносна пэўнай мовы.
Вынікі новага або мадэрнізаванага інструмента NLPre звычайна паказваюцца ў табліцах прадукцыйнасці (напрыклад, Stanza[1] або Trankit[2]). Такія табліцы даюць інфармацыю аб якасці інструмента пры папярэдняй апрацоўцы набору моў. Аднак у табліцах прадукцыйнасці часта не хапае параўнання з іншымі сістэмамі, падрыхтаванымі для гэтых канкрэтных моў. Акрамя таго, паколькі сістэмы NL Pre могуць быць навучаны на розных версіях набораў даных (напрыклад, універсальных залежнасцях), параўнанне іх табліц прадукцыйнасці не з'яўляецца пераканаўчым.
Інфармацыя аб тэндэнцыях і прагрэсе ў даследаваннях НЛП звычайна збіраецца ў публічных сховішчах, такіх як Papers with Code[3] або NLP-progress[4]. Гэтыя рэпазітары ўтрымліваюць рэпертуар набораў даных для агульных задач NLP, напрыклад, разбору залежнасцей і тэгавання POS, а таксама рэйтынгі мадэляў, навучаных і пратэставаных на гэтых наборах даных. Яны адкрыты для ўкладу новых набораў дадзеных і вынікаў, якія, каб гарантаваць іх аўтарытэт, паходзяць з апублікаваных і звязаных навуковых артыкулаў. Аднак перадавыя яшчэ неапублікаваныя вынікі новай або мадэрнізаванай сістэмы NLPre не падлягаюць справаздачы. Заданні NLPre суправаджаюцца наборамі даных у асноўным на англійскай мове, што ўздымае праблему моўнай непрадстаўленасці сховішчаў. І апошняе, але не менш важнае: сховішча Papers with Code схільна злоўжыванням. Пасля ўваходу ў сістэму можна дадаваць новыя вынікі і звязваць іх з недарэчнымі дакументамі, а таксама рэдагаваць існуючыя вынікі. Падробленыя вынікі неадкладна апублікаваны.
Нягледзячы на тое, што яны даюць каштоўную інфармацыю аб прагрэсе ў NLPre, згаданыя падыходы да ацэнкі таксама выяўляюць недахопы, напрыклад, састарэлыя і няпоўныя вынікі, адсутнасць міжсістэмнага параўнання, ігнараванне некаторых сістэм, рызыка маніпулявання вынікамі і адсутнасць пункту гледжання, арыентаванага на мову.
Вынікаючы стандартным працэдурам даследаванняў НЛП, мы прапануем надзейна і справядліва ацаніць інструменты NLPre з дапамогай метаду параўнальнага аналізу, які дазваляе ацэньваць прадукцыйнасць і прагрэс мадэляў НЛП. Тэсты НЛП спалучаюцца з табліцамі лідэраў, якія паведамляюць і абнаўляюць прадукцыйнасць мадэлі па эталонных задачах, напрыклад, GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). Звычайны падыход да эталоннага аналізу можна дынамічна ўдасканальваць, прыкладам чаго з'яўляецца платформа Dynabench (Kiela et al., 2021), якая дазваляе карыстальнікам дапаўняць даныя эталоннага тэсту, уводзячы ўласныя прыклады. Гэты сцэнар параўнальнага аналізу чалавека і мадэлі ў цыкле здаецца перспектыўным для задач NLU. Тым не менш, гэта можа быць неэфектыўным у выпадку NLPre, паколькі анатаванне вартых даверу прыкладаў сінтаксічных дрэў або марфалагічных асаблівасцей патрабуе экспертных ведаў. Знаходжанне некалькіх экспертаў сярод выпадковых карыстальнікаў можа быць сур'ёзнай перашкодай, таму мы ўкараняем нашу сістэму ў адпаведнасці са стандартным метадам параўнальнага аналізу.
Наколькі нам вядома, параўнальны аналіз не выкарыстоўваўся для ранжыравання сістэм NLPre, нават калі ён каштоўны і жаданы супольнасцю, якая стварае банкі дрэў або распрацоўвае прасунутыя канвееры NLP. Наш падыход да параўнальнага аналізу NLPre запаўняе гэты прабел. Прапанаваная онлайн-сістэма параўнальнага аналізу аўтаматычна ацэньвае прадстаўленыя прагнозы сістэм NLPre і публікуе рэйтынг іх прадукцыйнасці на публічным табло (гл. Раздзел 2.2). Сістэма арыентавана на мову і не залежыць ад набору тэгаў, дазваляе комплексную і вартую даверу ацэнку і ўяўляе сабой актуальную крыніцу інфармацыі аб прагрэсе NLPre для пэўнай мовы. У адрозненне ад падобных платформаў, напрыклад, Codalab (Pavao et al., 2022), сістэма параўнальнага аналізу NLPre цалкам канфігуруецца і лёгка наладжваецца, што дазваляе карыстальнікам ствараць асяроддзе ацэнкі для любой мовы. Акрамя таго, ён можа размяшчацца самастойна, што робіць яго зручным для распрацоўшчыкаў і даследчыкаў, якія працуюць з пэўнай мовай, каб мець доступ да яго на лакальным серверы.
Каб абгрунтаваць выкарыстанне метаду бенчмаркінгу для задач NLPre, мы праводзім эмпірычнае даследаванне ў складаным сцэнары з польскай мовай у якасці прыкладу. У выпадку польскай мовы ўзнікае адна дамінантная перашкода – разыходжанні паміж рознымі наборамі тэгаў, схемамі анатацый і наборамі даных, якія выкарыстоўваюцца для навучання разрозненых сістэм, выключаюць іх непасрэднае параўнанне. Такім чынам, мы стандартызуем навучанне і ацэнку сістэм NLPre на новым эталоне прадукцыйнасці для польскай мовы, у далейшым NLPre-PL (гл. раздзел 3). Ён складаецца з загадзя вызначанага набору задач NLPre і перафармуляваных версій існуючых польскіх набораў даных. У раздзеле 4 апісваецца наша надзейная і надзейная ацэнка выбраных сістэм NLPre па тэсту NLPre-PL. Наколькі нам вядома, на польскай мове не праводзіліся ацэначныя эксперыменты для параўнання прадукцыйнасці гатовых LLM, нейронавых сістэм NLPre і ўстаноўленых сродкаў ухілення неадназначнасці тэгаў з-за адсутнасці ўзгодненага асяроддзя ацэнкі.
Гэтая праца ўносіць трохбаковы ўклад, які ахоплівае навізну, даследаванні і распрацоўкі, падмацаваныя духам адкрытага зыходнага кода. (1) Мы прапануем новы моўна-арыентаваны падыход да параўнальнага аналізу для ацэнкі і ранжыравання сістэм NLPre. (2) Мы праводзім навуковую ацэнку прапанаванага падыходу ў нетрывіяльным польскамоўным сцэнары на сабраным тэсту NLPre-PL. (3) Мы публікуем онлайн-платформы параўнальнага аналізу для трох розных моў: польскай[5], кітайскай[6] і ірландскай[7], і выпускаем зыходны код сістэмы параўнальнага аналізу як адкрыты зыходны код.
Гэты дакумент даступны на arxiv пад ліцэнзіяй CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance. html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu