著者:
(1)マルティナ・ヴィェチェク、ポーランド科学アカデミーコンピュータ科学研究所
(2)ピオトル・リバク、ポーランド科学アカデミーコンピュータ科学研究所
(3) Łukasz Pszenny、ポーランド科学アカデミー、コンピューターサイエンス研究所。
(4) Alina Wróblewska、ポーランド科学アカデミー、コンピューター サイエンス研究所。
編集者注: これは、自然言語の前処理に使用されるツールの評価と比較の改善に関する研究の 10 部構成の第 1 部です。続きは以下をご覧ください。
トランスフォーマーベースのアーキテクチャの進歩により、外部の言語ガイダンスなしで予備的な NLP タスク (トークン化、品詞タグ付け、依存関係の解析、形態素解析など) を解決できる自然言語前処理 (NLPre) ツールの台頭が見られます。ルールベースの形態素解析器や辞書に依存する、定着した前処理ツールキットと新しいソリューションを比較するのは困難です。既存の NLPre 評価アプローチの欠点を認識し、信頼性が高く公平な評価とパフォーマンス レポートの新しい方法を調査し、GLUE ベンチマークに触発されて提案された言語中心のベンチマーク システムにより、複数の NLPre ツールを包括的に継続的に評価しながら、そのパフォーマンスを信頼性を持って追跡できます。プロトタイプ アプリケーションはポーランド語用に構成され、徹底的に組み立てられた NLPre-PL ベンチマークと統合されています。このベンチマークに基づいて、さまざまなポーランド語 NLPre システムの広範な評価を実施します。他の言語のベンチマーク環境の構築を容易にするために、たとえばアイルランド語の NLPre-GA や中国語の NLPre-ZH など、ベンチマーク システムの公開ソース コードを完全にカスタマイズできるようにしています。すべてのリソース (デプロイされたプラットフォーム、ソース コード、トレーニング済みモデル、データセットなど) へのリンクは、プロジェクトの Web サイト (https://sites.google.com/view/nlpre-benchmark) にあります。
キーワード: ベンチマーク、リーダーボード、セグメンテーション、POS タグ付け、依存関係解析、ポーランド語
品詞 (POS) タグ付け機能と依存関係パーサーによって予測される形態統語的特徴は、感情分析 (Sun et al., 2019)、関係抽出 (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019)、意味役割ラベル付け (Wang et al., 2019; Kasai et al., 2019)、質問応答 (Khashabi et al., 2018)、機械翻訳 (Chen et al., 2017; Zhang et al., 2019) など、さまざまな下流タスクの基礎となります。したがって、これらの基礎タスクは、高度な NLP タスクに先行するため、自然言語前処理 (NLPre) タスクと呼ばれることがあります。形態統語的予測の質は下流のタスクのパフォーマンスに決定的な影響を与えるため (Sachan et al., 2021)、適切な言語的特徴を予測するには、既存の最良の NLPre ツールを採用するのが賢明です。私たちは、手作りの文法を使用したルールベースのツール (例: Crouch et al., 2011) から、統計システム (例: Nivre, 2009; McDonald et al., 2005; Straka et al., 2016)、事前トレーニング済みの言語モデルによってサポートされるニューラルシステム (例: Qi et al., 2020; Nguyen et al., 2021a)、大規模言語モデル (LLM Ouyang et al., 2022) に至るまで、さまざまな NLPre 手法を備えています。
NLPre ツールを本質的に評価し、そのパフォーマンスを報告するという文脈では、共有タスク、パフォーマンス テーブル、進捗リポジトリなど、さまざまなアプローチが提案されています。共有タスクの主な目的は、慎重に定義された評価方法を使用して、公開されたデータセットで参加システムを包括的に評価することです。これまでに多数の NLPre 共有タスクが組織されており (例: Buchholz and Marsi、2006 年、Seddah ら、2013 年、Zeman ら、2017、2018 年)、それらは間違いなく NLPre の開発を後押ししました。共有タスクは広く支持されていますが、NLPre の進捗に関する完全かつ最新の知識源としては疑問があります。まず、現在のコンテストで提案されたソリューションのみを精査し、以前のエディションに参加したシステムや将来のエディションの可能性のあるシステムは含まれていません。次に、共有タスクは散発的に組織されるため、結果が改訂されず、すぐに古くなる可能性があります。確かに、共有タスク用に公開されたデータセットは、新しいツールを使った実験で再利用できます。そのような実験の結果は、独立した科学出版物で報告できます。しかし、これらの出版物は広範囲に散在しており、特定の言語に関する進行中の NLPre の進捗状況を体系的に追跡するための集中型プラットフォームが欠けています。
新しいまたはアップグレードされたNLPreツールの結果は、通常、パフォーマンステーブル(Stanza[1]またはTrankit[2]など)で報告されます。このようなテーブルは、一連の言語の前処理におけるツールの品質に関する情報を提供します。ただし、パフォーマンステーブルには、これらの特定の言語用にトレーニングされた他のシステムとの比較が欠けていることがよくあります。さらに、NL Preシステムは異なるデータセットリリース(Universal Dependenciesなど)でトレーニングされる場合があるため、パフォーマンステーブルを比較しても決定的なものではありません。
NLP研究の傾向や進捗に関する情報は、通常、Papers with Code[3]やNLP-progress[4]などの公開リポジトリに収集されます。これらのリポジトリには、依存関係の解析や品詞タグ付けなどの一般的なNLPタスクのデータセットのレパートリーと、これらのデータセットでトレーニングおよびテストされたモデルのランキングが含まれています。リポジトリでは新しいデータセットや結果の投稿を受け付けており、信頼性を確保するために、公開されリンクされた科学論文に由来するものが求められます。ただし、新しいまたはアップグレードされたNLPreシステムの最先端だが未公開の結果は報告の対象になりません。NLPreタスクには主に英語のデータセットが付随するため、リポジトリの言語が表現されていないという問題が生じます。最後に、Papers with Codeリポジトリは悪用されやすいという問題もあります。ログイン後、新しい結果を追加して無関係な論文にリンクしたり、既存の結果を編集したりできます。不正な結果はすぐに公表されます。
上記の評価アプローチは、NLPre の進捗状況に関する貴重な情報を提供しているものの、古くて不完全な結果、システム間の比較の欠如、一部のシステムの無視、結果操作のリスク、言語中心の視点の欠如などの欠点も明らかにしています。
NLP 研究の標準的な手順に従って、NLP モデルのパフォーマンスと進捗状況を評価できるベンチマーク法を使用して、NLPre ツールを堅牢かつ公平に評価することを提案します。NLP ベンチマークは、GLUE (Wang et al., 2018)、XTREME (Hu et al., 2020)、GEM (Gehrmann et al., 2021) などのベンチマーク タスクでのモデル パフォーマンスを報告および更新するリーダーボードと連動しています。従来のベンチマーク手法は、Dynabench プラットフォーム (Kiela et al., 2021) に代表されるように動的に強化される可能性があり、ユーザーはカスタム例を入力してベンチマーク データを拡張できます。この人間とモデルがループするベンチマーク シナリオは、NLU タスクには有望に思えます。ただし、NLPre の場合は効果的ではない可能性があります。信頼できる構文ツリーや形態学的特徴の例に注釈を付けるには専門知識が必要になるためです。一般ユーザーの中から複数の専門家を見つけるのは大きな障害となる可能性があるため、当社では標準的なベンチマーク方法に合わせてシステムを実装しています。
私たちの知る限り、ベンチマークは、ツリーバンクを作成したり、高度な NLP パイプラインを設計したりするコミュニティにとっては価値があり望まれているにもかかわらず、NLPre システムのランク付けに使用されたことはありません。私たちの NLPre ベンチマーク アプローチはこのギャップを埋めます。提案されているオンライン ベンチマーク システムは、提出された NLPre システムの予測を自動的に評価し、そのパフォーマンス ランキングを公開スコアボードに公開します (セクション 2.2 を参照)。このシステムは言語中心でタグセットに依存せず、包括的で信頼性の高い評価を可能にし、特定の言語の NLPre の進捗状況に関する最新の情報源を構成します。Codalab (Pavao ら、2022) などの同様のプラットフォームとは異なり、NLPre ベンチマーク システムは完全に構成可能でセットアップが簡単で、ユーザーは任意の言語の評価環境を確立できます。さらに、セルフホストも可能なので、特定の言語で作業している開発者や研究者がローカル サーバーでアクセスできるのが便利です。
NLPre タスクのベンチマーク手法の使用を正当化するために、ポーランド語を例言語として、困難なシナリオで実証的研究を実施しました。ポーランド語の場合、1 つの大きなハードルが発生します。異なるシステムのトレーニングに使用される異なるタグセット、注釈スキーム、データセット間の不一致により、直接比較できないためです。そのため、ポーランド語の新しいパフォーマンス ベンチマーク (以下、NLPre-PL) で NLPre システムのトレーニングと評価を標準化しました (セクション 3 を参照)。これは、定義済みの NLPre タスク セットと、既存のポーランド語データセットの再構成バージョンで構成されます。セクション 4 では、NLPre-PL ベンチマークで選択した NLPre システムの堅牢で信頼性の高い評価について説明します。私たちの知る限り、一貫した評価環境がないため、既製の LLM、ニューラル NLPre システム、確立されたタグ付け曖昧性解消ツールのパフォーマンスを比較する評価実験はポーランド語では実施されていません。
この研究は、オープンソースの精神に支えられた新規性、研究、開発を網羅する三位一体の貢献です。(1) NLPreシステムを評価およびランク付けするための新しい言語指向のベンチマーク手法を提案します。(2) 組み立てられたNLPre-PLベンチマーク上で、重要なポーランド語シナリオで提案手法の科学的評価を実施します。(3) ポーランド語[5]、中国語[6]、アイルランド語[7]の3つの異なる言語のオンラインベンチマークプラットフォームを公開し、ベンチマークシステムのソースコードをオープンソースとしてリリースします。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance.html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu