著者:
自動エッセイ採点 (AES) は、何十年にもわたって研究されてきた古典的な NLP タスクです。AES は、多くの実用的な関連性と莫大な経済的可能性を秘めています。AES は、大規模な競争試験 (例: SAT、GRE) や急成長しているオンライン学習市場の基礎となっています。ビル & メリンダ ゲイツ財団やザッカーバーグ-チャン イニシアティブなどの慈善団体や非営利団体が、AES に関する複数の Kaggle コンペティションに資金を提供しています [6、7、8]。しかし、これらの取り組みにもかかわらず、エッセイ採点の根本的な問題により、問題は解決にはほど遠い状態です。エッセイの評価は非常に主観的であり、計算が難しい凝集性、文法、関連性などの抽象的な要素が関係します。その結果、文法や一貫性などの機能にわたってエッセイを細かく評価したトレーニング データのラベルを取得するのは非常にコストがかかります。その結果、トレーニングデータセットは、(マスクされた)言語モデル、NER、POSタグ付け、機械翻訳などの他のNLPタスクと比較してかなり限られています。さらに、単純な全体スコアを提供しても、学生へのフィードバックはほとんどまたはまったく提供されず、学生の進歩に役立ちません。したがって、現在の取り組みは、単一のスコアではなく、細かい側面でエッセイを評価することに重点を置いています。これは、予測モデルが1つのメトリックだけでなくすべてのメトリックで優れたパフォーマンスを発揮する必要があるため、過剰適合を回避するのにも役立ちます。基本的に、これはマルチタスクモデルと考えることができます。現在の研究では、結束性、構文、語彙、語法、文法、規則の6つのメトリックに焦点を当てています。
2010 年代以前は、ほとんどの AES モデルは計算言語学者によって設計された手作りの特徴に依存していました [10, 4]。しかし、これらのモデルは通常、特定の特徴 (エッセイの長さなど) に偏っており、トピックやメトリックに一般化できませんでした。手作りの特徴への偏りは、Word2Vec や GloVe などの言語モデルによって学習された単語埋め込みに置き換えることで対処されました。これらの単語埋め込みに基づいて、単語埋め込みの下流にニューラル ネットワークを追加することにより、回帰タスクと分類タスクとしてエッセイのスコアを予測しました。大規模なコーパスでトレーニングされた埋め込みを使用することで、すべてのメトリックのエッセイ スコアと全体のスコアが大幅に向上しました [11]。しかし、パフォーマンスの向上に不可欠であった単語埋め込み自体が、モデルの最大の制限であることが判明しました。埋め込みは本質的に Bag-of-Words アプローチから来ているため、以前のモデルで手作業で作成された言語的特徴によって部分的にキャプチャされたコンテキスト情報をキャプチャできませんでした。手作業で作成された特徴を追加して以前のモデルの欠陥を潜在的に再導入する代わりに、コンテキスト情報の欠如の問題は、LSTM [13] とトランスフォーマー アーキテクチャを使用したアテンション メカニズムによって対処されました。Vaswani と Polosukhin [14] の研究は、トランスフォーマーを使用して BERT モデルの開発に成功しました。BERT モデルとトランスフォーマー アーキテクチャの成功に後押しされて、アテンション ベースの言語モデルが次々と開発されました。現在では、単語の埋め込みの代わりに、コンテキスト情報をキャプチャする文またはドキュメント レベルの埋め込みを取得できます。これらの深い埋め込みを使用して、エッセイのスコアを予測するニューラル ネットワーク モデルが開発されています (分類タスクと回帰タスクの両方)。
このような進歩にもかかわらず、BERTモデルの使用には重大な制限があります。Lottridge et al. (2021) [10]は、ゲームエッセイ、ランダムシャッフル、バベルエッセイに対するモデルの堅牢性の欠如を実証しました。パフォーマンスは、さまざまなクラスとメトリック間で大幅に異なります。この欠点に対処するために、この調査では、マルチタスク学習を通じてすべてのメトリックを同時にモデル化します。BERTベースの分析のもう1つの重要な制限は、BERTモデルではトークンの長さが512に制限されていることです。私たちは、ドキュメントごとに最大4096トークンを許可するLongformerなどのより高度なアーキテクチャを使用して、この問題に対処しようとしています。この研究で検討したデータセット(詳細はセクション2.1を参照)では、ドキュメントの40%以上が512トークンを超えています。したがって、標準のBERTモデルを使用してドキュメントを512トークンに切り捨てると、コンテキストが大幅に失われます。さまざまな研究の 3 つ目の重要な制限は、データセットが限られていることです。複数の研究が AES に焦点を当てていますが、データセットはそれぞれスコアが異なり、その結果、すべてのデータセットでモデルを簡単にトレーニングすることはできません。したがって、この研究では、データセット全体でトレーニングするためのオートエンコーダ ネットワークの有用性を調査し、オートエンコーダから派生したエンコーディングを使用して AES タスクを実行します。要約すると、この研究では、さまざまなディープラーニング ベースのドキュメント エンコーディングが自動エッセイ採点に与える影響を調査します。この研究で検討したデータセット、方法論、実験、およびディープ エンベッディングについては、セクション 2 で説明します。ディープ エンベッディングを変更することに加えて、オートエンコーダ ネットワーク全体でディープ エンコーディングをトレーニングすることにより、さまざまな AES データセットを組み合わせる方法を分析します。これらすべてのアプローチの結果はセクション 3 で示され、結論とさらなる調査の方向性はセクション 4 で示されます。
ラーニング エージェンシー ラボ、ジョージア州立大学、ヴァンダービルト大学は、州および国の教育機関、非営利団体から多数のエッセイを収集しました。このコレクションから、6 年生から 12 年生の生徒が書いた議論型エッセイで構成される「議論と談話要素の評価、選択、理解のための説得力のあるエッセイ (PERSUADE)」コーパスと、8 年生から 12 年生の英語学習者 (ELL) が書いたエッセイで構成される「英語学習者の洞察、熟達度、スキル評価 (ELLIPSE)」コーパスを開発しました。
ELLIPSE コーパス: ELLIPSE コーパスには、8 年生から 12 年生の ELL が書いた 7,000 以上のエッセイが含まれています。これらのエッセイは、2018-19 学年度と 2019-20 学年度の州標準ライティング評価の一部として書かれました。ELLIPSE コーパスのエッセイは、総合的スケールと分析的スケールの両方を含む 5 段階の採点基準を使用して、人間の評価者によって言語能力レベルの注釈が付けられました。総合的スケールはエッセイに示された全体的な言語能力レベルに焦点を当て、分析的スケールには、結束性、構文、語法、語彙、文法、慣習の評価が含まれていました。各分析尺度のスコアは 1.0 から 5.0 まで 0.5 刻みで、スコアが高いほどその尺度での能力が高くなります。
PERSUADE コーパス: PERSUADE コーパスには、米国の 6 年生から 12 年生までの生徒が書いた 25,000 以上の議論文が含まれています。これらのエッセイは、2010 年から 2020 年にかけての国と州の標準化されたライティング評価の一環として書かれました。PERSUADE コーパスの各エッセイは、議論と談話の要素、および議論要素間の階層関係について、人間の評価者によって注釈が付けられました。注釈ルーブリックは、議論文によく見られる談話要素を識別して評価するために開発されました。
このプロジェクトでは、ELLIPSE コーパスを利用して、結束性、構文、語彙、語法、文法、慣習の 6 つの分析尺度のスコアを同時に予測します。さらに、オートエンコーダーを利用して予測精度の向上を図ります。そのアイデアは、ELLIPSE および PERSUADE コーパスを使用してオートエンコーダーをトレーニングすることです。このプロセスを通じて、オートエンコーダーからの圧縮された特徴ベクトルは、事前トレーニング済みの言語モデルの特徴では見逃される可能性のある、スコアリングに不可欠なエッセイの特徴を捉えることができる可能性があります。
前述のとおり、このプロジェクトの目標は、8 年生から 12 年生の英語学習者が書いた議論文の 6 つの分析尺度 (結束性、構文、語彙、語法、文法、慣例) のスコアを予測することです。このタスクでは、まずベースラインを開発し、次に複数の事前トレーニング済みモデルを使用してベースラインを改善します。
ベースライン: ベースラインは、GloVe 埋め込みと双方向 LSTM ネットワークを使用して開発されます。ベースライン モデルでは、まず正規表現ライブラリを使用してデータのクリーンアップ (句読点の削除、空白の削除など) を実行し、次に NLTK の単語トークナイザーを使用してエッセイをトークン化します。LSTM ネットワークは、エッセイの GloVe エンコーディングでトレーニングされ、上記の 6 つの分析尺度のスコアを表す長さ 6 のベクトルを出力します。ニューラル ネットワークのトレーニングには、平均二乗誤差損失 (MSELoss) を使用します。
DistilBERT : DistilBERT は、BERT ベースを蒸留してトレーニングされた、小型で高速、軽量の Transformer モデルです。 bert-base-uncased よりもパラメーターが 40% 少なく、GLUE 言語理解ベンチマークで測定された BERT のパフォーマンスの 95% 以上を維持しながら、60% 高速に実行されます。 BERT は、自己注意を使用して、シーケンス全体からコンテキスト情報をキャプチャします [2]。 これにより、エッセイのサンプルを評価し、より正確なスコアを提供するモデルの能力が向上します。 このモデルでは、自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの DistilBERT モデルに渡して、エッセイのベクトル表現を取得します。 次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、上記の 6 つのライティング属性のそれぞれのスコアを表す 6 次元の出力ベクトルを返します。
T5 : T5 または Text-To-Text Transfer Transformer は、教師なしタスクと教師ありタスクのマルチタスク混合で事前トレーニングされたエンコーダー/デコーダー モデルであり、各タスクはテキストからテキストへの形式に変換されます。マスクされた LM と次の文の予測の目的で事前トレーニングされた BERT では、シーケンス分類などのさまざまな下流タスクで事前トレーニング済みモデルのさまざまなインスタンスを個別に微調整する必要があります。T5 のテキストからテキストへのフレームワークは、同じ損失関数とデコード手順を使用して、さまざまなテキスト タスクで単一のモデルをトレーニングする簡単な方法を提供します。この事前トレーニング フレームワークは、下流タスクでのパフォーマンスを向上させる汎用の「知識」をモデルに提供します [12]。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの T5-Base モデルに渡して、エッセイのベクトル表現を取得しました。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。
RoBERTa-base : RoBERTa は Facebook が開発した BERT のようなマスク言語モデルです。RoBERTa の場合、すべてのエポックのトレーニングを通じて動的マスクが使用されますが、BERT ではマスクは静的です。これにより、モデルは BERT よりもはるかに多くのトークンを学習します。BERT よりもはるかに大きなデータ コーパス (10 倍) とより大きな語彙セットでトレーニングすることで、さらなるパフォーマンスの向上が実現します。トレーニングにおけるこれらの変更により、RoBERTa はほとんどの GLUE および SQuAD タスクで BERT を上回ります [9]。
Longformer : Longformer は、RoBERTa チェックポイントから進化し、長いドキュメントでマスク言語モデル (MLM) としてトレーニングされた BERT のようなトランスフォーマー モデルです。最大 4,096 トークンの長さのシーケンスをサポートします。通常、自己注意メカニズムを使用するトランスフォーマー ベースのモデルは、メモリと計算要件がシーケンスの長さの 2 乗で増加するため、長いシーケンスを処理できません。これにより、長いシーケンスを効率的に処理することが不可能になります。Longformer は、シーケンスの長さに比例してスケーリングする注意メカニズムを導入することで、この重要な制限に対処します [1]。スライディング ウィンドウと拡張スライディング ウィンドウの注意メカニズムを使用して、ローカル コンテキストとグローバル コンテキストをキャプチャします。Longformer モデルでは、DistilBERT と同様のアプローチを使用します。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの Longformer モデルに渡して、エッセイのベクトル表現を取得します。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。
また、Colab ランタイム GPU がメモリに収まるよりも大きなバッチ サイズでモデルをトレーニングするために、勾配累積を使用しました。Longformer モデルのサイズが大きいため、バッチ サイズは 2 に制限されていました。バッチ サイズが小さいと、勾配計算が不安定になります。勾配累積によってこの問題を回避します。反復ごとに損失を逆伝播する代わりに、損失を累積して、一定数のバッチの後にのみエラーを逆伝播することで、勾配更新の安定性を向上させます [3]。
モデルの予測スコアの精度を評価するために、平均列二乗平均平方根誤差 (MCRMSE) を指標として使用します。指標は次のように計算されます。
上記のモデルを実装した後、これらのモデルの予測誤差を改善するためにいくつかの実験を試みました。これらの実験の詳細は次のとおりです。
事前トレーニング済みエンコーディングの効果: 表 1 は、セクション 2.2 で説明した事前トレーニング済みモデルを変更することによって得られたパフォーマンス メトリックをまとめたものです。これらの実行では、事前トレーニング済みモデルのエンコーディングは、MSE 損失を使用してトレーニングされた 2 層ニューラル ネットワークに直接渡され、セクション 2.4 で説明した潜在的な改善はいずれも実装されていません。これはマルチクラス回帰であるため、各スコアリング メトリックのモデルのパフォーマンスは表 3 に示されています。
表 1 にリストされているトランスフォーマー アーキテクチャの中で、マスクされた言語モデル DistilBERT、RoBERTa、および Longformer が生成モデル T5 よりもパフォーマンスが優れていることがわかります。これは、マスクされたモデルが数値出力による識別タスク向けに調整されているためと考えられます。これが複数の生成言語モデルに一般化できるかどうかを結論付けるには、さらなる研究が必要です。全体的に、RoBERTa はさまざまなモデルの中で最高の予測スコアを獲得していますが、これはおそらく、トレーニング コーパスがはるかに大きく、マスクが優れていることが原因です。
モデル | MCRMSE メトリック |
---|---|
ベースライン | 1.36 |
ディスティルバート | 0.4934 |
T5ベース | 0.5320 |
ロベルタ | 0.4746 |
ロングフォーマー | 0.4899 |
回帰ヘッドの改善の効果: 以前、回帰ヘッドのトレーニングを一定に保ちながら、回帰ヘッドへの入力を変化させる (つまり、事前トレーニング済みモデルとその中のエンコーディングを変化させる) ことによる効果を調べました。このセクションでは、エンコーディングを一定に保ちながら、回帰ヘッドのトレーニングを変化させることによる効果を調べます。セクション 2.4 では、この研究で調べられた回帰トレーニングのさまざまな変更をリストします。このセクション全体で、最速のモデルであり GPU 要件が低いため、DistilBERT モデルが使用されていることに注意してください。さまざまなトレーニング スキーム/強化の結果は、表 2 に示されています。
実験 | MCRMSE |
---|---|
出力量子化 | 0.5294 |
加重RMSE | 0.5628 |
マルチヘッドアーキテクチャ | 0.508 |
オートエンコーダのノイズ除去 | 0.575 |
残念ながら、回帰モデルのトレーニングに対するこれらの変更はいずれも、元のモデルと比較して予測精度の大幅な向上にはつながりませんでした。実際、表 2 の検証セットのパフォーマンス メトリックは、これらの変更によってパフォーマンスが低下したことを示しています。この低下が発生する理由は明らかではなく、このパフォーマンスの低下がアーティファクトではないことを確認するには、より大きなデータセットを使用したさらなる調査が不可欠です。
テキストエンコーディングと回帰ヘッドトレーニングのすべてのバリエーションについて、個々の尺度の検証MCRMSEスコアから、凝集性と文法がすべてのモデルにわたって予測するのが最も難しいように見えることがわかります(表3を参照)。これは、AESで使用されている事前トレーニング済み言語モデルの限界であり、私たちのモデリングの限界ではない可能性があります。Kim et al.(2020)[5]は、現在の言語モデルが文法的に十分な情報に基づいていることの限界を示し、言語モデルのさらなる進歩の方向性を示しています。
モデル(または実験) | 凝集 | 構文 | 語彙 | 語法 | 文法 | コンベンション |
---|---|---|---|---|---|---|
ベースライン | 1.37 | 1.35 | 1.32 | 1.34 | 1.44 | 1.36 |
蒸留バート | 0.54 | 0.51 | 0.46 | 0.52 | 0.57 | 0.49 |
T5ベース | 0.55 | 0.52 | 0.48 | 0.54 | 0.58 | 0.53 |
ロベルタ | 0.51 | 0.47 | 0.42 | 0.47 | 0.51 | 0.46 |
ロングフォーマー | 0.54 | 0.48 | 0.46 | 0.49 | 0.53 | 0.47 |
distilBERT + 出力量子化 | 0.55 | 0.53 | 0.48 | 0.53 | 0.57 | 0.51 |
蒸留BERT + WRMSE | 0.56 | 0.56 | 0.55 | 0.56 | 0.61 | 0.53 |
distilBERT + マルチヘッドアーチ。 | 0.53 | 0.50 | 0.45 | 0.51 | 0.56 | 0.49 |
オートエンコーダ + distilBERT | 0.59 | 0.56 | 0.52 | 0.56 | 0.61 | 0.55 |
この研究では、自動エッセイ採点タスクで回帰ヘッドをトレーニングするためのさまざまな事前トレーニング済みアーキテクチャと方法の効果を調査しました。このタスクでは、各エッセイを 6 つの言語指標 (結束性、文法、語彙など) について 1 から 5 のスケールで採点します。データセットは ELLIPSE コーパスから取得され、具体的には Kaggle コンテストにリストされているデータのサブセットです。5 つのディープラーニング アーキテクチャと回帰ヘッドをトレーニングする 5 つの方法を検討し、シンプルな 2 層フィードフォワード層を備えた RoBERTa-base を使用してスコアを予測すると、マルチクラス出力が最良の結果をもたらすことが確認されました。
予想通り、トランスフォーマー アーキテクチャは GloVe+LSTM のベースライン モデルを大幅に上回りました。さらに、トランスフォーマー アーキテクチャ内では、マスクされた言語モデル (DistilBERT、RoBERTa、Longformer) が生成言語モデル T5 と比較して優れたパフォーマンスを発揮することがわかります。この観察結果はすべての生成モデルに一般化されるわけではありませんが、MLM は数値出力に特化してトレーニングされているため、直感的に MLM の優位性は一貫しているようです。
この研究のもう一つの興味深い観察結果は、損失関数の変更、出力の制約、オートエンコーダベースの次元削減/ノイズ除去、およびデータ拡張によって回帰ヘッドのトレーニングを変化させても、モデルのパフォーマンスが向上しなかったことです。これはむしろ予想外のことで、この現象の背後にある理由を完全には理解していません。今後の研究では、これらのアプローチをより大規模なデータセットで繰り返す可能性があります。これにより、回帰ヘッドのトレーニングに関するこれらの観察が一般化できるかどうかを判断するのに役立ちます。
まとめると、マルチタスク学習と同様に、2 層のフィードフォワード ニューラル ネットで RoBERTa エンコーディングを使用して 6 つのスコアを同時に予測すると、最高のパフォーマンスが得られることがわかります。特に、データセットのサイズが小さいことを考慮すると、堅牢な事前トレーニング済みモデルを使用することで、モデルの予測パフォーマンスが大幅に向上することがわかります。また、エッセイの文法を評価するパフォーマンスは他のどの評価指標よりも悪く、これは言語モデルに固有のものです。したがって、今後の研究では、言語の文法的な側面をより適切に捉えるために言語モデルを改善することに焦点を当てる必要があります。