paint-brush
大規模言語モデルを使用したエッセイの自動採点@junaidsyed
新しい歴史

大規模言語モデルを使用したエッセイの自動採点

Junaid Syed15m2024/10/12
Read on Terminal Reader

長すぎる; 読むには

この論文では、自動エッセイ採点 (AES) の課題について取り上げ、結束性、文法、関連性などの主観的な特徴によるエッセイ採点の難しさを強調しています。この研究では、6 つの分析指標に焦点を当て、マルチタスク学習、オートエンコーダー ネットワーク、および Longformer などの高度なモデルを使用して長いエッセイを処理することで、現在の方法を改善することを提案しています。BERT などのモデルは大幅に進歩しましたが、トークンの長さの制限やコンテキストの理解の欠如などの問題は依然として残っています。この論文では、ドキュメント エンコーディングなどのソリューションを検討して、AES の精度と公平性を向上させます。
featured image - 大規模言語モデルを使用したエッセイの自動採点
Junaid Syed HackerNoon profile picture
0-item

著者:

  • ジュナイド・サイード、ジョージア工科大学
  • サイ・シャンバグ、ジョージア工科大学
  • Vamsi Krishna Chakravarthy、ジョージア工科大学


自動エッセイ採点 (AES) は、何十年にもわたって研究されてきた古典的な NLP タスクです。AES は、多くの実用的な関連性と莫大な経済的可能性を秘めています。AES は、大規模な競争試験 (例: SAT、GRE) や急成長しているオンライン学習市場の基礎となっています。ビル & メリンダ ゲイツ財団やザッカーバーグ-チャン イニシアティブなどの慈善団体や非営利団体が、AES に関する複数の Kaggle コンペティションに資金を提供しています [6、7、8]。しかし、これらの取り組みにもかかわらず、エッセイ採点の根本的な問題により、問題は解決にはほど遠い状態です。エッセイの評価は非常に主観的であり、計算が難しい凝集性、文法、関連性などの抽象的な要素が関係します。その結果、文法や一貫性などの機能にわたってエッセイを細かく評価したトレーニング データのラベルを取得するのは非常にコストがかかります。その結果、トレーニングデータセットは、(マスクされた)言語モデル、NER、POSタグ付け、機械翻訳などの他のNLPタスクと比較してかなり限られています。さらに、単純な全体スコアを提供しても、学生へのフィードバックはほとんどまたはまったく提供されず、学生の進歩に役立ちません。したがって、現在の取り組みは、単一のスコアではなく、細かい側面でエッセイを評価することに重点を置いています。これは、予測モデルが1つのメトリックだけでなくすべてのメトリックで優れたパフォーマンスを発揮する必要があるため、過剰適合を回避するのにも役立ちます。基本的に、これはマルチタスクモデルと考えることができます。現在の研究では、結束性、構文、語彙、語法、文法、規則の6つのメトリックに焦点を当てています。


1.1 文献調査

2010 年代以前は、ほとんどの AES モデルは計算言語学者によって設計された手作りの特徴に依存していました [10, 4]。しかし、これらのモデルは通常、特定の特徴 (エッセイの長さなど) に偏っており、トピックやメトリックに一般化できませんでした。手作りの特徴への偏りは、Word2Vec や GloVe などの言語モデルによって学習された単語埋め込みに置き換えることで対処されました。これらの単語埋め込みに基づいて、単語埋め込みの下流にニューラル ネットワークを追加することにより、回帰タスクと分類タスクとしてエッセイのスコアを予測しました。大規模なコーパスでトレーニングされた埋め込みを使用することで、すべてのメトリックのエッセイ スコアと全体のスコアが大幅に向上しました [11]。しかし、パフォーマンスの向上に不可欠であった単語埋め込み自体が、モデルの最大の制限であることが判明しました。埋め込みは本質的に Bag-of-Words アプローチから来ているため、以前のモデルで手作業で作成された言語的特徴によって部分的にキャプチャされたコンテキスト情報をキャプチャできませんでした。手作業で作成された特徴を追加して以前のモデルの欠陥を潜在的に再導入する代わりに、コンテキスト情報の欠如の問題は、LSTM [13] とトランスフォーマー アーキテクチャを使用したアテンション メカニズムによって対処されました。Vaswani と Polosukhin [14] の研究は、トランスフォーマーを使用して BERT モデルの開発に成功しました。BERT モデルとトランスフォーマー アーキテクチャの成功に後押しされて、アテンション ベースの言語モデルが次々と開発されました。現在では、単語の埋め込みの代わりに、コンテキスト情報をキャプチャする文またはドキュメント レベルの埋め込みを取得できます。これらの深い埋め込みを使用して、エッセイのスコアを予測するニューラル ネットワーク モデルが開発されています (分類タスクと回帰タスクの両方)。


1.2 現在のアプローチの限界

このような進歩にもかかわらず、BERTモデルの使用には重大な制限があります。Lottridge et al. (2021) [10]は、ゲームエッセイ、ランダムシャッフル、バベルエッセイに対するモデルの堅牢性の欠如を実証しました。パフォーマンスは、さまざまなクラスとメトリック間で大幅に異なります。この欠点に対処するために、この調査では、マルチタスク学習を通じてすべてのメトリックを同時にモデル化します。BERTベースの分析のもう1つの重要な制限は、BERTモデルではトークンの長さが512に制限されていることです。私たちは、ドキュメントごとに最大4096トークンを許可するLongformerなどのより高度なアーキテクチャを使用して、この問題に対処しようとしています。この研究で検討したデータセット(詳細はセクション2.1を参照)では、ドキュメントの40%以上が512トークンを超えています。したがって、標準のBERTモデルを使用してドキュメントを512トークンに切り捨てると、コンテキストが大幅に失われます。さまざまな研究の 3 つ目の重要な制限は、データセットが限られていることです。複数の研究が AES に焦点を当てていますが、データセットはそれぞれスコアが異なり、その結果、すべてのデータセットでモデルを簡単にトレーニングすることはできません。したがって、この研究では、データセット全体でトレーニングするためのオートエンコーダ ネットワークの有用性を調査し、オートエンコーダから派生したエンコーディングを使用して AES タスクを実行します。要約すると、この研究では、さまざまなディープラーニング ベースのドキュメント エンコーディングが自動エッセイ採点に与える影響を調査します。この研究で検討したデータセット、方法論、実験、およびディープ エンベッディングについては、セクション 2 で説明します。ディープ エンベッディングを変更することに加えて、オートエンコーダ ネットワーク全体でディープ エンコーディングをトレーニングすることにより、さまざまな AES データセットを組み合わせる方法を分析します。これらすべてのアプローチの結果はセクション 3 で示され、結論とさらなる調査の方向性はセクション 4 で示されます。

2. 方法論

2.1 データ

ラーニング エージェンシー ラボ、ジョージア州立大学、ヴァンダービルト大学は、州および国の教育機関、非営利団体から多数のエッセイを収集しました。このコレクションから、6 年生から 12 年生の生徒が書いた議論型エッセイで構成される「議論と談話要素の評価、選択、理解のための説得力のあるエッセイ (PERSUADE)」コーパスと、8 年生から 12 年生の英語学習者 (ELL) が書いたエッセイで構成される「英語学習者の洞察、熟達度、スキル評価 (ELLIPSE)」コーパスを開発しました。


ELLIPSE コーパス: ELLIPSE コーパスには、8 年生から 12 年生の ELL が書いた 7,000 以上のエッセイが含まれています。これらのエッセイは、2018-19 学年度と 2019-20 学年度の州標準ライティング評価の一部として書かれました。ELLIPSE コーパスのエッセイは、総合的スケールと分析的スケールの両方を含む 5 段階の採点基準を使用して、人間の評価者によって言語能力レベルの注釈が付けられました。総合的スケールはエッセイに示された全体的な言語能力レベルに焦点を当て、分析的スケールには、結束性、構文、語法、語彙、文法、慣習の評価が含まれていました。各分析尺度のスコアは 1.0 から 5.0 まで 0.5 刻みで、スコアが高いほどその尺度での能力が高くなります。


PERSUADE コーパス: PERSUADE コーパスには、米国の 6 年生から 12 年生までの生徒が書いた 25,000 以上の議論文が含まれています。これらのエッセイは、2010 年から 2020 年にかけての国と州の標準化されたライティング評価の一環として書かれました。PERSUADE コーパスの各エッセイは、議論と談話の要素、および議論要素間の階層関係について、人間の評価者によって注釈が付けられました。注釈ルーブリックは、議論文によく見られる談話要素を識別して評価するために開発されました。


このプロジェクトでは、ELLIPSE コーパスを利用して、結束性、構文、語彙、語法、文法、慣習の 6 つの分析尺度のスコアを同時に予測します。さらに、オートエンコーダーを利用して予測精度の向上を図ります。そのアイデアは、ELLIPSE および PERSUADE コーパスを使用してオートエンコーダーをトレーニングすることです。このプロセスを通じて、オートエンコーダーからの圧縮された特徴ベクトルは、事前トレーニング済みの言語モデルの特徴では見逃される可能性のある、スコアリングに不可欠なエッセイの特徴を捉えることができる可能性があります。

2.2 アプローチ

前述のとおり、このプロジェクトの目標は、8 年生から 12 年生の英語学習者が書いた議論文の 6 つの分析尺度 (結束性、構文、語彙、語法、文法、慣例) のスコアを予測することです。このタスクでは、まずベースラインを開発し、次に複数の事前トレーニング済みモデルを使用してベースラインを改善します。


ベースライン: ベースラインは、GloVe 埋め込みと双方向 LSTM ネットワークを使用して開発されます。ベースライン モデルでは、まず正規表現ライブラリを使用してデータのクリーンアップ (句読点の削除、空白の削除など) を実行し、次に NLTK の単語トークナイザーを使用してエッセイをトークン化します。LSTM ネットワークは、エッセイの GloVe エンコーディングでトレーニングされ、上記の 6 つの分析尺度のスコアを表す長さ 6 のベクトルを出力します。ニューラル ネットワークのトレーニングには、平均二乗誤差損失 (MSELoss) を使用します。


DistilBERT : DistilBERT は、BERT ベースを蒸留してトレーニングされた、小型で高速、軽量の Transformer モデルです。 bert-base-uncased よりもパラメーターが 40% 少なく、GLUE 言語理解ベンチマークで測定された BERT のパフォーマンスの 95% 以上を維持しながら、60% 高速に実行されます。 BERT は、自己注意を使用して、シーケンス全体からコンテキスト情報をキャプチャします [2]。 これにより、エッセイのサンプルを評価し、より正確なスコアを提供するモデルの能力が向上します。 このモデルでは、自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの DistilBERT モデルに渡して、エッセイのベクトル表現を取得します。 次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、上記の 6 つのライティング属性のそれぞれのスコアを表す 6 次元の出力ベクトルを返します。


T5 : T5 または Text-To-Text Transfer Transformer は、教師なしタスクと教師ありタスクのマルチタスク混合で事前トレーニングされたエンコーダー/デコーダー モデルであり、各タスクはテキストからテキストへの形式に変換されます。マスクされた LM と次の文の予測の目的で事前トレーニングされた BERT では、シーケンス分類などのさまざまな下流タスクで事前トレーニング済みモデルのさまざまなインスタンスを個別に微調整する必要があります。T5 のテキストからテキストへのフレームワークは、同じ損失関数とデコード手順を使用して、さまざまなテキスト タスクで単一のモデルをトレーニングする簡単な方法を提供します。この事前トレーニング フレームワークは、下流タスクでのパフォーマンスを向上させる汎用の「知識」をモデルに提供します [12]。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの T5-Base モデルに渡して、エッセイのベクトル表現を取得しました。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。


RoBERTa-base : RoBERTa は Facebook が開発した BERT のようなマスク言語モデルです。RoBERTa の場合、すべてのエポックのトレーニングを通じて動的マスクが使用されますが、BERT ではマスクは静的です。これにより、モデルは BERT よりもはるかに多くのトークンを学習します。BERT よりもはるかに大きなデータ コーパス (10 倍) とより大きな語彙セットでトレーニングすることで、さらなるパフォーマンスの向上が実現します。トレーニングにおけるこれらの変更により、RoBERTa はほとんどの GLUE および SQuAD タスクで BERT を上回ります [9]。


Longformer : Longformer は、RoBERTa チェックポイントから進化し、長いドキュメントでマスク言語モデル (MLM) としてトレーニングされた BERT のようなトランスフォーマー モデルです。最大 4,096 トークンの長さのシーケンスをサポートします。通常、自己注意メカニズムを使用するトランスフォーマー ベースのモデルは、メモリと計算要件がシーケンスの長さの 2 乗で増加するため、長いシーケンスを処理できません。これにより、長いシーケンスを効率的に処理することが不可能になります。Longformer は、シーケンスの長さに比例してスケーリングする注意メカニズムを導入することで、この重要な制限に対処します [1]。スライディング ウィンドウと拡張スライディング ウィンドウの注意メカニズムを使用して、ローカル コンテキストとグローバル コンテキストをキャプチャします。Longformer モデルでは、DistilBERT と同様のアプローチを使用します。自動トークナイザーを使用してエッセイをトークン化し、これらのトークンを事前トレーニング済みの Longformer モデルに渡して、エッセイのベクトル表現を取得します。次に、MSELoss を使用して 2 層ニューラル ネットワークをトレーニングし、6 次元の出力ベクトル (DistilBERT と同様) を返します。


また、Colab ランタイム GPU がメモリに収まるよりも大きなバッチ サイズでモデルをトレーニングするために、勾配累積を使用しました。Longformer モデルのサイズが大きいため、バッチ サイズは 2 に制限されていました。バッチ サイズが小さいと、勾配計算が不安定になります。勾配累積によってこの問題を回避します。反復ごとに損失を逆伝播する代わりに、損失を累積して、一定数のバッチの後にのみエラーを逆伝播することで、勾配更新の安定性を向上させます [3]。

2.3 評価

モデルの予測スコアの精度を評価するために、平均列二乗平均平方根誤差 (MCRMSE) を指標として使用します。指標は次のように計算されます。

2.4 実験

上記のモデルを実装した後、これらのモデルの予測誤差を改善するためにいくつかの実験を試みました。これらの実験の詳細は次のとおりです。


  • 出力の量子化: ELLIPSE コーパスでは、各分析尺度のスコアは 1.0 から 5.0 までの範囲で 0.5 ずつ増加し、スコアが高いほどその尺度での熟達度が高くなります。ニューラル ネットワークを変更して、出力が 1 から 5 の間に制限されるようにしました。これは、出力が通過するシグモイド層を組み込み、この出力に 4 を掛けて 1 を加えることで実現しました。さらに、ニューラル ネットワークから結果が生成されると、数学演算score = int[(2 * score + 0.5) / 2]を実行して、出力が 0.5 ずつ増加するようにします。この操作の目的は、元のスコアの形式を再現し、このような変更によって精度が向上するかどうかを確認することです。


  • 加重 RMSE : ELLIPSE コーパスでは、各分析尺度のスコアは 1.0 から 5.0 までの範囲で 0.5 ずつ増加します。ただし、データセット内の各スコアの分布は似ていません。2.5、3、3.5 などの特定のスコアは、データセット内の各分析尺度でより頻繁に発生しますが、1 や 5 などのスコアはデータセット全体でまれにしか発生しません。この不均衡を補うために、加重平均二乗誤差 (WRMSE) 関数を使用しました。この関数では、特定のスコアの頻度の逆数が重みとして使用され、他の重みと比較して極端に高い場合はこの重みが切り捨てられます。


  • マルチヘッド アーキテクチャ: 前のセクションで述べたように、データセット内の各スコアの分布は似ていないため、スコアを予測するために、メジャー固有の最終的な 2 層ニューラル ネットワークを使用する実験を行いました。そのため、6 つの異なるスコア値を予測する単一の出力ヘッドの代わりに、各分析メジャーのスコアを予測する 6 つの異なる出力ヘッドを実装しました。


  • オートエンコーダー: エッセイのマルチクラススコアリングという現在のタスクに提供されているデータセットは、約 4,000 サンプルのみです。ただし、ELLIPSE と PERSUADE コーパスを合わせると、エッセイ全体の単一スコアやエッセイの一部など、他の AES タスクのエッセイが 180,000 件以上あります。そのため、オートエンコーダーを使用して、この大規模なデータベースを活用し、半教師あり学習を実行します。簡単に説明すると、BERT、T5 などの言語モデルからのエンコーディングは、180,000 サンプルすべてを使用してトレーニングされたオートエンコーダー ネットワークに渡されます。次に、ボトルネック レイヤー エンコーディングまたはオートエンコーダーのデコーダー部分からのノイズ除去された言語モデル エンコーディングのいずれかを使用して、回帰ヘッドの 2 層ニューラル ネットワークを使用してマルチクラス スコアを予測します。これは、完全教師ありシナリオに似ています。したがって、ラベルなしデータのより大きなセットを活用してオートエンコーダーをプリプロセッサとしてトレーニングすることで、教師あり学習の予測を改善しようとしています。この研究では、DistilBERT エンコーディングに基づくノイズ除去エンコーディングの両方を検討しました。

3. 結果と考察

事前トレーニング済みエンコーディングの効果: 表 1 は、セクション 2.2 で説明した事前トレーニング済みモデルを変更することによって得られたパフォーマンス メトリックをまとめたものです。これらの実行では、事前トレーニング済みモデルのエンコーディングは、MSE 損失を使用してトレーニングされた 2 層ニューラル ネットワークに直接渡され、セクション 2.4 で説明した潜在的な改善はいずれも実装されていません。これはマルチクラス回帰であるため、各スコアリング メトリックのモデルのパフォーマンスは表 3 に示されています。


表 1 にリストされているトランスフォーマー アーキテクチャの中で、マスクされた言語モデル DistilBERT、RoBERTa、および Longformer が生成モデル T5 よりもパフォーマンスが優れていることがわかります。これは、マスクされたモデルが数値出力による識別タスク向けに調整されているためと考えられます。これが複数の生成言語モデルに一般化できるかどうかを結論付けるには、さらなる研究が必要です。全体的に、RoBERTa はさまざまなモデルの中で最高の予測スコアを獲得していますが、これはおそらく、トレーニング コーパスがはるかに大きく、マスクが優れていることが原因です。

表1: さまざまなモデルの全体的なMCRMSEスコア

モデル

MCRMSE メトリック

ベースライン

1.36

ディスティルバート

0.4934

T5ベース

0.5320

ロベルタ

0.4746

ロングフォーマー

0.4899


回帰ヘッドの改善の効果: 以前、回帰ヘッドのトレーニングを一定に保ちながら、回帰ヘッドへの入力を変化させる (つまり、事前トレーニング済みモデルとその中のエンコーディングを変化させる) ことによる効果を調べました。このセクションでは、エンコーディングを一定に保ちながら、回帰ヘッドのトレーニングを変化させることによる効果を調べます。セクション 2.4 では、この研究で調べられた回帰トレーニングのさまざまな変更をリストします。このセクション全体で、最速のモデルであり GPU 要件が低いため、DistilBERT モデルが使用されていることに注意してください。さまざまなトレーニング スキーム/強化の結果は、表 2 に示されています。

表2: さまざまなモデルのMCRMSEスコア

実験

MCRMSE

出力量子化

0.5294

加重RMSE

0.5628

マルチヘッドアーキテクチャ

0.508

オートエンコーダのノイズ除去

0.575


残念ながら、回帰モデルのトレーニングに対するこれらの変更はいずれも、元のモデルと比較して予測精度の大幅な向上にはつながりませんでした。実際、表 2 の検証セットのパフォーマンス メトリックは、これらの変更によってパフォーマンスが低下したことを示しています。この低下が発生する理由は明らかではなく、このパフォーマンスの低下がアーティファクトではないことを確認するには、より大きなデータセットを使用したさらなる調査が不可欠です。


テキストエンコーディングと回帰ヘッドトレーニングのすべてのバリエーションについて、個々の尺度の検証MCRMSEスコアから、凝集性と文法がすべてのモデルにわたって予測するのが最も難しいように見えることがわかります(表3を参照)。これは、AESで使用されている事前トレーニング済み言語モデルの限界であり、私たちのモデリングの限界ではない可能性があります。Kim et al.(2020)[5]は、現在の言語モデルが文法的に十分な情報に基づいていることの限界を示し、言語モデルのさらなる進歩の方向性を示しています。

表3: 個々の分析尺度のMCRMSEスコア

モデル(または実験)

凝集

構文

語彙

語法

文法

コンベンション

ベースライン

1.37

1.35

1.32

1.34

1.44

1.36

蒸留バート

0.54

0.51

0.46

0.52

0.57

0.49

T5ベース

0.55

0.52

0.48

0.54

0.58

0.53

ロベルタ

0.51

0.47

0.42

0.47

0.51

0.46

ロングフォーマー

0.54

0.48

0.46

0.49

0.53

0.47

distilBERT + 出力量子化

0.55

0.53

0.48

0.53

0.57

0.51

蒸留BERT + WRMSE

0.56

0.56

0.55

0.56

0.61

0.53

distilBERT + マルチヘッドアーチ。

0.53

0.50

0.45

0.51

0.56

0.49

オートエンコーダ + distilBERT

0.59

0.56

0.52

0.56

0.61

0.55


4. 結論

この研究では、自動エッセイ採点タスクで回帰ヘッドをトレーニングするためのさまざまな事前トレーニング済みアーキテクチャと方法の効果を調査しました。このタスクでは、各エッセイを 6 つの言語指標 (結束性、文法、語彙など) について 1 から 5 のスケールで採点します。データセットは ELLIPSE コーパスから取得され、具体的には Kaggle コンテストにリストされているデータのサブセットです。5 つのディープラーニング アーキテクチャと回帰ヘッドをトレーニングする 5 つの方法を検討し、シンプルな 2 層フィードフォワード層を備えた RoBERTa-base を使用してスコアを予測すると、マルチクラス出力が最良の結果をもたらすことが確認されました。


予想通り、トランスフォーマー アーキテクチャは GloVe+LSTM のベースライン モデルを大幅に上回りました。さらに、トランスフォーマー アーキテクチャ内では、マスクされた言語モデル (DistilBERT、RoBERTa、Longformer) が生成言語モデル T5 と比較して優れたパフォーマンスを発揮することがわかります。この観察結果はすべての生成モデルに一般化されるわけではありませんが、MLM は数値出力に特化してトレーニングされているため、直感的に MLM の優位性は一貫しているようです。


この研究のもう一つの興味深い観察結果は、損失関数の変更、出力の制約、オートエンコーダベースの次元削減/ノイズ除去、およびデータ拡張によって回帰ヘッドのトレーニングを変化させても、モデルのパフォーマンスが向上しなかったことです。これはむしろ予想外のことで、この現象の背後にある理由を完全には理解していません。今後の研究では、これらのアプローチをより大規模なデータセットで繰り返す可能性があります。これにより、回帰ヘッドのトレーニングに関するこれらの観察が一般化できるかどうかを判断するのに役立ちます。


まとめると、マルチタスク学習と同様に、2 層のフィードフォワード ニューラル ネットで RoBERTa エンコーディングを使用して 6 つのスコアを同時に予測すると、最高のパフォーマンスが得られることがわかります。特に、データセットのサイズが小さいことを考慮すると、堅牢な事前トレーニング済みモデルを使用することで、モデルの予測パフォーマンスが大幅に向上することがわかります。また、エッセイの文法を評価するパフォーマンスは他のどの評価指標よりも悪く、これは言語モデルに固有のものです。したがって、今後の研究では、言語の文法的な側面をより適切に捉えるために言語モデルを改善することに焦点を当てる必要があります。

参考文献

  1. Iz Beltagy、Matthew E Peters、Arman Cohan。2020年。Longformer:長い文書のトランスフォーマー。arXivプレプリントarXiv:2004.05150
  2. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。2018. BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング。arXivプレプリント arXiv:1810.04805
  3. Joeri R Hermans、Gerasimos Spanakis、Rico Möckel。2017。累積勾配正規化。Asian Conference on Machine Learning 、439~454ページ。PMLR。
  4. Zixuan Ke と Vincent Ng。2019。「自動エッセイ採点:最先端の調査」 IJCAI 、第 19 巻、6300-6308 ページ。
  5. Taeuk Kim、Jihun Choi、Daniel Edmiston、Sang-goo Lee。2020。事前学習済み言語モデルはフレーズを認識しているか?文法誘導のためのシンプルだが強力なベースライン。
  6. The Learning Agency Lab。2022a。フィードバック賞 - 英語学習。
  7. ラーニングエージェンシーラボ。2022b。フィードバック賞 - 生徒の文章の評価。
  8. ラーニングエージェンシーラボ。2022c。フィードバック賞 - 効果的な議論を予測する。
  9. Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、およびVeselin Stoyanov。2019。Roberta:堅牢に最適化されたBERT事前トレーニングアプローチ。arXivプレプリントarXiv:1907.11692。
  10. Sue Lottridge、Ben Godek、Amir Jafari、Milan Patel。2021。ゲーム戦略に対するディープラーニングと従来の自動スコアリングアプローチの堅牢性の比較。技術レポート - Cambium Assessment Inc.
  11. Huyen Nguyen と Lucio Dery。2016。「自動エッセイ採点のためのニューラル ネットワーク」CS224d スタンフォード レポート: 1-11。
  12. Adam Roberts と Colin Raffel。2020 年。T5 による転移学習の探求: テキストからテキストへの転送トランスフォーマー。23 ~ 7 ページにアクセス。
  13. Kaveh Taghipour と Hwee Tou Ng。2016。「自動エッセイ採点へのニューラルアプローチ」自然言語処理における経験的手法に関する 2016 年会議の議事録、pp. 1882-1891。
  14. Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Łukasz Kaiser、Vaswani、Ashish、Illia Polosukhin。2017。「必要なのは注意だけ。神経情報処理システムの進歩」、30。