Jan 01, 1970
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下で arxiv で公開されています。
著者:
(1)クリスティーナ・エスパーニャ・ボネット、DFKI GmbH、ザールラント情報学キャンパス。
図 1 に示すように、L 対 R 分類用に XLM-RoBERTa 大規模 (Conneau ら、2020 年) を微調整します。私たちの分類器は RoBERTa の上にある小さなネットワークで、最初に RoBERTa [CLS] トークンに対して確率 0.1 でドロップアウトを実行し、次に線形層と tanh を実行します。確率 0.1 で別のドロップアウト層を通過し、最後の線形層が 2 つのクラスに投影されます。アーキテクチャ全体が微調整されています。
クロスエントロピー損失、AdamW オプティマイザー、および線形に減少する学習率を使用します。バッチ サイズ、学習率、ウォームアップ期間、エポック数を調整します。言語とモデルごとの最適値は表 12 にまとめられています。
すべてのトレーニングは、32GB の単一の NVIDIA Tesla V100 Volta GPU を使用して実行されます。
ストップワードを削除した後、Mallet (McCallum、2002) を使用してコーパスに対して LDA を実行します。ハイパーパラメータ最適化オプションを有効にし、10 回の反復ごとに実行します。その他のパラメータはデフォルトです。言語ごとに 10 トピックで実行し、15 トピックでもう 1 回実行します。コーパスに両方のラベルをタグ付けします。