この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下で arxiv で公開されています。
著者:
(1)クリスティーナ・エスパーニャ・ボネット、DFKI GmbH、ザールラント情報学キャンパス。
私たちは、すべてのメディアソースには編集方針とそれに伴う偏りがあると想定しており、ILM を他のメディアソースと同様に扱っています。ChatGPT または Bard の記事が偏りがない可能性は考慮していません。これは、現在バイナリ政治的立場の注釈を可能にするデータ収集に使用される遠隔監視方法に関連しています。真に多言語の環境で何十万もの記事に政治的偏りを手動で注釈付けすることは、近い将来には不可能と思われるため、完全にデータに基づく方法を実装し、その言語と文化の転送機能を研究することにしました。
しかし、記事レベルでの政治的立場を遠隔監視によって検出するのは、デリケートな問題です。第一に、同じ新聞でも時間の経過とともにイデオロギーが変化する可能性があるためです。第二に、これは個々の記事の内容に関係しますが、物議を醸さない主題には偏りがない可能性があります。偏りが存在する場合でも、2 つのイデオロギーが明確に分かれているわけではなく、極左から極右までのスペクトルがあります。
現在の制限を定量化し、可能であれば緩和するために、人間が注釈を付けたコーパス (Baly et al., 2020; Aksenov et al., 2021) の文体分析を実施し、それを半自動で注釈を付けたコーパスと比較する予定です。この作業のフォローアップとして、トレーニング データとこれらのテキスト間のスタイルが類似していることが、優れた一般化と転送機能を確保するために必要であるため、ILM で生成されたテキストの文体分析も実行します。
私たちは、生成言語モデル、ChatGPT および Bard を使用してテスト データを作成します。私たちはいくつかの物議を醸す主題 (死刑、セクハラ、麻薬など) を扱っているため、自動生成によって有害なテキストが生成される場合があります。ここで提示されるデータは、人間による修正を受けていません。私たちは、使用されたシステムのバージョンを示すとともに、生成されたままのコーパスを分析して提供します。