paint-brush
多言語によるメディアの粗い政治的立場の分類:制限と倫理声明@mediabias
120 測定値

多言語によるメディアの粗い政治的立場の分類:制限と倫理声明

長すぎる; 読むには

この論文では、研究者らは、信頼できるニュースメディアの評価を使用して、AI が生成したニュース記事の中立性と言語間のスタンスの進化を分析しています。
featured image - 多言語によるメディアの粗い政治的立場の分類:制限と倫理声明
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下で arxiv で公開されています。

著者:

(1)クリスティーナ・エスパーニャ・ボネット、DFKI GmbH、ザールラント情報学キャンパス。

リンク一覧

5.1 制限事項

私たちは、すべてのメディアソースには編集方針とそれに伴う偏りがあると想定しており、ILM を他のメディアソースと同様に扱っています。ChatGPT または Bard の記事が偏りがない可能性は考慮していません。これは、現在バイナリ政治的立場の注釈を可能にするデータ収集に使用される遠隔監視方法に関連しています。真に多言語の環境で何十万もの記事に政治的偏りを手動で注釈付けすることは、近い将来には不可能と思われるため、完全にデータに基づく方法を実装し、その言語と文化の転送機能を研究することにしました。


しかし、記事レベルでの政治的立場を遠隔監視によって検出するのは、デリケートな問題です。第一に、同じ新聞でも時間の経過とともにイデオロギーが変化する可能性があるためです。第二に、これは個々の記事の内容に関係しますが、物議を醸さない主題には偏りがない可能性があります。偏りが存在する場合でも、2 つのイデオロギーが明確に分かれているわけではなく、極左から極右までのスペクトルがあります。


現在の制限を定量化し、可能であれば緩和するために、人間が注釈を付けたコーパス (Baly et al., 2020; Aksenov et al., 2021) の文体分析を実施し、それを半自動で注釈を付けたコーパスと比較する予定です。この作業のフォローアップとして、トレーニング データとこれらのテキスト間のスタイルが類似していることが、優れた一般化と転送機能を確保するために必要であるため、ILM で生成されたテキストの文体分析も実行します。

5.2. 倫理声明

私たちは、生成言語モデル、ChatGPT および Bard を使用してテスト データを作成します。私たちはいくつかの物議を醸す主題 (死刑、セクハラ、麻薬など) を扱っているため、自動生成によって有害なテキストが生成される場合があります。ここで提示されるデータは、人間による修正を受けていません。私たちは、使用されたシステムのバージョンを示すとともに、生成されたままのコーパスを分析して提供します。