paint-brush
多言語メディアの粗い政治的立場分類:コーパス編集@mediabias
245 測定値

多言語メディアの粗い政治的立場分類:コーパス編集

長すぎる; 読むには

この論文では、研究者らは、信頼できるニュースメディアの評価を使用して、AI が生成したニュース記事の中立性と言語間のスタンスの進化を分析しています。
featured image - 多言語メディアの粗い政治的立場分類:コーパス編集
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下で arxiv で公開されています。

著者:

(1)クリスティーナ・エスパーニャ・ボネット、DFKI GmbH、ザールラント情報学キャンパス。

リンク一覧

2. コーパスのコンパイル

私たちは、左派(L)と右派(R)の政治的傾向という2つのクラスを持つ分類問題としてタスクに取り組んでいます。これは実際の問題を単純化したものであって、記事は中立的である場合もあり、バイアスの程度は異なる可能性があります。以前の研究では、常に中立的なオプションを含む3つまたは5つのクラスに依存していました(Baly et al.、2020; Aksenov et al.、2021)。これらの研究では、データは手動で注釈付けされ、高品質のトレーニングデータが作成されましたが、カバーされる言語と国に関して作業の範囲が大幅に制限されました。細粒度の分類スケールを使用する場合、著者は分類器の新しいソースへの一般化が不十分であることを認めています。一方、García-Díaz et al.(2022)とRusso et al.(2023)は、中立クラスを除外し、それぞれスペインとイタリアの政治家のツイートのバイナリまたはマルチクラスの左派-右派分類に取り組んでいますが、彼らの研究には長いテキストは含まれていません。バイナリ分類は、ツイートという、人々がより本能的になりがちで、したがっておそらくより二極化するジャンルを扱ったため、正当化されるかもしれない。私たちの場合、分類器が未知のソースにうまく一般化できることを確認する必要があり、トレーニング中の中立的な記事の数を最小限に抑えながら、2クラスのタスクに固執する (以下を参照)。


遠隔監視。私たちが知る限り、英語で手動で注釈が付けられた新聞コーパス(Baly et al., 2020)とドイツ語で手動で注釈が付けられた新聞コーパス(Aksenov et al., 2021)のみが利用可能です。私たちは、Kulkarni et al.(2018)とKiesel et al.(2019)の精神に則り、異なるアプローチを採用しています。私たちは、記事に手動で注釈を付けることはしませんが、新聞の偏りの分類については、AllSides、MB/FC、Political Watch、Wikipedia(後者は、前述のサイトで情報が利用できない場合にのみ)を信頼しています。私たちは、米国、ドイツ、スペイン、カタルーニャの新聞についてこの情報を抽出します。新聞のリスト、そのURL[4]、およびその立場を使用して、Common Crawl(Ortiz Suárez et al., 2019; Abadji et al., 2021)をフィルタリングして取得した多言語コーパスであるOSCARを使用して記事を取得します。付録 A には、この研究で使用した情報源がリストされています。米国の新聞 47 件 (記事数 742,691 件)、ドイツの新聞 12 件 (記事数 143,200 件)、スペイン語の新聞 38 件 (記事数 301,825 件)、カタロニア語の新聞 19 件 (記事数 70,496 件)。


トピック モデリング。すべての記事に偏りがあるわけではありませんが、一部のトピックは他のトピックよりも偏りがちになります。新聞のスポーツ セクションは通常、政治的偏りを反映する可能性が低いですが、国際セクションではその逆になります。したがって、トピックを使用して、バイナリ分類の関連トレーニング データのサブセットを選択します。OSCAR から抽出した記事に対して、ギブス サンプリングによる LDA を適用する Mallet (McCallum、2002) を使用してトピック モデリングを行います。データを言語ごとに 10 グループと 15 グループにクラスタリングします。これは、新聞のセクション数にほぼ相当します。各トピックについて抽出されたキーワードは、付録 B にリストされています。国際、政府、法律と司法、経済、ライブ サイエンス/エコロジー、および英語の移民と暴力、ドイツ語のナチズム、スペイン語の社会など、特定の言語に依存するトピックに分類される記事を選択します。選択は、キーワードの検査後に行われます。最終データセットでは、10 トピックと 15 トピックにクラスタリングされた選択された記事の結合を行います。このプロセスにより、スペイン語の記事の 49%、ドイツ語の記事の 39%、英語の記事の 31% が除外されます。


前処理とクリーニング。クリーニングの前に、2000 語以上または 20 語未満の記事を破棄します。その後、ヘッダー、フッター、および検出された定型文を削除します。このテキストは、分類器が新聞の政治的立場に焦点を当てるのではなく、新聞を区別することを学習するように促す可能性があるため、ニューラル分類器を誤解させる可能性があります。テスト用に言語と立場ごとに新聞を選択し、記事を手動でクリーニングします。各言語のバランスの取れたトレーニング コーパスを作成するために、残りのコレクションから左派と右派の記事を同様の数だけランダムに選択します。このバランスの取れたデータセットは、表 1 (上の行) に示すように、トレーニングと検証に分割されます。


ChatGPT/Bard Corpus。101の記事を含む多言語データセットを作成しました。このために、住宅価格、中絶、タバコ、バラク・オバマなどを含む101の主題を定義し、それらを4つの言語に手動で翻訳しました(付録Dを参照)。主題は、フェミニズム、資本主義、エコロジズム、テクノロジーなど、政治的立場を持ちやすいトピックを考慮しています。また、検討対象の4か国の人物の固有名詞も含めますが、その経歴は筆者の政治的立場によって異なる場合があります。これらの主題は、テンプレートプロンプト(およびドイツ語、スペイン語、カタロニア語への翻訳)に挿入されます。[5] [SUBJECT]enに関する新聞記事を書く


表1: 左向き(L)と右向き(R)の新聞に属する記事として分けた記事数(括弧内は平均語数)。テストには、トレーニングや検証では見られなかった新聞を使用します。米国ではSlate(L)とThe National Pulse(R)、ドイツではMy Heimat(L)とdie Preußische Allgemeine Zeitung(R)、


ChatGPT (GPT-3.5-Turbo) を4つの期間にわたって同じ主題で5回プロンプトしました。データセットは、2月13日 (v02)、3月23日 (v03)、5月24日 (v05)、8月3日 (v08) のChatGPTバージョンで生成しました。最後の2つだけで4つの言語を同時にカバーしています。ChatGPTv05は、著者名、日付、都市名を入力するスロットを備えた記事指向の構造を持つ、他のバージョンよりも大幅に長いテキストを生成します。Multilingual Bardは後で利用可能になり、ChatGPTv8と同じ期間に2回プロンプトしました。[6] 表1は、このコーパスの統計を示しています。




[4] これは、ニュースであるかどうかに関係なく、ニュースアウトレットのドメイン名の下にあるすべての記事を選択することを意味します。


[5] ChatGPTの最初のバージョンでは、より具体的なプロンプトによって異なるスタイルになることはありませんでしたが、最後のバージョンでは、過度のサブセクション化や箇条書きを避けるために、...サブヘッダーなしなどの情報を追加しました。ChatGPTもBardも、必ずしも指示に適切に従っているわけではありません。私たちが提供するデータセットには、使用したプロンプトが含まれています。


[6] 英語とドイツ語についてはベルリンから2023年8月14日から21日まで、スペイン語とカタロニア語についてはバルセロナからプロンプトが出されました。ChatGPTとは異なり、生成は場所によって異なります。