paint-brush
ヨーロッパにおけるニュースと誤情報の消費:材料と方法@newsbyte
106 測定値

ヨーロッパにおけるニュースと誤情報の消費:材料と方法

NewsByte.Tech3m2024/06/07
Read on Terminal Reader

長すぎる; 読むには

この論文では、研究者らがヨーロッパのニュース消費パターン、誤情報のソース、Twitter 上の視聴者の行動を分析しています。
featured image - ヨーロッパにおけるニュースと誤情報の消費:材料と方法
NewsByte.Tech HackerNoon profile picture
0-item

著者:

(1)アネス・バキル、ヴェネツィア・カフォスカリ大学、イタリア

(2)アレッサンドロ・ガレアッツィ、イタリア、ヴェネツィア・カ・フォスカリ大学

(3)ファビアナ・ゾッロ、ヴェネツィア・カフォスカリ大学(イタリア)、新環境人文学センター(イタリア)。

リンク一覧

2。材料と方法

データの収集と処理

データは、収集時点で学者が無料で利用できる学術研究用の公式Twitter API [1]を使用して収集されました。NewsGuardデータセットから取得したアカウントのリスト(表1を参照)に基づいて、2019年から2021年の3年間にわたるイタリア、ドイツ、フランス、英国に拠点を置くメディアのTwitterタイムラインをダウンロードしました。NewsGuardは、9つのジャーナリズムの基準に基づいてニュースメディアの信頼性を評価するツールです。この基準に従って、プロのジャーナリストと独立したジャーナリストのチームが各ニュースメディアに0〜100の「信頼スコア」を割り当てます。個人、風刺的なコンテンツ、Twitter、Facebook、YouTubeなどのソーシャルメディアプラットフォームには評価が付与されません。ニュースソースは、スコアに基づいて信頼できる(信頼スコアが60以上)と疑わしい(信頼スコアが60未満)の2つのグループに分類されます。しきい値は、評価基準に基づいてNewsGuardによって設定されます。


公開されているTwitterアカウントから、公開されているコンテンツのみを収集しました。データセットには、2019年1月1日から2021年11月11日までの期間に選択されたアカウントによって公開されたすべてのツイートが含まれており、2500万件以上のツイートが含まれています。表2は、データの内訳を示しています。括弧内には、各国の投稿が合計に占める割合が表示されています。


分析がヨーロッパレベルで議論されたトピックに集中し、国間の比較が確実に行われるように、元のデータセットにキーワード フィルターを適用しました。データセットを 3 つの 1 年セグメントに分割し、その年にヨーロッパレベルで最も議論されたトピックに関連するキーワードのリストに従って各セグメントをフィルターしました。フィルターされたデータの統計は、表 3 に記載されています。


表1: NewsGuardニュースソースデータセットの国別および信頼性別内訳


表2: 国別のツイート量と信頼性


フィルタリングされたデータセット内のツイートについては、すべてのリツイートを収集しました。各トピックのオリジナルツイートとリツイートの数の詳細については、表 3 を参照してください。


表 3: フィルタリングされたデータセットの国別およびトピック別の内訳。

類似性ネットワーク


最後に、0 度のノードをすべて除外し、すべてのエッジの重みの中央値より低い重みを持つすべてのエッジを削除しました。このアプローチにより、ヨーロッパのコンテキスト内で選択したトピックに関連するニュース アウトレットの視聴者間の最も強い類似性を捉えることができました。

トピックモデリング

文書のコレクションから潜在的なトピックを抽出するトピックモデリングツールであるBERTopicを利用して、調査対象のすべての国で流行している白熱したトピックを特定しました。BERTopicは、事前学習済みの文トランスフォーマー(Grootendorst、2022)向けに一般化されたtop2vecモデルであり、最近さまざまなタスクで有望な結果を示しています。BERTopicは、1)文書埋め込みの抽出、2)埋め込みのクラスタリング、3)クラスベースのTF-IDF(Sammut and Webb、2011)(c-TF-IDF)を使用したトピック表現の作成という3つのステップを通じて、一貫性のある文書クラスターを生成します。最初のステップでは、事前学習済みのトランスフォーマーベースの言語モデルを利用できるため、最先端の埋め込み技術を使用できます。 2 番目のステップでは、均一多様体近似および射影 (UMAP) を使用して埋め込みの次元を削減し (McInnes ら、2018)、ノイズ付きアプリケーションの階層密度ベースの空間クラスタリング (HDBSCAN) を使用して意味的に類似したドキュメントのクラスターを生成します (McInnes ら、2017)。トピックの 1 つは「その他」に設定され、異なるトピックに含まれていないドキュメントが含まれます。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[1] https://developer.twitter.com/en/docs/twitter-api