著者:
(1)アネス・バキル、ヴェネツィア・カフォスカリ大学、イタリア
(2)アレッサンドロ・ガレアッツィ、イタリア、ヴェネツィア・カ・フォスカリ大学
(3)ファビアナ・ゾッロ、ヴェネツィア・カフォスカリ大学(イタリア)、新環境人文学センター(イタリア)。
データは、収集時点で学者が無料で利用できる学術研究用の公式Twitter API [1]を使用して収集されました。NewsGuardデータセットから取得したアカウントのリスト(表1を参照)に基づいて、2019年から2021年の3年間にわたるイタリア、ドイツ、フランス、英国に拠点を置くメディアのTwitterタイムラインをダウンロードしました。NewsGuardは、9つのジャーナリズムの基準に基づいてニュースメディアの信頼性を評価するツールです。この基準に従って、プロのジャーナリストと独立したジャーナリストのチームが各ニュースメディアに0〜100の「信頼スコア」を割り当てます。個人、風刺的なコンテンツ、Twitter、Facebook、YouTubeなどのソーシャルメディアプラットフォームには評価が付与されません。ニュースソースは、スコアに基づいて信頼できる(信頼スコアが60以上)と疑わしい(信頼スコアが60未満)の2つのグループに分類されます。しきい値は、評価基準に基づいてNewsGuardによって設定されます。
公開されているTwitterアカウントから、公開されているコンテンツのみを収集しました。データセットには、2019年1月1日から2021年11月11日までの期間に選択されたアカウントによって公開されたすべてのツイートが含まれており、2500万件以上のツイートが含まれています。表2は、データの内訳を示しています。括弧内には、各国の投稿が合計に占める割合が表示されています。
分析がヨーロッパレベルで議論されたトピックに集中し、国間の比較が確実に行われるように、元のデータセットにキーワード フィルターを適用しました。データセットを 3 つの 1 年セグメントに分割し、その年にヨーロッパレベルで最も議論されたトピックに関連するキーワードのリストに従って各セグメントをフィルターしました。フィルターされたデータの統計は、表 3 に記載されています。
フィルタリングされたデータセット内のツイートについては、すべてのリツイートを収集しました。各トピックのオリジナルツイートとリツイートの数の詳細については、表 3 を参照してください。
最後に、0 度のノードをすべて除外し、すべてのエッジの重みの中央値より低い重みを持つすべてのエッジを削除しました。このアプローチにより、ヨーロッパのコンテキスト内で選択したトピックに関連するニュース アウトレットの視聴者間の最も強い類似性を捉えることができました。
文書のコレクションから潜在的なトピックを抽出するトピックモデリングツールであるBERTopicを利用して、調査対象のすべての国で流行している白熱したトピックを特定しました。BERTopicは、事前学習済みの文トランスフォーマー(Grootendorst、2022)向けに一般化されたtop2vecモデルであり、最近さまざまなタスクで有望な結果を示しています。BERTopicは、1)文書埋め込みの抽出、2)埋め込みのクラスタリング、3)クラスベースのTF-IDF(Sammut and Webb、2011)(c-TF-IDF)を使用したトピック表現の作成という3つのステップを通じて、一貫性のある文書クラスターを生成します。最初のステップでは、事前学習済みのトランスフォーマーベースの言語モデルを利用できるため、最先端の埋め込み技術を使用できます。 2 番目のステップでは、均一多様体近似および射影 (UMAP) を使用して埋め込みの次元を削減し (McInnes ら、2018)、ノイズ付きアプリケーションの階層密度ベースの空間クラスタリング (HDBSCAN) を使用して意味的に類似したドキュメントのクラスターを生成します (McInnes ら、2017)。トピックの 1 つは「その他」に設定され、異なるトピックに含まれていないドキュメントが含まれます。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
[1] https://developer.twitter.com/en/docs/twitter-api