この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下で arxiv で公開されています。
著者:
(1)ブリシャ・ジェイン、インドの独立研究者、[email protected]
(2)Mainack Mondal、インド工科大学カラグプル校、[email protected]。
このセクションでは、Twitter からのデータ収集プロセスについて説明します。特に、人気度と性別に基づいてサンプリングされた特定のインドの政治家とジャーナリストの Twitter 上でのやり取りに関するデータを収集しました。まず、調査のためにインドのジャーナリストと政治家のリストを作成した方法から始めます。
インド政治家個人のTwitterアカウントの特定: Palら[20]による以前の研究からインド政治家のデータセットを活用しました。このデータセットには、政治に関与している(政治家とラベル付けされている)複数のインドのTwitterアカウントの名前とハンドルが含まれていました。しかし、このデータセットには政治組織(アンダマン諸島およびニコバル諸島のBJPなど)と個人の両方のアカウントが含まれていることに気付きました。そのために、まずこのデータセットの名前とMyNeta[3]の名前をクロスマッチングしてデータセットをクリーンアップしました。MyNetaは、インドの選挙に透明性をもたらすために民主改革協会(ADR)が運営するオープンデータリポジトリプラットフォームです。Palらのデータセットにあるインドの政治家アカウントごとに、アカウント名でMyNetaプラットフォームを検索しました。検索でこの名前の政治家が見つからなかった場合、そのアカウントは個人のものではない可能性が高いため、分析から除外します。この手順の最後に、政治家のTwitterアカウントが4,484件ありました。
インドの個々の政治ジャーナリストのTwitterアカウントの特定:次に、Palらの以前の研究[3]で公開されたTwitterインフルエンサーのデータセット(メディアハウスのアカウントとは別)から、個々のジャーナリストとしてマークされたTwitterアカウントに焦点を当てます。そのようなアカウントは4,099個ありました。しかし、私たちは再び課題に直面しました。どうすれば政治ジャーナリストを特定できるかということです。具体的には、このリストには政治報道とは関係がなく、エンターテインメントやスポーツなどの分野に焦点を当てているジャーナリストが数人含まれていることに気付きました。そこで、政治ジャーナリスト、つまり政治家のアカウントを重要なツイートで直接言及したジャーナリストアカウント(たとえば、絵文字、URL、誕生日の挨拶のみのツイートを除いたもの)を特定することにしました。そのために、crapeと呼ばれるオープンソースツールを使用して、2020年1月から2022年12月の間にこれらの4,099のアカウントによって投稿されたすべてのツイートを収集しました。次に、絵文字、URL、挨拶のみのツイートを除外し、最終的なツイートのいずれかが個々のインド政治家のTwitterアカウント(上記のように収集)に言及しているかどうかを確認しました。最終的に、3,214人のジャーナリストのアカウント(78.4%)を政治ジャーナリストとしてデータセットに含めました。
Twitter アカウントの正確さの検証:最後に、フィルタリング アプローチによってインドの政治家や政治ジャーナリストの Twitter アカウントが実際に正しく識別されているかどうかを手動で検証しました。40 人の政治家と 20 人のジャーナリストのアカウントをランダムにサンプリングしました。次に、著者が実際の Twitter アカウントにアクセスし、最初の 20 件のツイートを読んで、そのアカウントがインドの政治家 (または政治ジャーナリスト) のものであることを確認しました。ランダム サンプルの 92.5% で、フィルタリング アプローチによってインドの政治家 (または政治ジャーナリスト) の Twitter アカウントが正しく識別されました。
次に、前のセクションで特定したインドの政治家(または政治ジャーナリスト)のTwitterアカウントの性別を推測します。この目的のために、Generize [25]というサービスを使用しました。このサービスは名前を性別にマッピングし、インド人の名前に合わせてカスタマイズされており、以前の研究ではこのサービスによる性別の推測の精度が高いと報告されています[19]。すべてのアカウントの性別を推測したら、この研究では最も人気のある(フォロワー数による)政治家とジャーナリストのアカウントに焦点を当てました。具体的には、政治家のアカウントをフォロワー数で並べ替え、男性政治家と女性政治家の上位50アカウント(Genderizeによって特定)を特定しました。さらに、これら100のTwitterアカウントの推測された性別の精度を手動で検証しました。同様に、最も人気のある100のジャーナリストアカウント(男性50と女性50)を特定しました。
最後に、研究上の疑問に答えるために、インドの政治家と政治ジャーナリストのアカウント間のインタラクションデータを収集します。具体的には、100 の人気政治ジャーナリスト アカウントによって投稿されたすべてのツイートを収集し、データセット内の 100 人の人気インドの政治家のいずれかに言及したツイートを除外しました。したがって、収集したツイートを次の 4 つのカテゴリに分類しました。男性ジャーナリストのツイートによる男性政治家への言及 ( MJ-MP )、女性ジャーナリストのツイートによる男性政治家への言及 ( FJ-MP )、男性ジャーナリストのツイートによる女性政治家への言及 ( MJ-FP )、女性ジャーナリストによる女性政治家への言及 ( FJ-FP )。合計で 21,188 件の固有のツイートを収集しました。1 つのツイートで複数のアカウントに言及できることに注意してください。
性別を問わず、ほぼすべての 100 人のジャーナリストが、ツイートで私たちが選んだ人気政治家のアカウントに言及していることに注目してください。さらに、表 1 には 4 つのカテゴリのツイート数が表示されています。特に、女性政治家のアカウントは、男性と女性の両方のインド人ジャーナリストからかなり少ない言及を受けています。ここで、Twitter から収集したこのインタラクション データを分析して、インドの Twitter におけるジャーナリストと政治家のインタラクションにおける潜在的なジェンダー バイアスを特定しました。さらに、表 2 には、4 つのカテゴリそれぞれからのツイートの抜粋が表示されています。これらの例は、さまざまなカテゴリにわたるデータセット内のツイートの多くが、政策決定と一般的なガバナンスに関連していることを示しています。
[3] https://www.myneta.info/