paint-brush
揭示印度推特上记者与政客互动中的性别偏见:数据收集经过@mediabias
442 讀數
442 讀數

揭示印度推特上记者与政客互动中的性别偏见:数据收集

太長; 讀書

在本文中,研究人员分析了 Twitter 上印度政治话语中的性别偏见,强调了社交媒体中性别多样性的必要性。
featured image - 揭示印度推特上记者与政客互动中的性别偏见:数据收集
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC BY-NC-ND 4.0 DEED 许可获取。

作者:

(1)Brisha Jain,印度独立研究员,[email protected]

(2)Mainack Mondal,印度理工学院 Kharagpur 分校,[email protected]

链接表

3. 数据收集

在本节中,我们将描述从 Twitter 收集数据的过程。我们专门收集了有关特定印度政客和记者在 Twitter 上的互动的数据,这些互动是根据他们的受欢迎程度和性别进行抽样的。首先,我们先介绍如何为我们的研究创建一份印度记者和政客名单。

3.1. 识别印度政客和记者的推特账户


识别印度政客的 Twitter 账户:我们利用了 Pal 等人先前研究的印度政客数据集[20]。该数据集包含多个参与政治(标记为政客)的印度 Twitter 账户的名称和句柄。然而,我们注意到,这个数据集既包含政治组织(例如安达曼和尼科巴群岛的 BJP)的账户,也包含个人的账户。为此,我们首先清理了数据集,通过将此数据集中的名称与 MyNeta[3] 中的名称进行交叉匹配,MyNeta[3] 是一个由民主改革协会 (ADR) 运营的开放数据存储库平台,旨在为印度选举带来透明度。对于 Pal 等人数据集中的每个印度政治账户,我们都使用该账户名称在 MyNeta 平台上进行搜索。如果搜索未找到具有这个名字的政客,那么我们将从分析中丢弃该账户,因为该账户可能不是个人账户。在这个过程结束时,我们得到了 4,484 个政客的 Twitter 账户。


识别印度政治记者的推特账户:接下来,我们将重点关注 Pal 等人先前研究 [3] 发布的推特网红数据集中标记为个人记者的推特账户(与媒体机构的账户分开)。有 4,099 个这样的账户。然而,我们再次面临一个挑战——如何识别政治记者?具体来说,我们注意到这份名单包含几位与政治报道无关、专注于娱乐、体育等领域的记者。因此,我们着手识别政治记者——在非平凡推文中直接提到政客账户的记者账户(例如,在排除只有表情符号、网址、生日祝福的推文后)。为此,我们使用一个名为 crape 的开源工具收集了这 4,099 个账户在 2020 年 1 月至 2022 年 12 月期间发布的所有推文。然后,我们排除了只有表情符号、网址、问候语的推文,并检查最终推文中是否有提到印度政客的推特账户(收集方式如上所述)。最后,我们将 3,214 个记者账户(78.4%)作为政治记者纳入我们的数据集。


验证 Twitter 账户的准确性:最后,我们手动验证了我们的过滤方法是否确实识别出了印度政客和政治记者的正确 Twitter 账户。我们随机抽样了 40 名政客和 20 名记者账户。然后,一位作者访问了实际的 Twitter 账户并阅读了前 20 条推文,以确保该账户确实属于印度政客(或政治记者)。在 92.5% 的随机样本中,我们的过滤方法正确识别出了印度政客(或政治记者)的 Twitter 账户。

3.2. 推断印度政客和政治记者的性别

接下来,我们推断上一节中确定的印度政客(或政治记者)推特账户的性别。为此,我们使用了一项名为 Generize [25] 的服务。这项服务将姓名映射到性别,针对印度姓名进行了定制,之前的研究报告称,该服务对性别的推断准确率很高 [19]。推断出所有账户的性别后,在本研究中,我们将重点关注最受欢迎的(按关注者数量计算)政客和记者账户。具体来说,我们按关注者数量对政客账户进行排序,并确定了男性政客和女性政客的前 50 个账户(由 Genderize 确定)。我们进一步手动验证了这 100 个推特账户推断性别的准确性。我们同样确定了最受欢迎的 100 个记者账户(50 个男性和 50 个女性)。

3.3. 收集记者与政客的推特互动数据

最后,为了回答我们的研究问题,我们收集了印度政客和政治记者账户之间的互动数据。具体来说,我们收集了 100 个热门政治记者账户发布的所有推文,然后筛选出提到我们数据集中的 100 位热门印度政客的推文。因此,我们将收集到的推文分为以下四类 - 男性记者提到男性政客的推文( MJ-MP ),女性记者提到男性政客的推文( FJ-MP ),男性记者提到女性政客的推文( MJ-FP )和女性记者提到女性政客的推文( FJ-FP )。我们总共收集了 21,188 条独特的推文。请注意,一条推文可以提及多个账户。


表 1:印度记者发布的提及政治人物的推文数量。女性政治人物的推文提及次数相对较少。


我们注意到,几乎所有 100 名不同性别的记者都在他们的推文中提到了我们选择的热门政客账户。此外,表 1 显示了我们四个类别的推文数量。值得注意的是,印度男性和女性记者对女性政客账户的提及要少得多。现在,我们分析了从 Twitter 收集的这些互动数据,以确定印度 Twitter 上记者与政客互动中可能存在的性别偏见。此外,表 2 列出了四个类别的推文摘录。这些示例表明,我们数据集中不同类别的许多推文都与政策决策和一般治理有关。




[3] https://www.myneta.info/