paint-brush
Выявление гендерных предубеждений во взаимодействии журналистов и политиков в индийском Твиттере: сбор данныхк@mediabias
442 чтения
442 чтения

Выявление гендерных предубеждений во взаимодействии журналистов и политиков в индийском Твиттере: сбор данных

Слишком долго; Читать

В этой статье исследователи анализируют гендерные предубеждения в индийском политическом дискурсе в Твиттере, подчеркивая необходимость гендерного разнообразия в социальных сетях.
featured image - Выявление гендерных предубеждений во взаимодействии журналистов и политиков в индийском Твиттере: сбор данных
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.

Авторы:

(1) Бриша Джайн, независимый исследователь из Индии, [email protected];

(2) Майнак Мондал, ИИТ Харагпур Индия и [email protected].

Таблица ссылок

3. СБОР ДАННЫХ

В этом разделе мы описываем наш процесс сбора данных из Twitter. Мы специально собрали данные о взаимодействии между конкретными индийскими политиками и журналистами в Твиттере, выбранные на основе их популярности и пола. Во-первых, начнем с того, как мы составили список индийских журналистов и политиков для нашего исследования.

3.1. Идентификация аккаунтов в Твиттере индийских политиков и журналистов


Идентификация аккаунтов отдельных индийских политиков в Твиттере. Мы использовали набор данных об индийских политиках из предыдущего исследования Пала и др.[20]. Этот набор данных содержал имена и дескрипторы нескольких индийских аккаунтов в Твиттере, которые вовлечены в политику (обозначены как политики). Однако мы отметили, что этот набор данных содержал отчеты как политических организаций (например, БДП на Андаманских и Никобарских островах), так и отдельных лиц. С этой целью мы сначала очистили набор данных, сопоставив имена из этого набора данных с именами из MyNeta[3] — платформы открытого хранилища данных, управляемой Ассоциацией за демократические реформы (АДР) для обеспечения прозрачности выборов в Индии. По каждому из индийских политических отчетов в Pal et al. в наборе данных мы провели поиск по платформе MyNeta по имени учетной записи. Если при поиске не было обнаружено политиков с таким именем, мы исключаем эту учетную запись из нашего анализа, поскольку эта учетная запись, вероятно, принадлежит не физическому лицу. В конце процедуры мы получили 4484 аккаунта политиков в Твиттере.


Идентификация учетных записей в Твиттере отдельных индийских политических журналистов. Далее мы сосредоточимся на учетных записях в Твиттере, отмеченных как отдельные журналисты, из набора данных влиятельных лиц в Твиттере, опубликованного предыдущим исследованием Пала и др. [3] (отдельно от учетных записей СМИ). Таких аккаунтов было 4099. Однако мы снова столкнулись с проблемой: как идентифицировать политических журналистов? В частности, мы отметили, что в этом списке есть несколько журналистов, которые не связаны с политическим репортажем и специализируются на таких областях, как развлечения, спорт и т. д. Таким образом, мы поставили задачу выявить политических журналистов — журналистские аккаунты, в которых прямо упоминаются репортажи политиков в нетривиальном контексте. твит (например, после исключения твитов, содержащих только смайлы, URL-адреса и поздравления с днем рождения). С этой целью мы собрали все твиты, опубликованные этими 4099 аккаунтами в период с января 2020 года по декабрь 2022 года, с помощью инструмента с открытым исходным кодом под названием crape. Затем мы исключили твиты, содержащие только смайлы, URL-адреса и приветствия, и проверили, упоминался ли в каком-либо из окончательных твитов аккаунт в Твиттере отдельного индийского политика (собранный, как описано выше). Наконец, мы включаем в наш набор данных 3214 аккаунтов журналистов (78,4%) как политических журналистов.


Проверка точности учетных записей в Твиттере. Наконец, мы вручную проверили, действительно ли наш метод фильтрации идентифицировал правильные учетные записи в Твиттере индийских политиков и политических журналистов. Мы случайным образом выбрали сорок политиков и двадцать журналистских статей. Затем автор посетил реальные аккаунты в Твиттере и прочитал первые 20 твитов, чтобы убедиться, что аккаунт действительно принадлежит индийскому политику (или политическому журналисту). В 92,5% случайной выборки наш подход к фильтрации правильно определил аккаунты индийских политиков (или политических журналистов) в Твиттере.

3.2. Определение пола индийских политиков и политических журналистов

Далее мы делаем вывод о поле Twitter-аккаунтов индийских политиков (или политических журналистов), как указано в предыдущем разделе. Для этой цели мы использовали сервис Generize [25]. Этот сервис сопоставляет имена с полом, адаптируется к индийским именам, и предыдущие исследования показали высокую точность гендерного вывода с помощью этого сервиса [19]. После того, как мы определили пол всех аккаунтов, для этого исследования мы сосредоточились на наиболее популярных (по количеству подписчиков) аккаунтах политиков и журналистов. В частности, мы отсортировали аккаунты политиков по количеству подписчиков и определили 50 самых популярных аккаунтов политиков-мужчин и политиков-женщин (по данным Genderize). Далее мы вручную проверили точность предполагаемого пола для этих 100 аккаунтов в Твиттере. Аналогичным образом мы определили 100 наиболее популярных журналистских аккаунтов (50 мужских и 50 женских).

3.3. Сбор данных о взаимодействии журналистов и политиков в Твиттере

Наконец, чтобы ответить на вопросы нашего исследования, мы собираем данные о взаимодействии между индийскими политиками и отчетами политических журналистов. В частности, мы собрали все твиты, опубликованные 100 популярными политическими журналистами, а затем отфильтровали твиты, в которых упоминался любой из 100 популярных индийских политиков в нашем наборе данных. Таким образом, мы разделили собранные нами твиты на следующие четыре категории: твиты журналистов-мужчин с упоминанием политиков-мужчин ( MJ-MP ), твиты журналистов-женщин с упоминанием политиков-мужчин ( FJ-MP ), твиты журналистов-мужчин с упоминанием политиков-женщин (MJ-FP) и твиты женщин-журналистов с упоминанием политиков-мужчин ( MJ-FP ) и женщин. упоминание журналистом женщин-политиков ( FJ-FP ). Всего мы собрали 21 188 уникальных твитов. Обратите внимание, что в одном твите может упоминаться несколько учетных записей.


Таблица 1. Количество твитов, опубликованных индийскими журналистами с упоминанием политиков. Женщины-политики получили относительно меньше упоминаемых твитов.


Мы отмечаем, что почти все сто журналистов всех полов коллективно упомянули выбранные нами аккаунты популярных политиков в своих твитах. Кроме того, в Таблице 1 показано количество твитов по нашим четырем категориям. Примечательно, что отчеты женщин-политиков получили значительно меньше внимания со стороны индийских журналистов как мужчин, так и женщин. Теперь мы проанализировали данные взаимодействия, собранные из Твиттера, чтобы выявить потенциальную гендерную предвзятость во взаимодействиях журналистов и политиков в индийском Твиттере. Кроме того, в Таблице 2 представлены выдержки из твитов каждой из четырех категорий. Эти примеры демонстрируют, что многие твиты в нашем наборе данных в разных категориях связаны с политическими решениями и общим управлением.




[3] https://www.myneta.info/