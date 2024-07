Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED. Autores: (1) Brisha Jain, investigadora independiente India y [email protected]; (2) Mainack Mondal, IIT Kharagpur India y [email protected].

3. RECOPILACIÓN DE DATOS

En esta sección describimos nuestro proceso de recopilación de datos de Twitter. Recopilamos específicamente datos sobre las interacciones entre políticos y periodistas indios específicos en Twitter, muestreados en función de su popularidad y género. Primero, comenzamos con cómo creamos una lista de periodistas y políticos indios para nuestro estudio.

3.1. Identificación de cuentas de Twitter de políticos y periodistas indios





Identificación de cuentas de Twitter de políticos indios individuales: aprovechamos un conjunto de datos de políticos indios de investigaciones anteriores realizadas por Pal et al.[20]. Este conjunto de datos contenía nombres y identificadores de múltiples cuentas indias de Twitter que están involucradas en política (etiquetadas como políticos). Sin embargo, observamos que este conjunto de datos contenía cuentas tanto de organizaciones políticas (por ejemplo, BJP para las islas Andaman y Nicobar) como de individuos. Con ese fin, primero limpiamos el conjunto de datos, comparando los nombres de este conjunto de datos con nombres de MyNeta[3], que es una plataforma de depósito de datos abierta administrada por la Asociación para las Reformas Democráticas (ADR) para brindar transparencia a las elecciones indias. Para cada uno de los relatos políticos indios en Pal et al. En el conjunto de datos, buscamos en la plataforma MyNeta con el nombre de la cuenta. Si la búsqueda no encontró ningún político con este nombre, descartamos la cuenta de nuestro análisis ya que probablemente no sea de un individuo. Al final del procedimiento, llegamos a 4.484 cuentas de Twitter de políticos.





Identificación de cuentas de Twitter de periodistas políticos indios individuales: A continuación, nos centramos en las cuentas de Twitter marcadas como periodistas individuales de un conjunto de datos de personas influyentes de Twitter publicado por la investigación previa de Pal et al. [3] (separadas de las cuentas de los medios de comunicación). Había 4.099 cuentas de este tipo. Sin embargo, nuevamente nos enfrentamos a un desafío: ¿cómo podemos identificar a los periodistas políticos? Específicamente, notamos que esta lista contiene varios periodistas que no están asociados con reportajes políticos y se enfocan en áreas como entretenimiento, deportes, etc. Por lo tanto, nos propusimos identificar a los periodistas políticos: cuentas de periodistas que mencionaron directamente las cuentas de los políticos de una manera no trivial. tweet (por ejemplo, después de descontar tweets que solo contienen emojis, URL, saludos de cumpleaños). Con ese fin, recopilamos todos los tweets publicados por estas 4099 cuentas entre enero de 2020 y diciembre de 2022 utilizando una herramienta de código abierto llamada crape. Luego, descontamos los tweets que solo contenían emoji, URL y saludos y verificamos si alguno de los tweets finales mencionaba la cuenta de Twitter de un político indio individual (recopilada como se describe anteriormente). Finalmente, incluimos 3.214 cuentas de periodistas (78,4%) en nuestro conjunto de datos como periodistas políticos.





Verificar la precisión de las cuentas de Twitter: Finalmente, verificamos manualmente si nuestro enfoque de filtrado realmente identificó las cuentas de Twitter correctas de los políticos y periodistas políticos indios. Tomamos una muestra aleatoria de cuarenta políticos y veinte cuentas de periodistas. Luego, un autor visitó las cuentas reales de Twitter y leyó los primeros 20 tweets para asegurarse de que la cuenta efectivamente pertenecía a un político (o periodista político) indio. En el 92,5% de la muestra aleatoria, nuestro enfoque de filtrado identificó correctamente cuentas de Twitter de políticos (o periodistas políticos) indios.

3.2. Inferir el género de los políticos y periodistas políticos indios

A continuación, inferimos el género de las cuentas de Twitter de los políticos (o periodistas políticos) indios como se identificó en la sección anterior. Para ello, utilizamos un servicio llamado Generize [25]. Este servicio asigna nombres a géneros, está personalizado para nombres indios y estudios anteriores informaron una alta precisión en la inferencia de género de este servicio [19]. Una vez que inferimos el género de todas las cuentas, para este estudio nos centramos en las cuentas de políticos y periodistas más populares (por número de seguidores). Específicamente, clasificamos las cuentas de políticos por número de seguidores e identificamos las 50 cuentas principales para políticos hombres y mujeres políticas (según lo identificado por Genderize). Además, verificamos manualmente la precisión del género inferido para estas 100 cuentas de Twitter. De manera similar, identificamos las 100 cuentas de periodistas más populares (50 hombres y 50 mujeres).

3.3. Recopilación de datos de interacción entre periodistas y políticos en Twitter

Finalmente, para responder a nuestras preguntas de investigación, recopilamos datos de interacción entre los políticos indios y las cuentas de los periodistas políticos. Específicamente, recopilamos todos los tweets publicados por 100 cuentas de periodistas políticos populares y luego filtramos los tweets que mencionaban a cualquiera de los 100 políticos indios populares en nuestro conjunto de datos. Por lo tanto, dividimos nuestros tweets recopilados en las siguientes cuatro categorías: tweets de periodistas que mencionan a políticos masculinos ( MJ-MP ), tweets de periodistas que mencionan a políticos masculinos ( FJ-MP ), tweets de periodistas que mencionan a políticas femeninas ( MJ-FP ) y mención del periodista a Mujeres Políticas ( FJ-FP ). En total recopilamos 21.188 tweets únicos. Tenga en cuenta que un solo tweet puede mencionar varias cuentas.









Observamos que casi todos los cientos de periodistas de todos los géneros mencionaron colectivamente nuestras cuentas de políticos populares elegidas en sus tweets. Además, la Tabla 1 presenta la cantidad de tweets en nuestras cuatro categorías. En particular, los relatos de las mujeres políticas recibieron una mención considerablemente menor por parte de los periodistas indios, tanto hombres como mujeres. Ahora, analizamos estos datos de interacción recopilados de Twitter para identificar posibles sesgos de género en las interacciones entre periodistas y políticos en Twitter indio. Además, la Tabla 2 presenta extractos de tweets de cada una de las cuatro categorías. Estos ejemplos demuestran que muchos de los tweets de nuestro conjunto de datos en diferentes categorías están relacionados con decisiones políticas y gobernanza general.









[3] https://www.myneta.info/