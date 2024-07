Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED. Autores: (1) Brisha Jain, pesquisadora independente Índia e [email protected]; (2) Mainack Mondal, IIT Kharagpur Índia e [email protected].

3. COLETA DE DADOS

Nesta seção descrevemos nosso processo de coleta de dados do Twitter. Coletamos especificamente dados sobre as interações entre políticos e jornalistas indianos específicos no Twitter, amostrados com base em sua popularidade e gênero. Primeiro, começamos explicando como criamos uma lista de jornalistas e políticos indianos para nosso estudo.

3.1. Identificação de contas no Twitter de políticos e jornalistas indianos





Identificação de contas no Twitter de políticos indianos individuais: Aproveitamos um conjunto de dados de políticos indianos de pesquisas anteriores de Pal et al.[20]. Este conjunto de dados continha nomes e identificadores de várias contas indianas do Twitter envolvidas em política (rotuladas como políticos). No entanto, notámos que este conjunto de dados continha contas tanto de organizações políticas (por exemplo, BJP para as Ilhas Andaman e Nicobar) como de indivíduos. Para esse efeito, primeiro limpámos o conjunto de dados, comparando os nomes deste conjunto de dados com nomes da MyNeta[3], que é uma plataforma aberta de repositório de dados gerida pela Associação para as Reformas Democráticas (ADR) para trazer transparência às eleições indianas. Para cada um dos relatos políticos indianos em Pal et al. No conjunto de dados, pesquisamos na plataforma MyNeta o nome da conta. Se a pesquisa não encontrar nenhum político com este nome, descartamos a conta da nossa análise, pois provavelmente essa conta não é de um indivíduo. Ao final do procedimento, ficamos com 4.484 contas de políticos no Twitter.





Identificação de contas no Twitter de jornalistas políticos indianos individuais: Em seguida, nos concentramos nas contas do Twitter marcadas como jornalistas individuais a partir de um conjunto de dados de influenciadores do Twitter divulgado pela pesquisa anterior de Pal et al. [3] (separadas das contas de empresas de mídia). Havia 4.099 dessas contas. Contudo, enfrentámos novamente um desafio: como podemos identificar os jornalistas políticos? Especificamente, notamos que esta lista contém vários jornalistas que não estão associados à reportagem política e se concentram em áreas como entretenimento, esportes, etc. Assim, decidimos identificar jornalistas políticos - relatos de jornalistas que mencionavam diretamente relatos de políticos de uma forma não trivial. tweet (por exemplo, após descontar tweets apenas com emojis, urls, cumprimentos de aniversário). Para tanto, coletamos todos os tweets postados por essas 4.099 contas entre janeiro de 2020 e dezembro de 2022 usando uma ferramenta de código aberto chamada crepe. Em seguida, descontamos os tweets com apenas emoji, urls, saudações e verificamos se algum dos tweets finais mencionava a conta de Twitter de um político indiano individual (coletada conforme descrito acima). Finalmente, incluímos 3.214 relatos de jornalistas (78,4%) no nosso conjunto de dados como jornalistas políticos.





Verificando a precisão das contas do Twitter: por fim, verificamos manualmente se nossa abordagem de filtragem realmente identificou as contas corretas do Twitter de políticos e jornalistas políticos indianos. Foram amostradas aleatoriamente quarenta políticos e vinte relatos de jornalistas. Em seguida, um autor visitou as contas reais do Twitter e leu os primeiros 20 tweets para garantir que a conta realmente pertencia a um político indiano (ou jornalista político). Em 92,5% da amostra aleatória, a nossa abordagem de filtragem identificou corretamente contas no Twitter de políticos indianos (ou jornalistas políticos).

3.2. Inferindo o gênero de políticos e jornalistas políticos indianos

A seguir, inferimos o género das contas do Twitter dos políticos indianos (ou jornalistas políticos), conforme identificado na secção anterior. Para tanto, utilizou-se um serviço denominado Generize [25]. Este serviço mapeia nomes para gêneros, é personalizado para nomes indianos, e estudos anteriores relataram alta precisão na inferência de gênero deste serviço [19]. Depois de inferirmos o género de todas as contas, para este estudo concentrámo-nos nas contas de políticos e jornalistas mais populares (por número de seguidores). Especificamente, classificamos as contas dos políticos pela contagem de seguidores e identificamos as 50 principais contas de políticos homens e mulheres políticas (conforme identificado por Genderize). Verificamos ainda manualmente a precisão do gênero inferido para essas 100 contas do Twitter. Da mesma forma, identificamos as 100 contas de jornalistas mais populares (50 homens e 50 mulheres).

3.3. Coletando dados de interação jornalista-político no Twitter

Finalmente, para responder às nossas questões de investigação, recolhemos dados de interacção entre os políticos indianos e os relatos dos jornalistas políticos. Especificamente, coletamos todos os tweets postados por 100 contas de jornalistas políticos populares e, em seguida, filtramos os tweets que mencionavam qualquer um dos 100 políticos indianos populares em nosso conjunto de dados. Assim, dividimos nossos tweets coletados nas quatro categorias a seguir: tweets de jornalistas masculinos mencionando políticos masculinos ( MJ-MP ), tweets de jornalistas femininos mencionando políticos masculinos ( FJ-MP ), tweets de jornalistas masculinos mencionando políticas femininas ( MJ-FP ) e tweets femininos jornalista mencionando Mulheres Políticas ( FJ-FP ). No total coletamos 21.188 tweets únicos. Observe que um único tweet pode mencionar várias contas.









Notamos que quase todas as centenas de jornalistas de todos os géneros mencionaram colectivamente as contas de políticos populares que escolhemos nos seus tweets. Além disso, a Tabela 1 apresenta o número de tweets nas nossas quatro categorias. Notavelmente, os relatos de mulheres políticas receberam consideravelmente menos menção por parte de jornalistas indianos tanto do sexo masculino como feminino. Agora, analisamos esses dados de interação coletados do Twitter para identificar potenciais preconceitos de gênero nas interações jornalista-político no Twitter indiano. Além disso, a Tabela 2 apresenta trechos de tweets de cada uma das quatro categorias. Este exemplo demonstra que muitos dos tweets no nosso conjunto de dados em diferentes categorias estão relacionados com decisões políticas e governação geral.









[3] https://www.myneta.info/