paint-brush
인도 트위터의 언론인-정치인 상호작용에서 성 편견 발견: 데이터 수집~에 의해@mediabias
442 판독값
442 판독값

인도 트위터의 언론인-정치인 상호작용에서 성 편견 발견: 데이터 수집

너무 오래; 읽다

본 논문에서 연구자들은 트위터에서 인도 정치 담론의 성 편견을 분석하여 소셜 미디어에서 성별 다양성의 필요성을 강조합니다.
featured image - 인도 트위터의 언론인-정치인 상호작용에서 성 편견 발견: 데이터 수집
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

이 문서는 CC BY-NC-ND 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) Brisha Jain, 인도 독립 연구원 및 [email protected];

(2) Mainack Mondal, IIT Kharagpur India 및 [email protected].

링크 표

3. 데이터 수집

이 섹션에서는 트위터의 데이터 수집 프로세스를 설명합니다. 우리는 인기와 성별을 기준으로 샘플링하여 트위터에서 특정 인도 정치인과 언론인 간의 상호 작용에 대한 데이터를 구체적으로 수집했습니다. 먼저, 연구를 위해 인도 언론인과 정치인 목록을 어떻게 작성했는지부터 시작합니다.

3.1. 인도 정치인과 언론인의 트위터 계정 식별


개별 인도 정치인의 트위터 계정 식별: 우리는 Pal et al.[20]의 이전 연구에서 얻은 인도 정치인 데이터 세트를 활용했습니다. 이 데이터 세트에는 정치와 관련된 여러 인도 트위터 계정(정치인으로 표시됨)의 이름과 핸들이 포함되어 있습니다. 그러나 우리는 이 데이터 세트에 개인뿐만 아니라 정치 조직(예: 안다만 및 니코바르 제도의 BJP)에 대한 계정이 포함되어 있음을 확인했습니다. 이를 위해 먼저 인도 선거에 투명성을 제공하기 위해 ADR(민주 개혁 협회)에서 운영하는 개방형 데이터 저장소 플랫폼인 MyNeta[3]의 이름과 이 데이터 세트의 이름을 교차 일치시켜 데이터 세트를 정리했습니다. Pal et al.의 각 인도 정치 설명에 대해. 의 데이터세트에서 계정 이름으로 MyNeta 플랫폼을 검색했습니다. 검색 결과 이 이름을 가진 정치인이 발견되지 않으면 해당 계정은 개인의 계정이 아닐 가능성이 높으므로 분석에서 해당 계정을 삭제합니다. 절차가 끝날 무렵 우리는 정치인의 트위터 계정이 4,484개로 늘어났습니다.


개별 인도 정치 저널리스트의 트위터 계정 식별: 다음으로 우리는 Pal et al.의 이전 연구[3]에서 공개한 트위터 인플루언서 데이터세트에서 개별 저널리스트로 표시된 트위터 계정에 중점을 둡니다(미디어 하우스 계정과 별개). 그러한 계정은 4,099개였습니다. 그러나 우리는 또 다시 도전에 직면했습니다. 정치 언론인을 어떻게 식별할 수 있습니까? 특히, 우리는 이 목록에 정치 보도와 관련이 없고 연예, 스포츠 등의 분야에 초점을 맞춘 언론인이 여러 명 포함되어 있다는 점에 주목했습니다. 따라서 우리는 정치 언론인, 즉 정치인의 이야기를 적나라하게 직접 언급한 언론인 계정을 식별하기 위해 설정했습니다. 트윗(예: 이모티콘, URL, 생일 인사말만 포함된 트윗을 할인한 후). 이를 위해 우리는 크레이프(crape)라는 오픈 소스 도구를 사용하여 2020년 1월부터 2022년 12월 사이에 이 4,099개 계정이 게시한 모든 트윗을 수집했습니다. 그런 다음 이모티콘, URL, 인사말만 포함된 트윗을 할인하고 최종 트윗에 개별 인도 정치인의 트위터 계정(위에 설명된 대로 수집됨)이 언급되어 있는지 확인했습니다. 마지막으로 우리 데이터세트에는 3,214명의 언론인 계정(78.4%)이 정치 언론인으로 포함되었습니다.


트위터 계정의 정확성 확인: 마지막으로 필터링 접근 방식이 실제로 인도 정치인과 정치 언론인의 올바른 트위터 계정을 식별했는지 수동으로 확인했습니다. 우리는 40명의 정치인과 20명의 언론인 계정을 무작위로 샘플링했습니다. 그런 다음 작성자는 실제 트위터 계정을 방문하여 처음 20개의 트윗을 읽고 해당 계정이 실제로 인도 정치인(또는 정치 언론인)의 것인지 확인했습니다. 무작위 표본의 92.5%에서 우리의 필터링 접근 방식은 인도 정치인(또는 정치 언론인)의 트위터 계정을 정확하게 식별했습니다.

3.2. 인도 정치인과 정치 언론인의 성별 추론

다음으로, 이전 섹션에서 확인된 인도 정치인(또는 정치 언론인)의 트위터 계정 성별을 추론합니다. 이를 위해 우리는 Generize[25]라는 서비스를 사용했습니다. 이 서비스는 이름을 성별에 매핑하고 인도 이름에 맞게 맞춤화되었으며 이전 연구에서는 이 서비스의 성별 추론 정확도가 높다고 보고했습니다[19]. 모든 계정의 성별을 추론한 후, 이 연구에서는 가장 인기 있는(팔로어 수 기준) 정치인 및 언론인 계정에 중점을 두었습니다. 구체적으로, 우리는 팔로어 수를 기준으로 정치인 계정을 정렬하고 남성 정치인과 여성 정치인에 대한 상위 50개 계정을 식별했습니다(Genderize로 식별됨). 우리는 또한 이 100개의 트위터 계정에 대해 추론된 성별의 정확성을 수동으로 확인했습니다. 우리는 마찬가지로 가장 인기 있는 언론인 계정 100개(남성 50명, 여성 50명)를 식별했습니다.

3.3. 언론인-정치인 트위터 상호작용 데이터 수집

마지막으로, 연구 질문에 답하기 위해 인도 정치인과 정치 언론인의 계정 간의 상호 작용 데이터를 수집합니다. 구체적으로 우리는 100명의 인기 정치 언론인 계정이 게시한 모든 트윗을 수집한 다음 데이터 세트에서 100명의 인기 있는 인도 정치인을 언급한 트윗을 필터링했습니다. 따라서 우리는 수집된 트윗을 남성 정치인( MJ-MP )을 언급한 남성 언론인의 트윗, 남성 정치인( FJ-MP )을 언급한 여성 언론인의 트윗, 여성 정치인( MJ-FP )을 언급한 남성 언론인의 트윗 및 여성의 네 가지 카테고리로 분류했습니다. 언론인이 여성 정치인( FJ-FP )을 언급했습니다. 전체적으로 우리는 21,188개의 고유한 트윗을 수집했습니다. 단일 트윗으로 여러 계정을 언급할 수 있습니다.


표 1: 정치인을 언급하는 인도 언론인이 게시한 트윗 수. 여성 정치인은 상대적으로 덜 언급된 트윗을 받았습니다.


성별을 불문하고 거의 100명의 언론인이 트윗에서 우리가 선택한 인기 정치인 계정을 집단적으로 언급했습니다. 또한 표 1에는 네 가지 범주에 걸친 트윗 수가 나와 있습니다. 특히 여성 정치인에 대한 기사는 남성과 여성 인도 언론인 모두로부터 훨씬 적은 언급을 받았습니다. 이제 우리는 인도 트위터의 언론인-정치인 상호 작용에서 잠재적인 성 편견을 식별하기 위해 트위터에서 수집한 상호 작용 데이터를 분석했습니다. 또한 표 2는 네 가지 범주 각각에서 발췌한 트윗을 보여줍니다. 이 예는 다양한 범주에 걸쳐 데이터 세트에 있는 많은 트윗이 정책 결정 및 일반 거버넌스와 관련되어 있음을 보여줍니다.




[3] https://www.myneta.info/