Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.
tác giả:
(1) Brisha Jain, Nhà nghiên cứu độc lập Ấn Độ và [email protected];
(2) Mainack Mondal, IIT Kharagpur Ấn Độ và [email protected].
Trong phần này, chúng tôi mô tả quy trình thu thập dữ liệu của chúng tôi từ Twitter. Chúng tôi đã thu thập dữ liệu cụ thể về sự tương tác giữa các chính trị gia và nhà báo cụ thể của Ấn Độ trên Twitter được lấy mẫu dựa trên mức độ phổ biến và giới tính của họ. Đầu tiên, chúng tôi bắt đầu với cách tạo danh sách các nhà báo và chính trị gia Ấn Độ cho nghiên cứu của mình.
Xác định tài khoản Twitter của từng chính trị gia Ấn Độ: Chúng tôi tận dụng bộ dữ liệu về các Chính trị gia Ấn Độ từ nghiên cứu trước đây của Pal và cộng sự[20]. Tập dữ liệu này chứa tên và tên của nhiều tài khoản Twitter của Ấn Độ có liên quan đến chính trị (được gắn nhãn là chính trị gia). Tuy nhiên, chúng tôi lưu ý rằng tập dữ liệu này chứa tài khoản của cả các tổ chức chính trị (ví dụ: BJP cho Quần đảo Andaman và Nicobar) cũng như các cá nhân. Để đạt được mục tiêu đó, trước tiên chúng tôi làm sạch tập dữ liệu bằng cách đối chiếu chéo các tên từ tập dữ liệu này với tên từ MyNeta[3], một nền tảng kho lưu trữ dữ liệu mở do Hiệp hội Cải cách Dân chủ (ADR) điều hành nhằm mang lại sự minh bạch cho các cuộc bầu cử ở Ấn Độ. Đối với mỗi tài khoản chính trị Ấn Độ trong Pal et al. tập dữ liệu của, chúng tôi đã tìm kiếm nền tảng MyNeta bằng tên của tài khoản. Nếu tìm kiếm không tìm thấy chính trị gia nào có tên này thì chúng tôi sẽ loại bỏ tài khoản khỏi phân tích của mình vì tài khoản đó có thể không phải của một cá nhân. Khi kết thúc quá trình, chúng tôi có được 4.484 tài khoản Twitter của các chính trị gia.
Xác định tài khoản Twitter của từng nhà báo chính trị Ấn Độ: Tiếp theo, chúng tôi tập trung vào các tài khoản Twitter được đánh dấu là nhà báo cá nhân từ tập dữ liệu về những người có ảnh hưởng Twitter do nghiên cứu trước đây của Pal và cộng sự công bố [3] (tách biệt với tài khoản của các nhà truyền thông). Có 4.099 tài khoản như vậy. Tuy nhiên, chúng tôi lại phải đối mặt với một thách thức—làm thế nào chúng tôi có thể xác định được các nhà báo chính trị? Cụ thể, chúng tôi lưu ý rằng danh sách này bao gồm một số nhà báo không liên quan đến việc đưa tin chính trị và tập trung vào các lĩnh vực như giải trí, thể thao, v.v. Do đó, chúng tôi đặt mục tiêu xác định các nhà báo chính trị— tài khoản nhà báo đề cập trực tiếp đến tài khoản của các chính trị gia một cách không tầm thường. tweet (ví dụ: sau khi giảm giá các tweet chỉ có biểu tượng cảm xúc, url, lời chúc mừng sinh nhật). Để đạt được mục tiêu đó, chúng tôi đã thu thập tất cả các tweet được đăng bởi 4.099 tài khoản này trong khoảng thời gian từ tháng 1 năm 2020 đến tháng 12 năm 2022 bằng cách sử dụng một công cụ nguồn mở có tên là crape. Sau đó, chúng tôi loại bỏ các tweet chỉ có biểu tượng cảm xúc, url, lời chào và kiểm tra xem có bất kỳ tweet cuối cùng nào đề cập đến tài khoản Twitter của một chính trị gia Ấn Độ hay không (được thu thập như mô tả ở trên). Cuối cùng, chúng tôi đưa 3.214 tài khoản của nhà báo (78,4%) vào tập dữ liệu của chúng tôi với tư cách là nhà báo chính trị.
Xác minh tính chính xác của tài khoản Twitter: Cuối cùng, chúng tôi đã xác minh theo cách thủ công xem liệu phương pháp lọc của chúng tôi có thực sự xác định được đúng tài khoản Twitter của các chính trị gia và nhà báo chính trị Ấn Độ hay không. Chúng tôi lấy mẫu ngẫu nhiên 40 chính trị gia và 20 tài khoản nhà báo. Sau đó, một tác giả đã truy cập các tài khoản Twitter thực tế và đọc 20 dòng tweet đầu tiên để đảm bảo tài khoản đó thực sự thuộc về một chính trị gia (hoặc nhà báo chính trị) Ấn Độ. Trong 92,5% mẫu ngẫu nhiên, phương pháp lọc của chúng tôi đã xác định chính xác tài khoản Twitter của các chính trị gia Ấn Độ (hoặc nhà báo chính trị).
Tiếp theo, chúng tôi suy ra giới tính của tài khoản Twitter của các chính trị gia Ấn Độ (hoặc nhà báo chính trị) như đã xác định ở phần trước. Với mục đích này, chúng tôi đã sử dụng một dịch vụ có tên Generize [25]. Dịch vụ này ánh xạ tên theo giới tính, được tùy chỉnh theo tên của người Ấn Độ và các nghiên cứu trước đây cho thấy khả năng suy luận giới tính từ dịch vụ này có độ chính xác cao [19]. Khi chúng tôi suy ra giới tính của tất cả các tài khoản, trong nghiên cứu này, chúng tôi tập trung vào các tài khoản chính trị gia và nhà báo phổ biến nhất (theo số lượng người theo dõi). Cụ thể, chúng tôi đã sắp xếp các tài khoản chính trị gia theo số lượng người theo dõi và xác định 50 tài khoản hàng đầu dành cho nam chính trị gia và nữ chính trị gia (được xác định bởi Giới tính hóa). Chúng tôi tiếp tục xác minh thủ công tính chính xác của giới tính được suy ra cho 100 tài khoản Twitter này. Tương tự, chúng tôi cũng xác định 100 tài khoản nhà báo phổ biến nhất (50 nam và 50 nữ).
Cuối cùng, để trả lời các câu hỏi nghiên cứu của mình, chúng tôi thu thập dữ liệu tương tác giữa các chính trị gia Ấn Độ và tài khoản của các nhà báo chính trị. Cụ thể, chúng tôi đã thu thập tất cả các tweet được đăng bởi 100 tài khoản nhà báo chính trị nổi tiếng và sau đó lọc ra các tweet đề cập đến bất kỳ ai trong số 100 chính trị gia nổi tiếng của Ấn Độ trong tập dữ liệu của chúng tôi. Do đó, chúng tôi chia các tweet đã thu thập của mình thành bốn loại sau—Tweet của nhà báo nam đề cập đến Chính trị gia nam ( MJ-MP ), Tweet của nhà báo nữ đề cập đến Chính trị gia nam ( FJ-MP ), Tweet của nhà báo nam đề cập đến Chính trị gia nữ ( MJ-FP ) và Tweet của Nữ nhà báo nhắc đến Nữ chính trị gia ( FJ-FP ). Tổng cộng chúng tôi đã thu thập được 21.188 tweet độc đáo. Lưu ý rằng một tweet có thể đề cập đến nhiều tài khoản.
Chúng tôi lưu ý rằng gần như tất cả hàng trăm nhà báo thuộc mọi giới tính đều đề cập chung đến các tài khoản chính trị gia nổi tiếng mà chúng tôi đã chọn trong các tweet của họ. Hơn nữa, Bảng 1 trình bày số lượng tweet trong bốn danh mục của chúng tôi. Đáng chú ý, tài khoản của các nữ chính trị gia nhận được ít sự đề cập hơn từ cả các nhà báo nam và nữ Ấn Độ. Bây giờ, chúng tôi đã phân tích dữ liệu tương tác này được thu thập từ Twitter để xác định thành kiến giới tính tiềm ẩn trong tương tác giữa nhà báo và chính trị gia trên Twitter của Ấn Độ. Hơn nữa, Bảng 2 trình bày các đoạn trích tweet từ mỗi loại trong số bốn loại. Ví dụ này chứng minh rằng nhiều tweet trong tập dữ liệu của chúng tôi thuộc các danh mục khác nhau có liên quan đến các quyết định chính sách và quản trị chung.
[3] https://www.myneta.info/