저자:
(1) 이탈리아 베니스의 Ca' Foscari 대학교 Anees Baqir;
(2) Alessandro Galeazzi, 이탈리아 베니스 Ca' Foscari 대학교;
(3) Fabiana Zollo, 이탈리아 베니스 Ca' Foscari 대학 및 이탈리아 환경 인문학을 위한 새로운 연구소 센터.
데이터는 수집 당시 학계에서 무료로 사용할 수 있는 학술 연구용 공식 Twitter API[1]를 사용하여 수집되었습니다. NewsGuard 데이터 세트(표 1 참조)에서 검색된 계정 목록을 기반으로 2019년부터 2021년까지 3년 동안 이탈리아, 독일, 프랑스 및 영국에 기반을 둔 미디어 소스의 트위터 타임라인을 다운로드했습니다. NewsGuard는 9가지 저널리즘 기준을 바탕으로 뉴스 매체의 신뢰성을 평가합니다. 이러한 기준에 따라 전문 언론인과 독립 언론인으로 구성된 팀은 각 뉴스 매체에 0에서 100 사이의 "신뢰 점수"를 할당합니다. 개인, 풍자 콘텐츠 또는 Twitter, Facebook, YouTube와 같은 소셜 미디어 플랫폼에 대해서는 등급이 제공되지 않습니다. 뉴스 소스는 점수에 따라 신뢰할 수 있음(신뢰 점수 60점 이상)과 의심스러움(신뢰 점수 60점 미만)의 두 그룹으로 분류됩니다. 임계값은 평가 기준에 따라 NewsGuard에 의해 설정됩니다.
우리는 공개 트위터 계정에서 공개적으로 사용 가능한 콘텐츠만 수집했습니다. 데이터 세트에는 2019년 1월 1일부터 2021년 11월 11일까지 선택한 계정에서 게시한 모든 트윗이 포함되어 있어 2,500만 개 이상의 트윗이 생성되었습니다. 표 2는 데이터 분석을 보고합니다. 총액에서 차지하는 국가별 게시물의 비율은 괄호 안에 표시됩니다.
국가 간 비교를 위해 유럽 수준에서 논의되는 주제에 분석이 집중되도록 하기 위해 원래 데이터세트에 키워드 필터를 적용했습니다. 우리는 데이터 세트를 3개의 1년 세그먼트로 나누고 해당 연도의 유럽 수준에서 가장 많이 논의된 주제와 관련된 키워드 목록에 따라 각 세그먼트를 필터링했습니다. 필터링된 데이터에 대한 통계는 표 3에서 확인할 수 있습니다.
필터링된 데이터 세트의 트윗에 대해 모든 리트윗을 수집했습니다. 주제별 원본 트윗 수와 리트윗 수에 대한 자세한 내용은 표 3에서 확인할 수 있습니다.
마지막으로 모든 0차 노드를 제외하고 모든 가장자리 가중치의 중앙값보다 낮은 가중치를 갖는 모든 가장자리를 삭제했습니다. 이러한 접근 방식을 통해 우리는 유럽의 맥락에서 선택된 주제와 관련된 뉴스 매체의 독자들 사이에서 가장 강한 유사점을 포착할 수 있었습니다.
우리는 조사 중인 모든 국가에서 널리 퍼져 있는 뜨거운 주제를 식별하기 위해 문서 모음에서 잠재 주제를 추출하는 주제 모델링 도구인 BERTopic을 활용했습니다. BERTopic은 사전 훈련된 문장 변환기(Grootendorst, 2022)를 위해 일반화된 top2vec 모델로, 최근 다양한 작업에서 유망한 결과를 입증했습니다. BERTopic은 다음 세 단계를 통해 일관된 문서 클러스터를 생성합니다. 1) 문서 임베딩 추출; 2) 클러스터링 임베딩; 3) 클래스 기반 TF-IDF를 사용하여 주제 표현 생성(Sammut and Webb, 2011)(c-TF-IDF). 첫 번째 단계에서는 사전 훈련된 변환기 기반 언어 모델을 활용하여 최신 임베딩 기술을 사용할 수 있습니다. 두 번째 단계에서는 임베딩 차원을 줄이기 위해 UMAP(Uniform Manifold Approximation and Projection)를 사용하고(McInnes et al., 2018), 노이즈가 포함된 응용 프로그램의 계층적 밀도 기반 공간 클러스터링(HDBSCAN)을 사용하여 의미상 유사한 문서 클러스터를 생성합니다(McInnes 외, 2017). 주제 중 하나가 '기타'로 설정되어 있으며, 다른 주제에 포함되지 않은 문서가 포함되어 있습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
[1] https://developer.twitter.com/en/docs/twitter-api