이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.
우리는 좌파(L)와 우파(R) 정치적 성향이라는 두 가지 클래스를 사용하는 분류 문제로 우리의 과제에 접근합니다. 이는 기사가 중립적일 수도 있고 편견의 정도가 다를 수 있는 실제 문제를 단순화한 것입니다. 이전 작업은 항상 중립 옵션을 포함하는 3개 또는 5개 클래스에 의존했습니다(Baly et al., 2020; Aksenov et al., 2021). 이러한 작업에서는 데이터에 수동으로 주석을 달아 고품질 교육 데이터를 생성했지만, 다루는 언어 및 국가 측면에서 작업 범위를 많이 제한했습니다. 세분화된 분류 척도를 사용할 때 저자는 새로운 소스에 대한 분류자의 잘못된 일반화를 인정합니다. 반면에 García-Díaz et al. (2022) 및 Russo et al. (2023)은 중립 클래스를 제외하고 각각 스페인과 이탈리아 정치인의 트윗에 대한 이진 또는 다중 클래스 Left-Right 분류를 사용하지만 이들의 작업에는 더 긴 텍스트가 포함되지 않습니다. 이진 분류는 사람들이 더 본능적이고 따라서 더 양극화되는 경향이 있는 장르인 트윗을 작업하면서 정당화될 수 있습니다. 우리의 경우 분류기가 보이지 않는 소스에 잘 일반화되는지 확인해야 하며 훈련에서 중립 기사의 수를 최소화하면서 2클래스 작업을 고수해야 합니다(아래 참조).
원격 감독. 우리가 아는 한, 수동으로 주석을 추가한 영어 신문 자료(Baly et al., 2020)와 독일어 신문 자료(Aksenov et al., 2021)만 사용할 수 있습니다. 우리는 Kulkarni et al.의 정신에 따라 다른 접근 방식을 따릅니다. (2018) 및 Kiesel et al. (2019). 우리는 어떤 기사에도 수동으로 주석을 달지 않지만 AllSides, MB/FC, Political Watch 및 Wikipedia(후자는 이전 사이트에서 정보를 사용할 수 없는 경우에만 해당)의 신문 편향 분류를 신뢰합니다. 우리는 미국, 독일, 스페인 및 카탈로니아의 신문에 대해 이 정보를 추출합니다. 신문 목록, URL,[4] 및 입장을 바탕으로 Common Crawl을 필터링하여 얻은 다국어 코퍼스인 OSCAR(Ortiz Suárez et al., 2019; Abadji et al., 2021)를 사용하여 기사를 검색합니다. . 부록 A에는 이 작업에 사용된 출처가 나열되어 있습니다. 미국 신문 47개(742,691개 기사), 독일어 12개 신문 143,200개, 스페인어 38개 신문 301,825개, 카탈로니아어 19개 신문 70,496개.
주제 모델링. 모든 기사에 편견이 있는 것은 아니며, 일부 주제는 다른 기사보다 경향이 더 높습니다. 신문의 스포츠 섹션은 일반적으로 정치적 편견을 덜 반영하는 반면, 국제 섹션에서는 그 반대가 발생합니다. 따라서 주제를 사용하여 이진 분류를 위한 관련 교육 데이터의 하위 집합을 선택합니다. 우리는 Gibbs 샘플링과 함께 LDA를 적용하는 Mallet(McCallum, 2002)을 사용하여 OSCAR에서 추출된 기사에 대한 주제 모델링을 수행합니다. 우리는 대략 신문의 섹션 수에 해당하는 언어당 10개 및 15개 그룹으로 데이터를 클러스터링합니다. 각 주제에 대해 추출된 키워드는 부록 B에 나열되어 있습니다. 우리는 국제, 정부, 법률 및 정의, 경제, 살아있는 과학/생태학으로 분류한 주제와 이민 및 폭력과 같은 특정 언어 의존적 주제에 해당하는 기사를 선택합니다. 영어, 독일어의 경우 나치즘, 스페인어의 경우 사회. 키워드를 확인한 후 선택이 이루어집니다. 최종 데이터 세트의 경우 선택된 기사를 10개 및 15개 주제로 묶은 통합을 수행합니다. 이 프로세스는 스페인어 기사의 49%, 독일어 기사의 39%, 영어 기사의 31%를 필터링합니다.
전처리 및 청소. 2000단어 이상, 20단어 미만의 기사는 청소 전 폐기합니다. 그런 다음 감지된 머리글, 바닥글 및 상용구 텍스트를 제거합니다. 이 텍스트는 분류자가 정치적 입장에 초점을 맞추기보다 신문을 구별하는 방법을 배우도록 장려할 수 있으므로 신경 분류자를 오도할 가능성이 있습니다. 우리는 테스트를 위해 언어와 입장에 따라 신문을 선택하고 기사를 수동으로 청소합니다. 각 언어에 대한 균형 잡힌 훈련 자료를 만들기 위해 나머지 컬렉션에서 비슷한 수의 좌파 및 우파 기사를 무작위로 선택합니다. 이 균형 잡힌 데이터 세트는 표 1(맨 위 행)에 표시된 대로 훈련과 검증으로 구분됩니다.
ChatGPT/바드 코퍼스. 우리는 101개의 기사로 구성된 다국어 데이터세트를 만듭니다. 이를 위해 주택 가격, 낙태, 담배, 버락 오바마 등 101개 주제를 정의하고 이를 4개 언어로 수동 번역합니다(부록 D 참조). 주제는 페미니즘, 자본주의, 생태주의, 기술 등과 관련된 정치적 입장을 가지기 쉬운 주제를 고려합니다. 또한 고려되는 4개국 사람들의 고유명사도 포함하며, 이들의 전기는 해당 국가의 정치적 입장에 따라 다를 수 있습니다. 작가. 이러한 주제는 템플릿 프롬프트(및 독일어, 스페인어, 카탈로니아어로의 번역)에 삽입됩니다.[5] [SUBJECT]en에 신문 기사 쓰기
4개 기간에 걸쳐 동일한 주제를 사용하여 ChatGPT(GPT-3.5-Turbo)를 5번 프롬프트합니다. 2월 13일(v02), 3월 23일(v03), 5월 24일(v05) 및 8월 3일(v08)의 ChatGPT 버전으로 데이터 세트를 생성합니다. 우리는 마지막 2개 언어만 동시에 4개 언어를 다룹니다. ChatGPTv05는 작성자 이름, 날짜 및/또는 도시로 채워지는 슬롯이 있는 기사 중심 구조를 사용하여 다른 텍스트보다 훨씬 긴 텍스트를 생성합니다. 다국어 Bard는 나중에 제공되었으며 ChatGPTv8과 같은 기간 동안 두 번 메시지를 표시합니다.[6] 표 1은 이 말뭉치에 대한 통계를 보여줍니다.
[4] 이는 뉴스 여부와 관계없이 뉴스 매체의 도메인 이름에 있는 모든 기사를 선택하는 것을 의미합니다.
[5] ChatGPT의 첫 번째 버전에서는 더 구체적인 프롬프트가 다른 스타일로 이어지지 않았습니다. 마지막 버전에서는 ...부제목 없음과 같은 더 많은 정보를 추가했습니다. 과도한 하위 구분 및/또는 주요 항목을 피하기 위해. ChatGPT나 Bard 모두 항상 지침을 제대로 따르지 않았습니다. 우리가 제공하는 데이터 세트에는 우리가 사용한 프롬프트가 포함되어 있습니다.
[6] ChatGPT와 달리 세대는 위치에 따라 다르므로 영어와 독일어의 경우 베를린에서 2023년 8월 14~21일에, 스페인어와 카탈로니아어의 경우 바르셀로나에서 메시지가 표시됩니다.