이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.
미디어 소스에는 편집 라인과 관련 편견이 있습니다. 정치적 편견을 없애는 것은 인간에게 어려운 일이지만, 이를 인식하는 것은 뉴스에 대한 세계적인 시각을 얻는 데 도움이 됩니다. 편견은 때로는 명확하거나 유해한 텍스트의 형태로 나타나지만 때로는 미묘하고 감지하기 어렵습니다. 이러한 미묘하고 숨겨진 편견은 잠재적으로 위험하며 우리가 이를 인지하지 못할 때마다 조작으로 이어집니다. 이 연구에서 우리는 페르소나 역할을 할당하지 않고 나타나는 ChatGPT와 Bard 뒤에 있는 미묘한 정치적 편견을 체계적으로 연구했습니다(Deshpande et al., 2023). 우리는 ChatGPT의 방향이 시간에 따라 변하고 언어에 따라 다르다는 것을 보여주었습니다. 2023년 2월과 8월 사이에 ChatGPT는 좌파에서 중립 정치 방향으로 전환했으며, 영어와 스페인어의 경우 중간에 우경화 기간이 있었습니다. Bard의 진화는 아직 연구될 수 없습니다. 2023년 8월 현재 버전에서는 연구 중인 4개 언어에 대해 일관되게 좌파 성향을 보여줍니다. 이러한 편향은 모델이 생성하는 사실적 실수와는 별개이며 사용자도 이를 고려해야 합니다. 우리는 제로샷 접근 방식을 사용하여 미국, 독일, 스페인뿐만 아니라 밀접하게 관련된 정치적 맥락 및 언어의 텍스트 생성에서 편견을 정기적으로 확인하는 모델을 제공합니다.
분석의 부산물로 우리는 정치적 입장과 주제에 대한 대략적인 주석이 포함된 120만 개의 신문 기사로 구성된 다국어 코퍼스를 만들었습니다. 우리는 먼 감독을 통해 코퍼스가 다양한 한 거친 정치적 입장 분류에 대한 의미 있는 모델을 구축할 수 있음을 보여줍니다. 우리는 Zenodo(España-Bonet, 2023) 및 Github를 통해 LM 세대 및 코드와 함께 이 데이터를 사용할 수 있도록 합니다.[12]
[12] https://github.com/cristinae/docTransformer