이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.
우리는 모든 미디어 소스에 편집 라인과 관련 편견이 있다고 가정하고 ILM을 다른 미디어 소스와 마찬가지로 취급합니다. 우리는 ChatGPT 또는 Bard 기사가 편견이 없을 가능성을 고려하지 않습니다. 이는 현재 바이너리 정치적 입장 주석을 허용하는 데이터를 수집하는 데 사용되는 원격 감독 방법과 관련이 있습니다. 진정한 다국어 환경에서 정치적 편견이 있는 수십만 개의 기사에 수동으로 주석을 다는 것은 가까운 미래에 불가능해 보이기 때문에 우리는 완전한 데이터 기반 방법을 구현하고 언어 및 문화 전달 기능을 연구하기로 결정했습니다.
그러나 기사 수준에서 정치적 입장을 탐지하기 위해 원격 감독을 사용하는 것은 민감한 주제입니다. 첫째, 같은 신문이라도 시간이 지나면서 이념이 바뀔 수 있기 때문이다. 둘째, 이는 개별 기사의 내용과 더 관련이 있으며, 논란의 여지가 없는 주제에는 편견이 없을 수 있습니다. 편견이 존재하는 경우에도 두 이념의 명확한 구분보다는 극좌에서 극우까지 스펙트럼이 존재한다.
현재의 한계를 정량화하고 가능한 경우 완화하기 위해 인간이 주석을 추가한 말뭉치(Baly et al., 2020; Aksenov et al., 2021)에 대한 문체 분석을 수행하고 이를 반자동으로 주석이 달린 말뭉치와 비교할 계획입니다. . 이 작업의 후속 작업으로 ILM에서 생성된 텍스트에 대한 스타일 분석도 수행할 것입니다. 좋은 일반화 및 전송 기능을 보장하려면 훈련 데이터와 이러한 텍스트 간의 유사한 스타일이 필요하기 때문입니다.
우리는 생성 언어 모델인 ChatGPT와 Bard를 사용하여 테스트 데이터를 생성합니다. 논란의 여지가 있는 여러 주제(사형, 성희롱, 마약 등)를 다루기 때문에 자동 생성 시 유해한 텍스트가 생성될 수 있습니다. 여기에 제시된 데이터는 사람이 수정하지 않았습니다. 우리는 사용된 시스템 버전 표시와 함께 생성된 말뭉치를 분석하고 제공합니다.