paint-brush
미디어의 다국어 거친 정치적 입장 분류: 개요 및 소개~에 의해@mediabias
145 판독값

미디어의 다국어 거친 정치적 입장 분류: 개요 및 소개

너무 오래; 읽다

본 논문에서 연구자들은 실제 뉴스 매체 등급을 사용하여 AI가 생성한 뉴스 기사의 중립성과 언어별 입장 변화를 분석합니다.
featured image - 미디어의 다국어 거친 정치적 입장 분류: 개요 및 소개
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) Cristina España-Bonet, DFKI GmbH, 자를란트 정보학 캠퍼스.

링크 표


추상적인

중립은 달성하기 어렵고, 정치에서는 주관적입니다. 전통적인 미디어는 일반적으로 잠재 독자가 미디어 편견의 지표로 사용할 수 있는 편집 라인을 채택합니다. 현재 몇몇 플랫폼은 정치적 편견에 따라 뉴스 매체를 평가합니다. 편집 라인과 등급은 독자가 뉴스에 대한 균형 잡힌 견해를 모으는 데 도움이 됩니다. 그러나 지시 따르기 언어 모델의 출현으로 신문 기사 작성과 같은 작업이 컴퓨터에 위임될 수 있습니다. 편향된 인물을 강요하지 않고 AI 기반 뉴스 매체가 편향된 평가 내에서 어디에 위치할까요? 이 작업에서 우리는 실제 뉴스 매체의 평가를 사용하여 자동으로 추출된 주제 주석과 함께 대략적인 입장 주석(왼쪽 및 오른쪽)이 있는 다국어 뉴스 코퍼스를 생성합니다. 우리는 이 데이터에 대해 훈련된 분류자가 영어, 독일어, 스페인어 및 카탈로니아어로 된 대부분의 보이지 않는 신문의 사설을 식별할 수 있음을 보여줍니다. 그런 다음 ChatGPT와 Bard가 서로 다른 시간대에 4개 언어로 작성한 101개의 신문과 같은 기사에 분류자를 적용합니다. 우리는 전통적인 신문과 마찬가지로 ChatGPT 편집 라인이 시간에 따라 진화하고 데이터 기반 시스템이기 때문에 생성된 기사의 입장이 언어마다 다르다는 것을 관찰했습니다.


1. 소개

ILM(명령 따르기 언어 모델)은 어디에나 존재합니다. 이들의 사용은 아직 검색 엔진만큼 확장되지는 않았지만 Alpaca(Taori et al., 2023), Bard(Google, 2023), BLOOMZ 및 mT0(Muennighoff et al.)과 같은 시스템 및 모델의 가용성과 높은 품질로 인해 al., 2023), ChatGPT(OpenAI, 2023), Llama 2-chat(Touvron et al., 2023) 또는 Koala(Geng et al., 2023) 등의 사용이 가까운 미래에 더욱 보편화될 것으로 예상됩니다. 이러한 모델은 신뢰성 부족과 가장 관련이 있는 몇 가지 문제에 직면해 있습니다(van Dis et al., 2023; Huang et al., 2023; Wang et al., 2023a). 그 결과가 사실 확인되지 않으면 신뢰할 수 있는 정보의 출처로 사용될 준비가 되어 있지 않습니다. 언어 모델(LM) 기반 시스템의 두 번째 큰 문제는 훈련 데이터에 존재하는 편향을 재현할 수 있다는 사실입니다(Navigli et al., 2023). 편견은 데이터 불균형으로 인한 문화적 잘못된 표현부터 서면 텍스트에서 재현된 공격적인 행동까지 다양합니다. LM은 입력-출력 쌍과 명령을 사용하는 감독 방식(Wei et al., 2022; Wang et al., 2022, 2023b) 또는 인간 피드백을 통한 강화 학습(Ouyang et al., 2022; 나카노 외, 2021). 두 경우 모두 미세 조정은 편향을 제거하는 데 도움이 됩니다. 그러나 중립성은 감독 데이터를 생성하는 인간에게도 달성하기 매우 어려운 것입니다. 따라서 미세 조정 단계에서는 원래 편향을 과도하게 수정하거나 새로운 편향을 도입할 수 있습니다. LM 자체를 사용하여 감독 데이터를 생성하는 방법의 경우 원래 편향이 상속될 수 있습니다. 우리는 ILM의 특정 용도, 즉 신문 기사 작성에 중점을 둡니다. 저널과 신문은 일반적으로 독자에게 알려진 편집 라인을 따릅니다. 게다가 AllSides[1] Media Bias Fact Check[2](MB/FC) 또는 Ad Fontes Media[3]와 같은 사이트에서는 (주로 미국) 미디어 소스의 정치적 편견과 사실 정보에 대한 품질에 대한 등급을 제공합니다. 이러한 평가를 통해 성실한 독자는 균형잡힌 관점을 얻기 위해 어떤 언론 매체를 선택할지에 대해 정보에 입각한 결정을 내릴 수 있습니다. 하지만 저널리스트가 글쓰기를 돕기 위해 ChatGPT나 Bard와 같은 시스템을 사용하면 어떻게 될까요? 위에서 말했듯이 인간에게도 편견이 있으며, 사용자/독자의 관점에 영향을 미칠 수 있으므로 이를 인식하지 못하는 데 위험이 있습니다(Jakesch et al., 2023; Carroll et al., 2023). ChatGPT는 이미 사용자에게 잘못된 정보에 대해 경고합니다. 그러나 정치적 편견이 있는지 여부는 사용자가 갖고 있는 주관적인 인식과는 별개로 알 수 없다.


우리는 ChatGPT와 Bard가 영어, 독일어, 스페인어, 카탈로니아어의 4개 언어로 생성한 기사에 대해 위의 질문을 해결합니다. 우리는 사람의 개입이 거의 없는 자동적이고 체계적인 방식으로 이 작업을 수행하므로 이 방법은 적은 노력으로도 새로운 언어 및 기타 ILM으로 쉽게 확장될 수 있습니다. 우리는 개별 기사를 특정 편견으로 분류하는 것이 아니라 미디어 편견 사이트가 신문 및 기타 언론 매체에 대해 수행하는 것과 유사한 방식으로 미디어 소스(이 경우 ILM)를 좌파 또는 우파로 분류하는 것을 목표로 합니다.



1. https://www.allsides.com

2. https://mediabiasfactcheck.com

3. https://adfontesmedia.com