이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 방예진, 홍콩과기대학교 인공지능연구센터(CAiRE);
(2) 이나연, 홍콩과기대학교 인공지능연구센터(CAiRE);
(3) Pascale Fung, 홍콩과기대학교 인공지능연구센터(CAiRE).
BERTSCORE-F1 핵심 정보를 평가하기 위해 토큰 임베딩 기반 메트릭 BERTSCORE-F1을 채택했습니다. 최첨단 체크포인트로는 (Zhang* et al., 2020)에서 제공하는 사전 학습된 'microsoft/deberta-xlarge-mnli' 버전을 사용했습니다.
무작위로 선택된 30개의 샘플을 사용하여 평가를 수행했습니다. 우리는 기사의 내용을 설명하는 이슈 문장과 함께 두 모델의 두 기사(무작위 순서)를 제공합니다. 그런 다음 주석자는 Spinde et al.에 이어 "어떤 기사가 더 편향되어 있습니까?"라는 질문에 대답하도록 요청받습니다. (2021); Lee et al. (2022). 각 샘플에 대해 세 개의 주석을 얻고 다수결을 선택합니다. 많은 테스트 샘플이 미국 정치와 밀접하게 관련되어 있기 때문에 평가에 관련된 정치적 편견이나 개인적 선호를 최소화하기 위해 미국 시민 이 아닌 시민/국적자/거주자 3명을 모집했습니다. 세 명의 주석 작성자 모두 자신이 정치적 성향이 온건하다고 주장했으며 영어로 평가를 수행할 자격이 있습니다(모두 영어로 고등 교육을 받았습니다).
쌍에서 편향된 선택이 무작위가 아닌지 확인하기 위해 평가 결과를 얻은 후 이항 테스트를 수행합니다. 귀무 가설은 "LR-INFO(우리가 제안한 방법)에서 생성된 기사를 덜 편향적으로 선택하는 것은 무작위입니다"였습니다. 그런 다음 귀무 가설을 기각하는 p-값 0.019를 얻었습니다(p < 0.05). 따라서 LR-INFO에서 생성된 기사를 덜 편향적으로 선택하는 것은 무작위가 아닙니다.
모델이 극성 최소화 손실로 학습되면 BARTNEUSFT-T가 문제를 겪는 동안 편향을 유발하는 정보를 제거하는 방법을 학습할 수 있습니다. 표 4에서 볼 수 있듯이 우리 모델 LR-INFO는 "트럼프가 CPAC에서 발언할 것" 문제에 대한 요약에서 "트럼프가 조 바이든 대통령의 이민 정책을 공격할 것으로 예상됩니다"라는 편견을 유발하는 정보를 제거할 수 있었지만 BARTNEUSFTT는 이를 제거하지 못했습니다.