Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Yejin Bang, Centre de recherche sur l'intelligence artificielle (CAiRE), Université des sciences et technologies de Hong Kong ;
(2) Nayeon Lee, Centre de recherche sur l'intelligence artificielle (CAiRE), Université des sciences et technologies de Hong Kong ;
(3) Pascale Fung, Centre de recherche sur l'intelligence artificielle (CAiRE), Université des sciences et technologies de Hong Kong.
BERTSCORE-F1 Pour évaluer les informations importantes, nous avons adopté la métrique BERTSCORE-F1 basée sur l'intégration de jetons. Nous avons utilisé la version pré-entraînée « microsoft/deberta-xlarge-mnli » fournie par (Zhang* et al., 2020) comme point de contrôle de pointe.
Nous avons effectué l'évaluation avec 30 échantillons sélectionnés au hasard. Nous fournissons deux articles des deux modèles (dans un ordre aléatoire) ainsi que la phrase problématique qui décrit le sujet des articles. Ensuite, l'annotateur est invité à répondre à la question « Quel article est le plus biaisé ? », selon Spinde et al. (2021) ; Lee et coll. (2022). Nous obtenons trois annotations pour chaque échantillon et sélectionnons le vote majoritaire. Étant donné que de nombreux échantillons de test sont étroitement liés à la politique américaine, nous avons recruté trois citoyens/ressortissants/résidents non américains afin de minimiser tout parti pris politique ou préférence personnelle impliqué dans l'évaluation. Les trois annotateurs se présentent comme étant de tendance politique modérée et sont qualifiés pour mener l’évaluation en anglais (ils ont tous fait leurs études supérieures en anglais).
Pour vérifier que la sélection de celui qui est biaisé dans les paires n'est pas aléatoire, un test binomial est réalisé après obtention des résultats d'évaluation. L'hypothèse nulle était « La sélection des articles générés à partir de LR-INFO (notre méthode proposée) pour être moins biaisés est aléatoire ». Ensuite, nous avons obtenu une valeur p de 0,019, ce qui rejette l'hypothèse nulle (p < 0,05). Par conséquent, la sélection des articles générés à partir de LR-INFO pour être moins biaisés n’est pas aléatoire.
Lorsque le modèle est entraîné avec une perte de minimisation de polarité, il peut apprendre à supprimer les informations induisant un biais pendant que BARTNEUSFT-T souffre. Comme l'illustre le tableau 4, notre modèle LR-INFO pourrait supprimer l'information biaisée « Trump devrait attaquer les politiques d'immigration du président Joe Biden » du résumé sur la question « Trump s'exprimera à CPAC » alors que BARTNEUSFTT n'a pas réussi à la supprimer.