Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar.
Autoren:
(1) Yejin Bang, Zentrum für künstliche Intelligenzforschung (CAiRE), Hong Kong University of Science and Technology;
(2) Nayeon Lee, Zentrum für künstliche Intelligenzforschung (CAiRE), Hong Kong University of Science and Technology;
(3) Pascale Fung, Zentrum für künstliche Intelligenzforschung (CAiRE), Hong Kong University of Science and Technology.
BERTSCORE-F1 Zur Bewertung wichtiger Informationen haben wir die auf Token-Embedding basierende Metrik BERTSCORE-F1 übernommen. Als hochmodernen Kontrollpunkt haben wir die vorab trainierte Version „microsoft/deberta-xlarge-mnli“ von (Zhang* et al., 2020) verwendet.
Wir haben die Bewertung mit 30 zufällig ausgewählten Stichproben durchgeführt. Wir stellen zwei Artikel aus den beiden Modellen (in zufälliger Reihenfolge) zusammen mit dem Themensatz bereit, der beschreibt, worum es in den Artikeln geht. Anschließend wird der Kommentator gebeten, die Frage „Welcher Artikel ist voreingenommener?“ zu beantworten, und zwar nach Spinde et al. (2021); Lee et al. (2022). Wir erhalten drei Anmerkungen für jede Stichprobe und wählen die Mehrheitsabstimmung aus. Da viele der Teststichproben eng mit der US-Politik verbunden sind, haben wir drei Nicht -US-Bürger/Staatsangehörige/Einwohner rekrutiert, um jegliche politische Voreingenommenheit oder persönliche Präferenz bei der Bewertung zu minimieren. Alle drei Kommentatoren gaben an, politisch gemäßigt zu sein, und sind qualifiziert, die Bewertung auf Englisch durchzuführen (sie haben alle ihre Hochschulausbildung auf Englisch erhalten).
Um zu überprüfen, dass die Auswahl derjenigen in den Paaren, die voreingenommen sind, nicht zufällig ist, wird nach Erhalt der Auswertungsergebnisse ein Binomialtest durchgeführt. Die Nullhypothese lautete: „Die Auswahl der aus LR-INFO (unsere vorgeschlagene Methode) generierten Artikel, die weniger voreingenommen sind, ist zufällig.“ Dann erhielten wir einen p-Wert von 0,019, der die Nullhypothese widerlegte (p < 0,05). Daher ist die Auswahl der aus LR-INFO generierten Artikel, die weniger voreingenommen sind, nicht zufällig.
Wenn das Modell mit Polaritätsminimierungsverlust trainiert wird, kann es lernen, verzerrungsfördernde Informationen zu entfernen, während BARTNEUSFT-T darunter leidet. Wie in Tabelle 4 dargestellt, konnte unser Modell LR-INFO die verzerrungsfördernde Information „Trump wird voraussichtlich die Einwanderungspolitik von Präsident Joe Biden angreifen“ aus der Zusammenfassung zum Thema „Trump spricht auf der CPAC“ entfernen, während BARTNEUSFTT dies nicht konnte.