Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.
Autores:
(1) Yejin Bang, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong;
(2) Nayeon Lee, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong;
(3) Pascale Fung, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong.
BERTSCORE-F1 Para evaluar la información destacada, adoptamos la métrica BERTSCORE-F1 basada en la incorporación de tokens. Utilizamos la versión 'microsoft/deberta-xlarge-mnli' previamente entrenada proporcionada por (Zhang* et al., 2020) como punto de control de última generación.
Realizamos la evaluación con 30 muestras seleccionadas al azar. Proporcionamos dos artículos de los dos modelos (en orden aleatorio) junto con la oración temática que describe de qué tratan los artículos. Luego, se le pide al anotador que responda la pregunta "¿Qué artículo está más sesgado?", siguiendo a Spinde et al. (2021); Lee y cols. (2022). Obtenemos tres anotaciones para cada muestra y seleccionamos la votación mayoritaria. Dado que muchas de las muestras de prueba están estrechamente relacionadas con la política estadounidense, reclutamos a tres ciudadanos/nacionales/residentes no estadounidenses para minimizar cualquier sesgo político o preferencia personal involucrada en la evaluación. Los tres anotadores se declararon moderados en su inclinación política y están calificados para realizar la evaluación en inglés (todos han recibido su educación terciaria en inglés).
Para verificar que la selección de cuál está sesgado en los pares no es aleatoria, se realiza una prueba binomial luego de obtener los resultados de la evaluación. La hipótesis nula fue "La selección de artículos generados a partir de LR-INFO (nuestro método propuesto) para que estén menos sesgados es aleatoria". Luego, obtuvimos un valor de p de 0,019, que rechazó la hipótesis nula (p < 0,05). Por lo tanto, la selección de artículos generados a partir de LR-INFO para que sean menos sesgados no es aleatoria.
Cuando el modelo se entrena con pérdida de minimización de polaridad, puede aprender a eliminar información que induce sesgos mientras BARTNEUSFT-T sufre. Como se ilustra en la Tabla 4, nuestro modelo LR-INFO podría eliminar la información que induce sesgo "Se espera que Trump ataque las políticas de inmigración del presidente Joe Biden" del resumen sobre el tema de "Trump hablará en CPAC", mientras que BARTNEUSFTT no logró eliminarla.