Métodos
Para poner en práctica esta noción de equidad y mostrar la diferencia con la equidad de grupo tradicional, comparamos tres modelos que utilizan atributos sensibles con un modelo de referencia. Se sabe que la forma en que el modelo utiliza los atributos sensibles tiene un impacto en la equidad y el rendimiento del modelo [3,39,41,11]. Por lo tanto, utilizamos modelos que incluyen explícitamente atributos sensibles o, por el contrario, eliminamos cualquier codificación demográfica de los datos de entrada.
Los cuatro modelos se entrenan en un problema de clasificación de múltiples etiquetas de hallazgos en radiografías de tórax (CXR). En todos los entornos, se utiliza una estructura principal Densenet-121 [13], que se determinó empíricamente que ofrece el mejor rendimiento para este problema. Las arquitecturas exactas del modelo se muestran en la figura 2 y se describen a continuación:
– M1 : un clasificador de referencia que utiliza las imágenes como entrada y está entrenado para predecir los hallazgos de radiografía de tórax asociados a nuestro conjunto de datos. El modelo consta de una estructura principal para extraer las características de la imagen y una rama de hallazgos que consta de una capa completamente conectada y una pérdida de entropía cruzada binaria para cada hallazgo.
– M2 : un clasificador que utiliza las imágenes y las características de la raza como entrada. La información de la raza viene en forma de una variable categórica, que convertimos en un vector one-hot y enviamos a una capa completamente conectada. Concatenamos las características de la capa completamente conectada y las características de la imagen antes de enviarlas a la rama de búsqueda. El modelo se entrena de principio a fin.
– M3 : un clasificador que utiliza las imágenes como entrada únicamente, pero entrenado para predecir los hallazgos de las imágenes, así como el grupo racial (es decir, este modelo tiene como objetivo explotar las codificaciones raciales presentes en las imágenes). Para este modelo, modificamos la capa final del clasificador de referencia adaptando la función de pérdida para optimizar las dos tareas: hallazgos de CXR y grupo racial. También transformamos la información racial en un vector codificado one-hot para aplicar la pérdida de múltiples clases. La rama de clasificación racial está formada por una capa completamente conectada y una función de pérdida de entropía cruzada. La pérdida final se calcula sumando la pérdida de hallazgos y la pérdida racial con un peso de pérdida λ.
– M4 : un clasificador que utiliza las imágenes como entrada, entrenado para predecir los hallazgos de las imágenes, mientras minimiza el uso de la información de la raza codificada en la imagen. Para este modelo, implementamos la técnica de inversión de gradiente descrita en [28]. Aplicamos la capa de inversión de gradiente antes de la rama de raza.
Autores:
(1) Samia Belhadj∗, Lunit Inc., Seúl, República de Corea ([email protected]);
(2) Sanguk Park [0009 −0005 −0538 −5522]*, Lunit Inc., Seúl, República de Corea ([email protected]);
(3) Ambika Seth, Lunit Inc., Seúl, República de Corea ([email protected]);
(4) Hesham Dar [0009 −0003 −6458 −2097], Lunit Inc., Seúl, República de Corea ([email protected]);
(5) Thijs Kooi [0009 −0003 −6458 −2097], Kooi, Lunit Inc., Seúl, República de Corea ([email protected]).
Este artículo está disponible en arxiv bajo la licencia CC BY-NC-SA 4.0.