Autores:
(1) TIMNIT GEBRU, Negro en IA;
(2) JAMIE MORGENSTERN, Universidad de Washington;
(3) BRIANA VECCHIONE, Universidad de Cornell;
(4) JENNIFER WORTMAN VAUGHAN, Investigación de Microsoft;
(5) HANNA WALLACH, Investigación de Microsoft;
(6) HAL DAUMÉ III, Microsoft Research; Universidad de Maryland;
(7) KATE CRAWFORD, Investigación de Microsoft.
3 preguntas y flujo de trabajo
3.4 Preprocesamiento/limpieza/etiquetado
Las hojas de datos para conjuntos de datos están destinadas a abordar las necesidades de dos grupos de partes interesadas clave: los creadores de conjuntos de datos y los consumidores de conjuntos de datos. Para los creadores de conjuntos de datos, el objetivo principal es fomentar una reflexión cuidadosa sobre el proceso de creación, distribución y mantenimiento de un conjunto de datos, incluidas las suposiciones subyacentes, los riesgos o daños potenciales y las implicaciones de su uso. Para los consumidores de conjuntos de datos, el objetivo principal es garantizar que tengan la información que necesitan para tomar decisiones informadas sobre el uso de un conjunto de datos. La transparencia por parte de los creadores de conjuntos de datos es necesaria para que los consumidores de conjuntos de datos estén lo suficientemente bien informados como para poder seleccionar conjuntos de datos apropiados para las tareas que elijan y evitar un uso indebido involuntario.[1]
Más allá de estos dos grupos de partes interesadas clave, las hojas de datos para conjuntos de datos pueden ser valiosas para los formuladores de políticas, los defensores de los consumidores, los periodistas de investigación, las personas cuyos datos están incluidos en los conjuntos de datos y las personas que pueden verse afectadas por modelos entrenados o evaluados utilizando conjuntos de datos. También cumplen un objetivo secundario de facilitar una mayor reproducibilidad de los resultados del aprendizaje automático: los investigadores y profesionales sin acceso a un conjunto de datos pueden utilizar la información de su hoja de datos para crear conjuntos de datos alternativos con características similares.
Aunque proporcionamos un conjunto de preguntas diseñadas para obtener la información que podría contener una hoja de datos para un conjunto de datos, estas preguntas no pretenden ser prescriptivas. De hecho, esperamos que las hojas de datos varíen necesariamente dependiendo de factores como el dominio o la infraestructura organizacional y los flujos de trabajo existentes. Por ejemplo, algunas preguntas son apropiadas para investigadores académicos que publican conjuntos de datos con el fin de permitir investigaciones futuras, pero menos relevantes para equipos de productos que crean conjuntos de datos internos para entrenar modelos propietarios. Como otro ejemplo, Bender y Friedman [2] describen una propuesta similar a las hojas de datos para conjuntos de datos destinados específicamente a conjuntos de datos basados en lenguaje. Sus preguntas pueden integrarse naturalmente en una hoja de datos para un conjunto de datos basado en el idioma, según corresponda.
Hacemos hincapié en que el proceso de creación de una hoja de datos no pretende automatizarse. Aunque los procesos de documentación automatizados son convenientes, van en contra de nuestro objetivo de alentar a los creadores de conjuntos de datos a reflexionar cuidadosamente sobre el proceso de creación, distribución y mantenimiento de un conjunto de datos.
Este documento está disponible en arxiv bajo licencia CC 4.0.
[1] Observamos que en algunos casos, las personas que crean una hoja de datos para un conjunto de datos pueden no ser los creadores del conjunto de datos, como fue el caso de las hojas de datos de ejemplo que creamos como parte de nuestro proceso de desarrollo.