paint-brush
Standardiser la documentation des ensembles de données pour améliorer les résultats de l'apprentissage automatiquepar@textmodels
1,654 lectures
1,654 lectures

Standardiser la documentation des ensembles de données pour améliorer les résultats de l'apprentissage automatique

Trop long; Pour lire

Les fiches techniques des ensembles de données visent à documenter la création et l'utilisation d'ensembles de données d'apprentissage automatique afin d'améliorer la transparence, la responsabilité et d'atténuer les biais dans les modèles d'IA.
featured image - Standardiser la documentation des ensembles de données pour améliorer les résultats de l'apprentissage automatique
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Auteurs:

(1) TIMNIT GEBRU, Noir en IA ;

(2) JAMIE MORGENSTERN, Université de Washington ;

(3) BRIANA VECCHIONE, Université Cornell ;

(4) JENNIFER WORTMAN VAUGHAN, Microsoft Research ;

(5) HANNA WALLACH, Microsoft Research ;

(6) HAL DAUMÉ III, Microsoft Research ; Université du Maryland ;

(7) KATE CRAWFORD, Microsoft Research.

Tableau des liens

1. Introduction

1.1 Objectifs

2 Processus de développement

3 questions et flux de travail

3.1 Motivations

3.2 Composition

3.3 Processus de collecte

3.4 Prétraitement/nettoyage/étiquetage

3.5 Utilisations

3.6 Répartition

3.7 Entretien

4 Impact et défis

Remerciements et références

annexe

1.1 Objectifs

Les fiches techniques pour les ensembles de données sont destinées à répondre aux besoins de deux groupes de parties prenantes clés : les créateurs d'ensembles de données et les consommateurs d'ensembles de données. Pour les créateurs d’ensembles de données, l’objectif principal est d’encourager une réflexion approfondie sur le processus de création, de distribution et de maintenance d’un ensemble de données, y compris les hypothèses sous-jacentes, les risques ou préjudices potentiels et les implications de l’utilisation. Pour les consommateurs d’ensembles de données, l’objectif principal est de s’assurer qu’ils disposent des informations dont ils ont besoin pour prendre des décisions éclairées concernant l’utilisation d’un ensemble de données. La transparence de la part des créateurs d'ensembles de données est nécessaire pour que les consommateurs d'ensembles de données soient suffisamment bien informés pour pouvoir sélectionner les ensembles de données appropriés pour les tâches qu'ils ont choisies et éviter toute utilisation abusive involontaire.[1]


Au-delà de ces deux groupes de parties prenantes clés, les fiches techniques des ensembles de données peuvent être utiles aux décideurs politiques, aux défenseurs des droits des consommateurs, aux journalistes d'investigation, aux personnes dont les données sont incluses dans des ensembles de données et aux personnes susceptibles d'être influencées par des modèles formés ou évalués à l'aide d'ensembles de données. Ils servent également un objectif secondaire consistant à faciliter une plus grande reproductibilité des résultats de l'apprentissage automatique : les chercheurs et les praticiens sans accès à un ensemble de données peuvent être en mesure d'utiliser les informations contenues dans sa fiche technique pour créer des ensembles de données alternatifs présentant des caractéristiques similaires.


Bien que nous fournissions un ensemble de questions conçues pour obtenir les informations que peut contenir une fiche technique pour un ensemble de données, ces questions ne sont pas destinées à être prescriptives. En effet, nous nous attendons à ce que les fiches techniques varient nécessairement en fonction de facteurs tels que le domaine ou l'infrastructure organisationnelle et les flux de travail existants. Par exemple, certaines questions sont appropriées pour les chercheurs universitaires publiant publiquement des ensembles de données dans le but de permettre des recherches futures, mais moins pertinentes pour les équipes produit créant des ensembles de données internes pour former des modèles propriétaires. Comme autre exemple, Bender et Friedman [2] présentent une proposition similaire aux feuilles de données pour les ensembles de données spécifiquement destinés aux ensembles de données basés sur le langage. Leurs questions peuvent être naturellement intégrées dans une fiche technique pour un ensemble de données linguistiques, le cas échéant.


Nous soulignons que le processus de création d’une fiche technique n’a pas vocation à être automatisé. Bien que les processus de documentation automatisés soient pratiques, ils vont à l’encontre de notre objectif d’encourager les créateurs d’ensembles de données à réfléchir attentivement au processus de création, de distribution et de maintenance d’un ensemble de données.


Cet article est disponible sur arxiv sous licence CC 4.0.


[1] Nous notons que dans certains cas, les personnes qui créent une feuille de données pour un ensemble de données peuvent ne pas être les créateurs de l'ensemble de données, comme ce fut le cas avec les exemples de fiches de données que nous avons créées dans le cadre de notre processus de développement.