Autoren:
(1) TIMNIT GEBRU, Schwarz in AI;
(2) JAMIE MORGENSTERN, University of Washington;
(3) BRIANA VECCHIONE, Cornell University;
(4) JENNIFER WORTMAN VAUGHAN, Microsoft Research;
(5) HANNA WALLACH, Microsoft Research;
(6) HAL DAUMÉ III, Microsoft Research; Universität Maryland;
(7) KATE CRAWFORD, Microsoft Research.
3.4 Vorbehandlung/Reinigung/Kennzeichnung
4 Auswirkungen und Herausforderungen
Datenblätter für Datensätze sollen die Bedürfnisse zweier wichtiger Interessengruppen ansprechen: der Ersteller und der Verbraucher von Datensätzen. Für die Ersteller von Datensätzen besteht das Hauptziel darin, eine sorgfältige Reflexion über den Prozess der Erstellung, Verteilung und Pflege eines Datensatzes zu fördern, einschließlich aller zugrunde liegenden Annahmen, potenziellen Risiken oder Schäden und Auswirkungen der Verwendung. Für die Verbraucher von Datensätzen besteht das Hauptziel darin, sicherzustellen, dass sie über die Informationen verfügen, die sie benötigen, um fundierte Entscheidungen über die Verwendung eines Datensatzes zu treffen. Transparenz seitens der Ersteller von Datensätzen ist notwendig, damit die Verbraucher von Datensätzen ausreichend informiert sind, um geeignete Datensätze für ihre gewählten Aufgaben auswählen und unbeabsichtigten Missbrauch vermeiden zu können.[1]
Über diese beiden wichtigen Interessengruppen hinaus können Datenblätter für Datensätze für politische Entscheidungsträger, Verbraucherschützer, investigative Journalisten, Personen, deren Daten in Datensätzen enthalten sind, und Personen, die von Modellen betroffen sein könnten, die mit Datensätzen trainiert oder ausgewertet wurden, von Nutzen sein. Sie dienen auch dem sekundären Ziel, eine bessere Reproduzierbarkeit von Ergebnissen des maschinellen Lernens zu ermöglichen: Forscher und Praktiker ohne Zugriff auf einen Datensatz können die Informationen in seinem Datenblatt möglicherweise verwenden, um alternative Datensätze mit ähnlichen Merkmalen zu erstellen.
Obwohl wir eine Reihe von Fragen bereitstellen, die darauf ausgelegt sind, die Informationen zu ermitteln, die ein Datenblatt für einen Datensatz enthalten könnte, sind diese Fragen nicht als verbindlich zu betrachten. Tatsächlich erwarten wir, dass Datenblätter zwangsläufig je nach Faktoren wie der Domäne oder der vorhandenen organisatorischen Infrastruktur und den Arbeitsabläufen variieren werden. Beispielsweise sind einige der Fragen für akademische Forscher geeignet, die Datensätze öffentlich freigeben, um zukünftige Forschung zu ermöglichen, aber weniger relevant für Produktteams, die interne Datensätze zum Trainieren proprietärer Modelle erstellen. Ein weiteres Beispiel: Bender und Friedman [2] skizzieren einen Vorschlag ähnlich Datenblättern für Datensätze, der speziell für sprachbasierte Datensätze gedacht ist. Ihre Fragen können bei Bedarf natürlich in ein Datenblatt für einen sprachbasierten Datensatz integriert werden.
Wir betonen, dass der Prozess der Datenblatterstellung nicht automatisiert werden soll. Automatisierte Dokumentationsprozesse sind zwar praktisch, laufen jedoch unserem Ziel zuwider, die Ersteller von Datensätzen zu ermutigen, den Prozess der Erstellung, Verteilung und Pflege eines Datensatzes sorgfältig zu reflektieren.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .
[1] Wir weisen darauf hin, dass in einigen Fällen die Personen, die ein Datenblatt für einen Datensatz erstellen, nicht unbedingt die Ersteller des Datensatzes sind. Dies war beispielsweise bei den Beispieldatenblättern der Fall, die wir im Rahmen unseres Entwicklungsprozesses erstellt haben.