paint-brush
标准化数据集文档以改善机器学习成果经过@textmodels
1,654 讀數
1,654 讀數

标准化数据集文档以改善机器学习成果

太長; 讀書

数据集的数据表旨在记录机器学习数据集的创建和使用,以增强透明度和责任感并减轻人工智能模型的偏见。
featured image - 标准化数据集文档以改善机器学习成果
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

作者:

(1)TIMNIT GEBRU,AI 中的黑色;

(2) 杰米·摩根斯特恩,华盛顿大学

(3)布里安娜·维奇奥内(BRIANA VECCHIONE),康奈尔大学

(4) 詹妮弗·沃特曼·沃恩(JENNIFER WORTMAN VAUGHAN),微软研究院

(5) HANNA WALLACH,微软研究院

(6) HAL DAUMÉ III,微软研究院;马里兰大学

(7)凯特·克劳福德,微软研究院。

链接表

1 简介

1.1 目标

2 开发过程

3 问题和工作流程

3.1 动机

3.2 组成

3.3 收集流程

3.4 预处理/清洁/标记

3.5 用途

3.6 分布

3.7 维护

4 影响与挑战

致谢和参考文献

附录

1.1 目标

数据集的数据表旨在满足两个主要利益相关者群体的需求:数据集创建者和数据集消费者。对于数据集创建者来说,主要目标是鼓励他们仔细思考创建、分发和维护数据集的过程,包括任何基本假设、潜在风险或危害以及使用影响。对于数据集消费者来说,主要目标是确保他们拥有所需的信息,以便就使用数据集做出明智的决定。数据集创建者的透明度是必要的,这样数据集消费者才能充分了解情况,为他们选择的任务选择合适的数据集,避免无意的滥用。[1]


除了这两个关键利益相关者群体之外,数据集的数据表可能对政策制定者、消费者权益倡导者、调查记者、其数据包含在数据集中的个人以及可能受到使用数据集训练或评估的模型影响的个人都很有价值。它们还有一个次要目标,即提高机器学习结果的可重复性:无法访问数据集的研究人员和从业者可能能够使用其数据表中的信息来创建具有类似特征的替代数据集。


虽然我们提供了一组旨在引出数据集数据表可能包含的信息的问题,但这些问题并非旨在规定性。事实上,我们预计数据表必然会因领域或现有组织基础设施和工作流程等因素而有所不同。例如,有些问题适合公开发布数据集以支持未来研究的学术研究人员,但对于创建内部数据集以训练专有模型的产品团队来说,这些问题就不那么重要了。再举一个例子,Bender 和 Friedman [2] 提出了一个类似于专门用于基于语言的数据集的数据表的提案。他们的问题可以根据需要自然地集成到基于语言的数据集的数据表中。


我们强调,创建数据表的过程并非旨在实现自动化。虽然自动化文档流程很方便,但它们违背了我们的目标,即鼓励数据集创建者仔细反思创建、分发和维护数据集的过程。



[1] 我们注意到,在某些情况下,为数据集创建数据表的人可能不是数据集的创建者,就像我们在开发过程中创建的示例数据表一样。