Авторы:
(1) ТИМНИТ ГЕБРУ, черный в AI;
(2) ДЖЕЙМИ МОРГЕНШТЕРН, Вашингтонский университет;
(3) БРИАНА ВЕККЬОНЕ, Корнельский университет;
(4) ДЖЕННИФЕР УОРТМАН ВОАН, Microsoft Research;
(5) ХАННА ВАЛЛАХ, Microsoft Research;
(6) ХАЛ ДАУМЕ III, Microsoft Research; Университет Мэриленда;
(7) КЕЙТ КРОУФОРД, Microsoft Research.
3.4 Предварительная обработка/очистка/маркировка
Таблицы данных для наборов данных предназначены для удовлетворения потребностей двух ключевых групп заинтересованных сторон: создателей наборов данных и потребителей наборов данных. Основная цель создателей наборов данных — побудить к тщательному анализу процесса создания, распространения и обслуживания набора данных, включая любые лежащие в его основе предположения, потенциальные риски или вред, а также последствия использования. Для потребителей наборов данных основная цель — обеспечить наличие информации, необходимой для принятия обоснованных решений об использовании набора данных. Прозрачность со стороны создателей наборов данных необходима для того, чтобы потребители наборов данных были достаточно хорошо информированы, чтобы они могли выбирать подходящие наборы данных для выбранных ими задач и избегать непреднамеренного неправильного использования.[1]
Помимо этих двух ключевых групп заинтересованных сторон, таблицы данных для наборов данных могут быть ценными для политиков, защитников прав потребителей, журналистов-расследователей, лиц, чьи данные включены в наборы данных, а также лиц, на которых могут повлиять модели, обученные или оцененные с использованием наборов данных. Они также служат вторичной цели, заключающейся в обеспечении большей воспроизводимости результатов машинного обучения: исследователи и практики, не имеющие доступа к набору данных, могут использовать информацию в его таблице данных для создания альтернативных наборов данных со схожими характеристиками.
Хотя мы предоставляем набор вопросов, предназначенных для получения информации, которую может содержать таблица данных для набора данных, эти вопросы не носят предписывающий характер. Действительно, мы ожидаем, что таблицы данных обязательно будут различаться в зависимости от таких факторов, как предметная область или существующая организационная инфраструктура и рабочие процессы. Например, некоторые вопросы подходят для академических исследователей, публично публикующих наборы данных с целью обеспечения возможности будущих исследований, но менее актуальны для продуктовых команд, создающих внутренние наборы данных для обучения собственных моделей. В качестве другого примера Бендер и Фридман [2] излагают предложение, подобное таблицам данных для наборов данных, специально предназначенных для языковых наборов данных. Их вопросы могут быть естественным образом интегрированы в таблицу данных для языкового набора данных, если это необходимо.
Подчеркнем, что процесс создания таблицы данных не предполагается автоматизировать. Хотя процессы автоматизированного документирования удобны, они противоречат нашей цели — побудить создателей наборов данных тщательно размышлять над процессом создания, распространения и обслуживания набора данных.
Этот документ доступен на arxiv под лицензией CC 4.0.
[1] Мы отмечаем, что в некоторых случаях люди, создающие таблицу данных для набора данных, могут не быть создателями набора данных, как это было в случае с примерами таблиц данных, которые мы создали в рамках нашего процесса разработки.