paint-brush
Стандартизация документации наборов данных для улучшения результатов машинного обученияк@textmodels
1,654 чтения
1,654 чтения

Стандартизация документации наборов данных для улучшения результатов машинного обучения

Слишком долго; Читать

Таблицы данных для наборов данных предназначены для документирования создания и использования наборов данных машинного обучения для повышения прозрачности, подотчетности и уменьшения предвзятости в моделях ИИ.
featured image - Стандартизация документации наборов данных для улучшения результатов машинного обучения
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Авторы:

(1) ТИМНИТ ГЕБРУ, черный в AI;

(2) ДЖЕЙМИ МОРГЕНШТЕРН, Вашингтонский университет;

(3) БРИАНА ВЕККЬОНЕ, Корнельский университет;

(4) ДЖЕННИФЕР УОРТМАН ВОАН, Microsoft Research;

(5) ХАННА ВАЛЛАХ, Microsoft Research;

(6) ХАЛ ДАУМЕ III, Microsoft Research; Университет Мэриленда;

(7) КЕЙТ КРОУФОРД, Microsoft Research.

Таблица ссылок

1. Введение

1.1 Цели

2 Процесс разработки

3 вопроса и рабочий процесс

3.1 Мотивация

3.2 Состав

3.3 Процесс сбора

3.4 Предварительная обработка/очистка/маркировка

3.5 Использование

3.6 Распространение

3.7 Техническое обслуживание

4 Влияние и проблемы

Благодарности и ссылки

Приложение

1.1 Цели

Таблицы данных для наборов данных предназначены для удовлетворения потребностей двух ключевых групп заинтересованных сторон: создателей наборов данных и потребителей наборов данных. Основная цель создателей наборов данных — побудить к тщательному анализу процесса создания, распространения и обслуживания набора данных, включая любые лежащие в его основе предположения, потенциальные риски или вред, а также последствия использования. Для потребителей наборов данных основная цель — обеспечить наличие информации, необходимой для принятия обоснованных решений об использовании набора данных. Прозрачность со стороны создателей наборов данных необходима для того, чтобы потребители наборов данных были достаточно хорошо информированы, чтобы они могли выбирать подходящие наборы данных для выбранных ими задач и избегать непреднамеренного неправильного использования.[1]


Помимо этих двух ключевых групп заинтересованных сторон, таблицы данных для наборов данных могут быть ценными для политиков, защитников прав потребителей, журналистов-расследователей, лиц, чьи данные включены в наборы данных, а также лиц, на которых могут повлиять модели, обученные или оцененные с использованием наборов данных. Они также служат вторичной цели, заключающейся в обеспечении большей воспроизводимости результатов машинного обучения: исследователи и практики, не имеющие доступа к набору данных, могут использовать информацию в его таблице данных для создания альтернативных наборов данных со схожими характеристиками.


Хотя мы предоставляем набор вопросов, предназначенных для получения информации, которую может содержать таблица данных для набора данных, эти вопросы не носят предписывающий характер. Действительно, мы ожидаем, что таблицы данных обязательно будут различаться в зависимости от таких факторов, как предметная область или существующая организационная инфраструктура и рабочие процессы. Например, некоторые вопросы подходят для академических исследователей, публично публикующих наборы данных с целью обеспечения возможности будущих исследований, но менее актуальны для продуктовых команд, создающих внутренние наборы данных для обучения собственных моделей. В качестве другого примера Бендер и Фридман [2] излагают предложение, подобное таблицам данных для наборов данных, специально предназначенных для языковых наборов данных. Их вопросы могут быть естественным образом интегрированы в таблицу данных для языкового набора данных, если это необходимо.


Подчеркнем, что процесс создания таблицы данных не предполагается автоматизировать. Хотя процессы автоматизированного документирования удобны, они противоречат нашей цели — побудить создателей наборов данных тщательно размышлять над процессом создания, распространения и обслуживания набора данных.


Этот документ доступен на arxiv под лицензией CC 4.0.


[1] Мы отмечаем, что в некоторых случаях люди, создающие таблицу данных для набора данных, могут не быть создателями набора данных, как это было в случае с примерами таблиц данных, которые мы создали в рамках нашего процесса разработки.