paint-brush
データセットのドキュメントを標準化して機械学習の成果を向上させる@textmodels
1,654 測定値
1,654 測定値

データセットのドキュメントを標準化して機械学習の成果を向上させる

長すぎる; 読むには

データセットのデータシートは、機械学習データセットの作成と使用を文書化して、透明性と説明責任を強化し、AI モデルのバイアスを軽減することを目的としています。
featured image - データセットのドキュメントを標準化して機械学習の成果を向上させる
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)AI部門黒のティムニット・ゲブル選手

(2)ジェイミー・モーゲンスターン、ワシントン大学

(3)ブリアナ・ベッキオーネ、コーネル大学

(4)ジェニファー・ワートマン・ヴォーン、マイクロソフトリサーチ

(5)マイクロソフトリサーチのハンナ・ウォラック氏

(6)HAL DAUMÉ III、マイクロソフトリサーチ、メリーランド大学

(7)ケイト・クロフォード、マイクロソフトリサーチ

リンク一覧

1 はじめに

1.1 目的

2 開発プロセス

3つの質問とワークフロー

3.1 動機

3.2 構成

3.3 収集プロセス

3.4 前処理/洗浄/ラベル付け

3.5 用途

3.6 配布

3.7 メンテナンス

4 影響と課題

謝辞と参考文献

付録

1.1 目的

データセットのデータシートは、データセット作成者とデータセット消費者という 2 つの主要な利害関係者グループのニーズに対応することを目的としています。データセット作成者にとっての主な目的は、データセットの作成、配布、維持のプロセスについて、根底にある前提、潜在的なリスクや損害、使用の影響など、慎重に検討するよう促すことです。データセット消費者にとっての主な目的は、データセットの使用について十分な情報に基づいた決定を下すために必要な情報を確実に得られるようにすることです。データセット作成者側の透明性は、データセット消費者が十分な情報を得て、選択したタスクに適したデータセットを選択し、意図しない誤用を回避するために不可欠です。[1]


これら 2 つの主要な利害関係者グループ以外にも、データセットのデータシートは、政策立案者、消費者擁護団体、調査報道ジャーナリスト、データセットにデータが含まれる個人、データセットを使用してトレーニングまたは評価されたモデルの影響を受ける可能性のある個人にとって価値がある可能性があります。また、データセットのデータシートは、機械学習の結果の再現性を高めるという二次的な目的も果たします。データセットにアクセスできない研究者や実務者は、データシートの情報を使用して、同様の特性を持つ代替データセットを作成できる可能性があります。


データセットのデータシートに含まれる可能性のある情報を引き出すために設計された一連の質問を提供していますが、これらの質問は規範的なものではありません。実際、データシートは、ドメインや既存の組織インフラストラクチャやワークフローなどの要因に応じて必然的に変化すると予想されます。たとえば、いくつかの質問は、将来の研究を可能にするためにデータセットを公開する学術研究者には適していますが、独自のモデルをトレーニングするための内部データセットを作成する製品チームにはあまり関係がありません。別の例として、BenderとFriedman [2]は、言語ベースのデータセット専用のデータセットのデータシートに似た提案を概説しています。彼らの質問は、必要に応じて、言語ベースのデータセットのデータシートに自然に統合される可能性があります。


データシートの作成プロセスは自動化を意図したものではないことを強調します。自動化されたドキュメント作成プロセスは便利ですが、データセットの作成者にデータセットの作成、配布、維持のプロセスを慎重に検討するよう促すという私たちの目的に反します。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[1] 開発プロセスの一環として作成したサンプルデータシートの場合のように、データセットのデータシートを作成する人がデータセットの作成者ではない場合があることに注意してください。