paint-brush
기계 학습 결과 개선을 위한 데이터세트 문서 표준화~에 의해@textmodels
1,654 판독값
1,654 판독값

기계 학습 결과 개선을 위한 데이터세트 문서 표준화

너무 오래; 읽다

데이터세트용 데이터시트는 투명성과 책임성을 강화하고 AI 모델의 편향을 완화하기 위해 기계 학습 데이터세트의 생성 및 사용을 문서화하는 것을 목표로 합니다.
featured image - 기계 학습 결과 개선을 위한 데이터세트 문서 표준화
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

저자:

(1) TIMNIT GEBRU, AI의 흑인;

(2) 워싱턴 대학의 JAMIE MORGENSTERN;

(3) 코넬대학교 브리아나 베치오네(BRIANA VECCHIONE);

(4) 제니퍼 워트먼 본(JENNIFER WORTMAN VAUGHAN), 마이크로소프트 리서치;

(5) 한나 왈라흐(HANNA WALLACH), 마이크로소프트 리서치;

(6) HAL DAUMÉ III, 마이크로소프트 리서치; 메릴랜드 대학교;

(7) 케이트 크로포드, 마이크로소프트 리서치.

링크 표

1. 소개

1.1 목표

2 개발 과정

3가지 질문과 작업 흐름

3.1 동기부여

3.2 구성

3.3 수집 프로세스

3.4 전처리/세척/라벨링

3.5 용도

3.6 배포

3.7 유지보수

4 영향과 과제

감사의 말과 참고자료

부록

1.1 목표

데이터세트용 데이터시트는 데이터세트 작성자와 데이터세트 소비자라는 두 가지 주요 이해관계자 그룹의 요구 사항을 해결하기 위해 만들어졌습니다. 데이터 세트 작성자의 주요 목표는 기본 가정, 잠재적 위험이나 피해, 사용에 따른 영향을 포함하여 데이터 세트를 생성, 배포 및 유지 관리하는 프로세스에 대한 신중한 성찰을 장려하는 것입니다. 데이터세트 소비자의 주요 목표는 데이터세트 사용에 관해 정보에 입각한 결정을 내리는 데 필요한 정보를 확보하는 것입니다. 데이터세트 작성자의 투명성은 데이터세트 소비자가 선택한 작업에 적합한 데이터세트를 선택하고 의도하지 않은 오용을 방지할 수 있다는 사실을 충분히 잘 알 수 있도록 하는 데 필요합니다.[1]


이 두 가지 주요 이해관계자 그룹 외에도 데이터세트에 대한 데이터시트는 정책 입안자, 소비자 옹호자, 조사 저널리스트, 데이터세트에 데이터가 포함된 개인, 데이터세트를 사용하여 훈련되거나 평가된 모델의 영향을 받을 수 있는 개인에게 유용할 수 있습니다. 이는 또한 기계 학습 결과의 재현성을 높이는 두 번째 목표를 제공합니다. 데이터 세트에 액세스할 수 없는 연구자와 실무자는 데이터 시트의 정보를 사용하여 유사한 특성을 가진 대체 데이터 세트를 만들 수 있습니다.


데이터세트에 대한 데이터시트에 포함될 수 있는 정보를 도출하기 위해 고안된 일련의 질문을 제공하지만 이러한 질문은 규정을 위한 것이 아닙니다. 실제로 데이터시트는 도메인이나 기존 조직 인프라 및 워크플로와 같은 요소에 따라 달라질 것으로 예상됩니다. 예를 들어, 일부 질문은 학술 연구자가 향후 연구를 활성화할 목적으로 데이터 세트를 공개적으로 공개하는 데 적합하지만 독점 모델 교육을 위해 내부 데이터 세트를 생성하는 제품 팀에는 적합하지 않습니다. 또 다른 예로 Bender와 Friedman [2]은 언어 기반 데이터 세트를 위해 특별히 고안된 데이터 세트에 대한 데이터 시트와 유사한 제안을 간략하게 설명합니다. 그들의 질문은 적절하게 언어 기반 데이터세트의 데이터시트에 자연스럽게 통합될 수 있습니다.


우리는 데이터시트를 생성하는 프로세스가 자동화되도록 의도된 것이 아니라는 점을 강조합니다. 자동화된 문서화 프로세스는 편리하지만 데이터세트 작성자가 데이터세트 생성, 배포 및 유지 관리 프로세스를 신중하게 고려하도록 장려하려는 우리의 목표에 어긋납니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] 어떤 경우에는 개발 프로세스의 일부로 만든 예제 데이터시트의 경우처럼 데이터세트에 대한 데이터시트를 만드는 사람이 데이터세트 작성자가 아닐 수도 있습니다.