paint-brush
Chuẩn hóa tài liệu tập dữ liệu để cải thiện kết quả học máyby@textmodels
1,650
1,650

Chuẩn hóa tài liệu tập dữ liệu để cải thiện kết quả học máy

Bảng dữ liệu dành cho bộ dữ liệu nhằm mục đích ghi lại quá trình tạo và sử dụng bộ dữ liệu học máy để nâng cao tính minh bạch, trách nhiệm giải trình và giảm thiểu thành kiến trong các mô hình AI.
featured image - Chuẩn hóa tài liệu tập dữ liệu để cải thiện kết quả học máy
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

tác giả:

(1) TIMNIT GEBRU, Màu đen trong AI;

(2) JAMIE MORGENSTERN, Đại học Washington;

(3) BRIANA VECCHIONE, Đại học Cornell;

(4) JENNIFER WORTMAN VAUGHAN, Nghiên cứu của Microsoft;

(5) HANNA WALLACH, Nghiên cứu của Microsoft;

(6) HAL DAUMÉ III, Nghiên cứu của Microsoft; Đại học Maryland;

(7) KATE CRAWFORD, Nghiên cứu của Microsoft.

Bảng liên kết

1. Giới thiệu

1.1 Mục tiêu

2 Quá trình phát triển

3 câu hỏi và quy trình làm việc

3.1 Động lực

3.2 Thành phần

3.3 Quy trình thu thập

3.4 Sơ chế/làm sạch/ghi nhãn

3.5 Công dụng

3.6 Phân phối

3.7 Bảo trì

4 Tác động và thách thức

Lời cảm ơn và tài liệu tham khảo

ruột thừa

1.1 Mục tiêu

Bảng dữ liệu dành cho tập dữ liệu nhằm giải quyết nhu cầu của hai nhóm bên liên quan chính: người tạo tập dữ liệu và người sử dụng tập dữ liệu. Đối với người tạo tập dữ liệu, mục tiêu chính là khuyến khích sự phản ánh cẩn thận về quá trình tạo, phân phối và duy trì tập dữ liệu, bao gồm mọi giả định cơ bản, rủi ro hoặc tác hại tiềm ẩn cũng như tác động của việc sử dụng. Đối với người sử dụng tập dữ liệu, mục tiêu chính là đảm bảo họ có thông tin cần thiết để đưa ra quyết định sáng suốt về việc sử dụng tập dữ liệu. Sự minh bạch từ phía người tạo tập dữ liệu là cần thiết để người tiêu dùng tập dữ liệu được thông tin đầy đủ rằng họ có thể chọn tập dữ liệu phù hợp cho các nhiệm vụ đã chọn của mình và tránh lạm dụng ngoài ý muốn.[1]


Ngoài hai nhóm bên liên quan chính này, bảng dữ liệu cho bộ dữ liệu có thể có giá trị đối với các nhà hoạch định chính sách, người ủng hộ người tiêu dùng, nhà báo điều tra, cá nhân có dữ liệu được đưa vào bộ dữ liệu và những cá nhân có thể bị ảnh hưởng bởi các mô hình được đào tạo hoặc đánh giá bằng cách sử dụng bộ dữ liệu. Chúng cũng phục vụ mục tiêu thứ yếu là tạo điều kiện cho khả năng tái tạo cao hơn của kết quả học máy: các nhà nghiên cứu và người thực hành không có quyền truy cập vào tập dữ liệu có thể sử dụng thông tin trong biểu dữ liệu của mình để tạo các tập dữ liệu thay thế có đặc điểm tương tự.


Mặc dù chúng tôi cung cấp một bộ câu hỏi được thiết kế để gợi ra thông tin mà biểu dữ liệu cho một tập dữ liệu có thể chứa nhưng những câu hỏi này không nhằm mục đích mang tính quy tắc. Thật vậy, chúng tôi hy vọng rằng các bảng dữ liệu nhất thiết sẽ thay đổi tùy thuộc vào các yếu tố như miền hoặc cơ sở hạ tầng tổ chức và quy trình làm việc hiện có. Ví dụ: một số câu hỏi phù hợp với các nhà nghiên cứu hàn lâm phát hành công khai các bộ dữ liệu nhằm mục đích hỗ trợ nghiên cứu trong tương lai, nhưng ít phù hợp hơn với các nhóm sản phẩm tạo bộ dữ liệu nội bộ để đào tạo các mô hình độc quyền. Một ví dụ khác, Bender và Friedman [2] phác thảo một đề xuất tương tự như bảng dữ liệu cho các tập dữ liệu dành riêng cho các tập dữ liệu dựa trên ngôn ngữ. Các câu hỏi của họ có thể được tích hợp một cách tự nhiên vào biểu dữ liệu cho tập dữ liệu dựa trên ngôn ngữ nếu thích hợp.


Chúng tôi nhấn mạnh rằng quy trình tạo biểu dữ liệu không nhằm mục đích tự động hóa. Mặc dù quy trình ghi tài liệu tự động rất thuận tiện nhưng chúng đi ngược lại mục tiêu của chúng tôi là khuyến khích người tạo tập dữ liệu phản ánh cẩn thận về quy trình tạo, phân phối và duy trì tập dữ liệu.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.


[1] Chúng tôi lưu ý rằng trong một số trường hợp, những người tạo biểu dữ liệu cho tập dữ liệu có thể không phải là người tạo tập dữ liệu, như trường hợp của các bảng dữ liệu mẫu mà chúng tôi đã tạo trong quá trình phát triển của mình.