लेखक:
(1) टिमनिट गेब्रु, एआई में ब्लैक;
(2) जेमी मॉर्गनस्टर्न, वाशिंगटन विश्वविद्यालय;
(3) ब्रायना वेचियोन, कॉर्नेल विश्वविद्यालय;
(4) जेनिफर वॉर्टमैन वॉन, माइक्रोसॉफ्ट रिसर्च;
(5) हना वलाच, माइक्रोसॉफ्ट रिसर्च;
(6) एचएएल दौमे III, माइक्रोसॉफ्ट रिसर्च; मैरीलैंड विश्वविद्यालय;
(7) केट क्रॉफर्ड, माइक्रोसॉफ्ट रिसर्च।
3.4 प्रीप्रोसेसिंग/सफाई/लेबलिंग
डेटासेट के लिए डेटाशीट का उद्देश्य दो प्रमुख हितधारक समूहों की ज़रूरतों को पूरा करना है: डेटासेट निर्माता और डेटासेट उपभोक्ता। डेटासेट निर्माताओं के लिए, प्राथमिक उद्देश्य डेटासेट बनाने, वितरित करने और बनाए रखने की प्रक्रिया पर सावधानीपूर्वक चिंतन को प्रोत्साहित करना है, जिसमें किसी भी अंतर्निहित धारणा, संभावित जोखिम या नुकसान और उपयोग के निहितार्थ शामिल हैं। डेटासेट उपभोक्ताओं के लिए, प्राथमिक उद्देश्य यह सुनिश्चित करना है कि उनके पास डेटासेट का उपयोग करने के बारे में सूचित निर्णय लेने के लिए आवश्यक जानकारी है। डेटासेट निर्माताओं की ओर से पारदर्शिता आवश्यक है ताकि डेटासेट उपभोक्ताओं को पर्याप्त रूप से सूचित किया जा सके ताकि वे अपने चुने हुए कार्यों के लिए उपयुक्त डेटासेट का चयन कर सकें और अनजाने में दुरुपयोग से बच सकें।[1]
इन दो प्रमुख हितधारक समूहों के अलावा, डेटासेट के लिए डेटाशीट नीति निर्माताओं, उपभोक्ता अधिवक्ताओं, खोजी पत्रकारों, ऐसे व्यक्तियों के लिए मूल्यवान हो सकती है जिनका डेटा डेटासेट में शामिल है, और ऐसे व्यक्ति जो डेटासेट का उपयोग करके प्रशिक्षित या मूल्यांकन किए गए मॉडल से प्रभावित हो सकते हैं। वे मशीन लर्निंग परिणामों की अधिक पुनरुत्पादकता को सुविधाजनक बनाने के एक द्वितीयक उद्देश्य की भी पूर्ति करते हैं: डेटासेट तक पहुँच के बिना शोधकर्ता और व्यवसायी समान विशेषताओं वाले वैकल्पिक डेटासेट बनाने के लिए इसकी डेटाशीट में जानकारी का उपयोग करने में सक्षम हो सकते हैं।
हालाँकि हम डेटासेट के लिए डेटाशीट में मौजूद जानकारी को जानने के लिए डिज़ाइन किए गए प्रश्नों का एक सेट प्रदान करते हैं, लेकिन इन प्रश्नों का उद्देश्य निर्देशात्मक होना नहीं है। वास्तव में, हम उम्मीद करते हैं कि डोमेन या मौजूदा संगठनात्मक बुनियादी ढाँचे और वर्कफ़्लो जैसे कारकों के आधार पर डेटाशीट आवश्यक रूप से भिन्न होगी। उदाहरण के लिए, कुछ प्रश्न अकादमिक शोधकर्ताओं के लिए भविष्य के शोध को सक्षम करने के उद्देश्य से सार्वजनिक रूप से डेटासेट जारी करने के लिए उपयुक्त हैं, लेकिन मालिकाना मॉडल के प्रशिक्षण के लिए आंतरिक डेटासेट बनाने वाली उत्पाद टीमों के लिए कम प्रासंगिक हैं। एक अन्य उदाहरण के रूप में, बेंडर और फ्रीडमैन [2] भाषा-आधारित डेटासेट के लिए विशेष रूप से लक्षित डेटासेट के लिए डेटाशीट के समान एक प्रस्ताव की रूपरेखा तैयार करते हैं। उनके प्रश्नों को स्वाभाविक रूप से भाषा-आधारित डेटासेट के लिए डेटाशीट में उचित रूप से एकीकृत किया जा सकता है।
हम इस बात पर ज़ोर देते हैं कि डेटाशीट बनाने की प्रक्रिया को स्वचालित करने का इरादा नहीं है। हालाँकि स्वचालित दस्तावेज़ीकरण प्रक्रियाएँ सुविधाजनक हैं, लेकिन वे डेटासेट बनाने वालों को डेटासेट बनाने, वितरित करने और बनाए रखने की प्रक्रिया पर सावधानीपूर्वक विचार करने के लिए प्रोत्साहित करने के हमारे उद्देश्य के विपरीत हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] हम देखते हैं कि कुछ मामलों में, डेटासेट के लिए डेटाशीट बनाने वाले लोग डेटासेट निर्माता नहीं हो सकते हैं, जैसा कि उदाहरण डेटाशीट के मामले में था जिसे हमने अपनी विकास प्रक्रिया के हिस्से के रूप में बनाया था।