paint-brush
मशीन लर्निंग परिणामों को बेहतर बनाने के लिए डेटासेट दस्तावेज़ीकरण को मानकीकृत करनाद्वारा@textmodels
1,654 रीडिंग
1,654 रीडिंग

मशीन लर्निंग परिणामों को बेहतर बनाने के लिए डेटासेट दस्तावेज़ीकरण को मानकीकृत करना

द्वारा Writings, Papers and Blogs on Text Models2m2024/06/10
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

डेटासेट के लिए डेटाशीट का उद्देश्य मशीन लर्निंग डेटासेट के निर्माण और उपयोग का दस्तावेजीकरण करना है, ताकि पारदर्शिता, जवाबदेही बढ़ाई जा सके और AI मॉडल में पूर्वाग्रहों को कम किया जा सके।
featured image - मशीन लर्निंग परिणामों को बेहतर बनाने के लिए डेटासेट दस्तावेज़ीकरण को मानकीकृत करना
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) टिमनिट गेब्रु, एआई में ब्लैक;

(2) जेमी मॉर्गनस्टर्न, वाशिंगटन विश्वविद्यालय;

(3) ब्रायना वेचियोन, कॉर्नेल विश्वविद्यालय;

(4) जेनिफर वॉर्टमैन वॉन, माइक्रोसॉफ्ट रिसर्च;

(5) हना वलाच, माइक्रोसॉफ्ट रिसर्च;

(6) एचएएल दौमे III, माइक्रोसॉफ्ट रिसर्च; मैरीलैंड विश्वविद्यालय;

(7) केट क्रॉफर्ड, माइक्रोसॉफ्ट रिसर्च।

लिंक की तालिका

1 परिचय

1.1 उद्देश्य

2 विकास प्रक्रिया

3 प्रश्न और कार्यप्रवाह

3.1 प्रेरणा

3.2 रचना

3.3 संग्रहण प्रक्रिया

3.4 प्रीप्रोसेसिंग/सफाई/लेबलिंग

3.5 उपयोग

3.6 वितरण

3.7 रखरखाव

4 प्रभाव और चुनौतियाँ

आभार और संदर्भ

अनुबंध

1.1 उद्देश्य

डेटासेट के लिए डेटाशीट का उद्देश्य दो प्रमुख हितधारक समूहों की ज़रूरतों को पूरा करना है: डेटासेट निर्माता और डेटासेट उपभोक्ता। डेटासेट निर्माताओं के लिए, प्राथमिक उद्देश्य डेटासेट बनाने, वितरित करने और बनाए रखने की प्रक्रिया पर सावधानीपूर्वक चिंतन को प्रोत्साहित करना है, जिसमें किसी भी अंतर्निहित धारणा, संभावित जोखिम या नुकसान और उपयोग के निहितार्थ शामिल हैं। डेटासेट उपभोक्ताओं के लिए, प्राथमिक उद्देश्य यह सुनिश्चित करना है कि उनके पास डेटासेट का उपयोग करने के बारे में सूचित निर्णय लेने के लिए आवश्यक जानकारी है। डेटासेट निर्माताओं की ओर से पारदर्शिता आवश्यक है ताकि डेटासेट उपभोक्ताओं को पर्याप्त रूप से सूचित किया जा सके ताकि वे अपने चुने हुए कार्यों के लिए उपयुक्त डेटासेट का चयन कर सकें और अनजाने में दुरुपयोग से बच सकें।[1]


इन दो प्रमुख हितधारक समूहों के अलावा, डेटासेट के लिए डेटाशीट नीति निर्माताओं, उपभोक्ता अधिवक्ताओं, खोजी पत्रकारों, ऐसे व्यक्तियों के लिए मूल्यवान हो सकती है जिनका डेटा डेटासेट में शामिल है, और ऐसे व्यक्ति जो डेटासेट का उपयोग करके प्रशिक्षित या मूल्यांकन किए गए मॉडल से प्रभावित हो सकते हैं। वे मशीन लर्निंग परिणामों की अधिक पुनरुत्पादकता को सुविधाजनक बनाने के एक द्वितीयक उद्देश्य की भी पूर्ति करते हैं: डेटासेट तक पहुँच के बिना शोधकर्ता और व्यवसायी समान विशेषताओं वाले वैकल्पिक डेटासेट बनाने के लिए इसकी डेटाशीट में जानकारी का उपयोग करने में सक्षम हो सकते हैं।


हालाँकि हम डेटासेट के लिए डेटाशीट में मौजूद जानकारी को जानने के लिए डिज़ाइन किए गए प्रश्नों का एक सेट प्रदान करते हैं, लेकिन इन प्रश्नों का उद्देश्य निर्देशात्मक होना नहीं है। वास्तव में, हम उम्मीद करते हैं कि डोमेन या मौजूदा संगठनात्मक बुनियादी ढाँचे और वर्कफ़्लो जैसे कारकों के आधार पर डेटाशीट आवश्यक रूप से भिन्न होगी। उदाहरण के लिए, कुछ प्रश्न अकादमिक शोधकर्ताओं के लिए भविष्य के शोध को सक्षम करने के उद्देश्य से सार्वजनिक रूप से डेटासेट जारी करने के लिए उपयुक्त हैं, लेकिन मालिकाना मॉडल के प्रशिक्षण के लिए आंतरिक डेटासेट बनाने वाली उत्पाद टीमों के लिए कम प्रासंगिक हैं। एक अन्य उदाहरण के रूप में, बेंडर और फ्रीडमैन [2] भाषा-आधारित डेटासेट के लिए विशेष रूप से लक्षित डेटासेट के लिए डेटाशीट के समान एक प्रस्ताव की रूपरेखा तैयार करते हैं। उनके प्रश्नों को स्वाभाविक रूप से भाषा-आधारित डेटासेट के लिए डेटाशीट में उचित रूप से एकीकृत किया जा सकता है।


हम इस बात पर ज़ोर देते हैं कि डेटाशीट बनाने की प्रक्रिया को स्वचालित करने का इरादा नहीं है। हालाँकि स्वचालित दस्तावेज़ीकरण प्रक्रियाएँ सुविधाजनक हैं, लेकिन वे डेटासेट बनाने वालों को डेटासेट बनाने, वितरित करने और बनाए रखने की प्रक्रिया पर सावधानीपूर्वक विचार करने के लिए प्रोत्साहित करने के हमारे उद्देश्य के विपरीत हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] हम देखते हैं कि कुछ मामलों में, डेटासेट के लिए डेटाशीट बनाने वाले लोग डेटासेट निर्माता नहीं हो सकते हैं, जैसा कि उदाहरण डेटाशीट के मामले में था जिसे हमने अपनी विकास प्रक्रिया के हिस्से के रूप में बनाया था।