paint-brush
মেশিন লার্নিং ফলাফল উন্নত করার জন্য ডেটাসেট ডকুমেন্টেশনের মানসম্মতকরণদ্বারা@textmodels
1,651 পড়া
1,651 পড়া

মেশিন লার্নিং ফলাফল উন্নত করার জন্য ডেটাসেট ডকুমেন্টেশনের মানসম্মতকরণ

দ্বারা Writings, Papers and Blogs on Text Models2m2024/06/10
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ডেটাসেটগুলির জন্য ডেটাশিটগুলির লক্ষ্য হল AI মডেলগুলিতে স্বচ্ছতা, জবাবদিহিতা বৃদ্ধি এবং পক্ষপাত কমানোর জন্য মেশিন লার্নিং ডেটাসেট তৈরি এবং ব্যবহার নথিভুক্ত করা।
featured image - মেশিন লার্নিং ফলাফল উন্নত করার জন্য ডেটাসেট ডকুমেন্টেশনের মানসম্মতকরণ
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) TIMNIT GEBRU, AI তে কালো;

(2) JAMIE MORGENSTERN, ওয়াশিংটন বিশ্ববিদ্যালয়;

(3) BRIANA VECHIONE, Cornell University;

(৪) জেনিফার ওয়ার্টম্যান ভগান, মাইক্রোসফট রিসার্চ;

(5) হান্না ওয়ালাচ, মাইক্রোসফট রিসার্চ;

(6) HAL DAUMÉ III, Microsoft Research; মেরিল্যান্ড বিশ্ববিদ্যালয়;

(7) KATE CRAWFORD, Microsoft Research.

লিঙ্কের টেবিল

1। পরিচিতি

1.1 উদ্দেশ্য

2 উন্নয়ন প্রক্রিয়া

3 প্রশ্ন এবং কর্মপ্রবাহ

3.1 প্রেরণা

3.2 রচনা

3.3 সংগ্রহ প্রক্রিয়া

3.4 প্রিপ্রসেসিং/ক্লিনিং/লেবেলিং

3.5 ব্যবহার

3.6 বিতরণ

3.7 রক্ষণাবেক্ষণ

4 প্রভাব এবং চ্যালেঞ্জ

স্বীকৃতি এবং রেফারেন্স

পরিশিষ্ট

1.1 উদ্দেশ্য

ডেটাসেটের জন্য ডেটাশিট দুটি মূল স্টেকহোল্ডার গ্রুপের চাহিদা পূরণের উদ্দেশ্যে তৈরি করা হয়েছে: ডেটাসেট নির্মাতা এবং ডেটাসেট ভোক্তা। ডেটাসেট নির্মাতাদের জন্য, প্রাথমিক উদ্দেশ্য হল কোনো অন্তর্নিহিত অনুমান, সম্ভাব্য ঝুঁকি বা ক্ষতি এবং ব্যবহারের প্রভাব সহ একটি ডেটাসেট তৈরি, বিতরণ এবং রক্ষণাবেক্ষণের প্রক্রিয়ার উপর সতর্ক প্রতিফলনকে উৎসাহিত করা। ডেটাসেট ভোক্তাদের জন্য, প্রাথমিক উদ্দেশ্য হল একটি ডেটাসেট ব্যবহার করার বিষয়ে সচেতন সিদ্ধান্ত নেওয়ার জন্য তাদের কাছে প্রয়োজনীয় তথ্য রয়েছে তা নিশ্চিত করা। ডেটাসেট নির্মাতাদের পক্ষ থেকে স্বচ্ছতা প্রয়োজনীয় যাতে ডেটাসেট ভোক্তারা তাদের নির্বাচিত কাজের জন্য উপযুক্ত ডেটাসেট নির্বাচন করতে পারে এবং অনিচ্ছাকৃত অপব্যবহার এড়াতে পারে।


এই দুটি মূল স্টেকহোল্ডার গোষ্ঠীর বাইরে, ডেটাসেটের ডেটাশিটগুলি নীতিনির্ধারক, ভোক্তা অ্যাডভোকেট, অনুসন্ধানী সাংবাদিক, ব্যক্তি যাদের ডেটা ডেটাসেটে অন্তর্ভুক্ত করা হয়েছে এবং ডেটাসেট ব্যবহার করে প্রশিক্ষিত বা মূল্যায়ন করা মডেলগুলির দ্বারা প্রভাবিত হতে পারে এমন ব্যক্তিদের জন্য মূল্যবান হতে পারে৷ তারা মেশিন লার্নিং ফলাফলের বৃহত্তর পুনরুত্পাদনযোগ্যতা সহজতর করার একটি মাধ্যমিক উদ্দেশ্যও পরিবেশন করে: গবেষক এবং অনুশীলনকারীরা ডেটাসেটে অ্যাক্সেস ছাড়াই একই বৈশিষ্ট্য সহ বিকল্প ডেটাসেট তৈরি করতে এর ডেটাশিটে তথ্য ব্যবহার করতে সক্ষম হতে পারে।


যদিও আমরা একটি ডেটাসেটের জন্য একটি ডেটাশিটে থাকতে পারে এমন তথ্য বের করার জন্য ডিজাইন করা প্রশ্নগুলির একটি সেট সরবরাহ করি, তবে এই প্রশ্নগুলি নির্দেশমূলক হওয়ার উদ্দেশ্যে নয়। প্রকৃতপক্ষে, আমরা আশা করি যে ডোমেন বা বিদ্যমান সাংগঠনিক অবকাঠামো এবং কর্মপ্রবাহের মতো কারণগুলির উপর নির্ভর করে ডেটাশিটগুলি অবশ্যই পরিবর্তিত হবে৷ উদাহরণ স্বরূপ, কিছু প্রশ্ন একাডেমিক গবেষকদের জন্য উপযুক্ত, যারা ভবিষ্যৎ গবেষণাকে সক্ষম করার উদ্দেশ্যে সর্বজনীনভাবে ডেটাসেট প্রকাশ করে, কিন্তু মালিকানা মডেল প্রশিক্ষণের জন্য অভ্যন্তরীণ ডেটাসেট তৈরি করা পণ্য দলের জন্য কম প্রাসঙ্গিক। আরেকটি উদাহরণ হিসেবে, বেন্ডার এবং ফ্রিডম্যান [২] ভাষা-ভিত্তিক ডেটাসেটের জন্য বিশেষভাবে অভিপ্রেত ডেটাসেটের জন্য ডেটাশিটের মতো একটি প্রস্তাবের রূপরেখা দেন। তাদের প্রশ্ন স্বাভাবিকভাবেই উপযুক্ত হিসাবে একটি ভাষা-ভিত্তিক ডেটাসেটের জন্য একটি ডেটাশিটে একত্রিত হতে পারে।


আমরা জোর দিয়েছি যে একটি ডেটাশীট তৈরির প্রক্রিয়াটি স্বয়ংক্রিয় হওয়ার উদ্দেশ্যে নয়। যদিও স্বয়ংক্রিয় ডকুমেন্টেশন প্রক্রিয়াগুলি সুবিধাজনক, তারা ডেটাসেট তৈরি, বিতরণ এবং রক্ষণাবেক্ষণের প্রক্রিয়াটিকে সাবধানে প্রতিফলিত করতে ডেটাসেট নির্মাতাদের উত্সাহিত করার আমাদের উদ্দেশ্যের বিপরীতে চলে।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] আমরা লক্ষ্য করি যে কিছু ক্ষেত্রে, লোকেরা একটি ডেটাসেটের জন্য একটি ডেটাশিট তৈরি করে তারা ডেটাসেট নির্মাতা নাও হতে পারে, যেমনটি উদাহরণ ডেটাশিটের ক্ষেত্রে ছিল যা আমরা আমাদের বিকাশ প্রক্রিয়ার অংশ হিসাবে তৈরি করেছি।