paint-brush
मशीन लर्निंग मॉडल बनाने के लिए 16 सर्वश्रेष्ठ स्केलेरन डेटासेटद्वारा@datasets
30,303 रीडिंग
30,303 रीडिंग

मशीन लर्निंग मॉडल बनाने के लिए 16 सर्वश्रेष्ठ स्केलेरन डेटासेट

द्वारा Open Datasets Compiled by HackerNoon12m2023/04/15
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

Sklearn, SciPy के शीर्ष पर निर्मित मशीन लर्निंग के लिए एक पायथन मॉड्यूल है। यह एल्गोरिदम की विस्तृत श्रृंखला और उपयोग में आसानी के कारण अद्वितीय है। डेटा शक्तियाँ मशीन लर्निंग एल्गोरिदम और स्किकिट-लर्न। स्केलेर उच्च गुणवत्ता वाले डेटासेट प्रदान करता है जो शोधकर्ताओं, चिकित्सकों और उत्साही लोगों द्वारा व्यापक रूप से उपयोग किए जाते हैं।
featured image - मशीन लर्निंग मॉडल बनाने के लिए 16 सर्वश्रेष्ठ स्केलेरन डेटासेट
Open Datasets Compiled by HackerNoon HackerNoon profile picture

डेटा शक्तियाँ मशीन लर्निंग एल्गोरिदम और स्किकिट-लर्न या sklearn उच्च गुणवत्ता वाले डेटासेट प्रदान करता है जो शोधकर्ताओं, चिकित्सकों और उत्साही लोगों द्वारा व्यापक रूप से उपयोग किया जाता है। स्किकिट-लर्न (स्केलेर) मशीन लर्निंग के लिए एक पायथन मॉड्यूल है जो साइपी के शीर्ष पर बनाया गया है। यह एल्गोरिदम की विस्तृत श्रृंखला, उपयोग में आसानी और अन्य पायथन पुस्तकालयों के साथ एकीकरण के कारण अद्वितीय है।

"स्केलेरन डेटासेट" क्या हैं?

स्केलेरन डेटासेट को स्किकिट-लर्न के भाग के रूप में शामिल किया गया है ( sklearn ) पुस्तकालय, इसलिए वे पुस्तकालय के साथ पूर्व-स्थापित होते हैं। इसके कारण, आप इन डेटासेट को अलग से डाउनलोड किए बिना आसानी से एक्सेस और लोड कर सकते हैं।


एक विशिष्ट डेटासेट का उपयोग करने के लिए, आप बस इसे sklearn.datasets मॉड्यूल से आयात कर सकते हैं और डेटा को अपने प्रोग्राम में लोड करने के लिए उपयुक्त फ़ंक्शन को कॉल कर सकते हैं।


ये डेटासेट आमतौर पर पूर्व-संसाधित और उपयोग के लिए तैयार होते हैं, जो डेटा चिकित्सकों के लिए समय और प्रयास बचाता है, जिन्हें विभिन्न मशीन लर्निंग मॉडल और एल्गोरिदम के साथ प्रयोग करने की आवश्यकता होती है।

स्केलेरन लाइब्रेरी में डेटासेट की पूरी सूची

  1. आँख की पुतली
  2. मधुमेह
  3. अंक
  4. Linnerud
  5. शराब
  6. स्तन कैंसर विस्कॉन्सिन
  7. बोस्टन हाउसिंग
  8. ओलिवेटी चेहरे
  9. कैलिफोर्निया हाउसिंग
  10. Mnist
  11. फैशन-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. मेक_मून और मेक_सर्कल
  16. Make_sparse_coded_signal

पूर्व-स्थापित (खिलौना) स्केलेरन डेटासेट

1. आँख की पुतली

इस डेटासेट में 150 आईरिस फूलों की बाह्यदल की लंबाई, बाह्यदल की चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई के माप शामिल हैं, जो 3 अलग-अलग प्रजातियों से संबंधित हैं: सेटोसा, वर्सिकलर और वर्जिनिका। आइरिस डेटासेट में 150 पंक्तियाँ और 5 कॉलम होते हैं, जिन्हें डेटाफ़्रेम के रूप में संग्रहीत किया जाता है, जिसमें प्रत्येक फूल की प्रजातियों के लिए एक कॉलम भी शामिल है।


चर में शामिल हैं:


  • बाह्यदल की लंबाई - बाह्यदल की लंबाई सेंटीमीटर में बाह्यदल की लंबाई को दर्शाती है।
  • बाह्यदल.चौड़ाई - बाह्यदल.चौड़ाई सेंटीमीटर में बाह्यदल की चौड़ाई का प्रतिनिधित्व करती है।
  • पंखुड़ी.लंबाई - पंखुड़ी.लंबाई सेंटीमीटर में पंखुड़ी की लंबाई दर्शाती है।
  • प्रजाति - प्रजाति चर आईरिस फूल की प्रजाति का प्रतिनिधित्व करता है, तीन संभावित मूल्यों के साथ: सेटोसा, वर्सिकलर और वर्जिनिका।


आप sklearn.datasets मॉड्यूल से load_iris फ़ंक्शन का उपयोग करके आईरिस डेटासेट को सीधे sklearn से लोड कर सकते हैं।


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


स्केलेरन का उपयोग करके आइरिस डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 27/3/2023 को।

2. मधुमेह

इस स्केलेरन डेटासेट में जनसांख्यिकीय और नैदानिक माप सहित मधुमेह वाले 442 रोगियों की जानकारी शामिल है:

  • आयु
  • लिंग
  • बॉडी मास इंडेक्स (बीएमआई)
  • औसत रक्तचाप
  • छह रक्त सीरम माप (जैसे कुल कोलेस्ट्रॉल, कम घनत्व वाले लिपोप्रोटीन (एलडीएल) कोलेस्ट्रॉल, उच्च घनत्व वाले लिपोप्रोटीन (एचडीएल) कोलेस्ट्रॉल)।
  • मधुमेह रोग प्रगति का एक मात्रात्मक उपाय (HbA1c)।


sklearn.datasets मॉड्यूल से load_diabetes () फ़ंक्शन का उपयोग करके मधुमेह डेटासेट लोड किया जा सकता है।


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


स्केलेरन का उपयोग करके मधुमेह डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 28/3/2023 को।

3. अंक

यह स्केलेरन डेटासेट 0 से 9 तक हस्तलिखित अंकों का एक संग्रह है, जिसे ग्रेस्केल छवियों के रूप में संग्रहीत किया जाता है। इसमें कुल 1797 नमूने हैं, प्रत्येक नमूने के आकार का 2D सरणी (8,8) है। अंकों के स्केलेरन डेटासेट में 64 चर (या विशेषताएं) हैं, जो प्रत्येक अंक की छवि में 64 पिक्सेल के अनुरूप हैं।


sklearn.datasets मॉड्यूल से load_digits() फ़ंक्शन का उपयोग करके अंक डेटासेट को लोड किया जा सकता है।


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


स्केलेरन का उपयोग करके अंक डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwriting-digits-dataset 29/3/2023 को।


4. Linnerud

लाइनररुड डेटासेट में 20 पेशेवर एथलीटों के शारीरिक और शारीरिक माप शामिल हैं।


डेटासेट में निम्नलिखित चर शामिल हैं:


  • तीन शारीरिक व्यायाम चर - चिन-अप, सिट-अप और जंपिंग जैक।
  • तीन शारीरिक माप चर - नाड़ी, सिस्टोलिक रक्तचाप और डायस्टोलिक रक्तचाप।


स्केलेरन का उपयोग करके पायथन में लिनररुड डेटासेट लोड करने के लिए:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


स्केलेरन का उपयोग कर लाइनरड डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27/3/2023 को।

5. शराब

इस स्केलेरन डेटासेट में वाइन को उनकी सही किस्मों में वर्गीकृत करने के लिए इटली के एक विशिष्ट क्षेत्र में उगाई जाने वाली वाइन के रासायनिक विश्लेषण के परिणाम शामिल हैं।


डेटासेट में कुछ चर:


  • अल्कोहल
  • सेब का तेज़ाब
  • राख
  • राख की क्षारीयता
  • मैगनीशियम
  • कुल फिनोल
  • flavonoids


वाइन डेटासेट को sklearn.datasets मॉड्यूल से load_wine () फ़ंक्शन का उपयोग करके लोड किया जा सकता है।


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


स्केलेरन का उपयोग करके वाइन गुणवत्ता डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 28/3/2023 को।

6. स्तन कैंसर विस्कॉन्सिन डेटासेट

इस स्केलेरन डेटासेट में स्तन कैंसर के ट्यूमर के बारे में जानकारी शामिल है और शुरुआत में इसे डॉ. विलियम एच. वोलबर्ग ने बनाया था। ट्यूमर को घातक (कैंसर) या सौम्य (गैर-कैंसर) के रूप में वर्गीकृत करने में शोधकर्ताओं और मशीन लर्निंग चिकित्सकों की सहायता के लिए डेटासेट बनाया गया था।


इस डेटासेट में शामिल कुछ चर:


  • आईडी नंबर
  • निदान (एम = घातक, बी = सौम्य)।
  • त्रिज्या (केंद्र से परिधि पर बिंदुओं तक की दूरी का माध्य)।
  • बनावट (ग्रे-स्केल मानों का मानक विचलन)।
  • परिमाप
  • क्षेत्र
  • चिकनाई (त्रिज्या लंबाई में स्थानीय भिन्नता)।
  • कॉम्पैक्टनेस (परिधि^2 / क्षेत्र - 1.0)।
  • अवतलता (समोच्च के अवतल भागों की गंभीरता)।
  • अवतल बिंदु (समोच्च के अवतल भागों की संख्या)।
  • समरूपता
  • भग्न आयाम ("समुद्र तट सन्निकटन" - 1)।


आप sklearn.datasets मॉड्यूल से load_breast_cancer फ़ंक्शन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट को सीधे sklearn से लोड कर सकते हैं।


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


स्केलेरन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html 28/3/2023 को।


स्तन कैंसर विस्कॉन्सिन डेटासेट

रियल वर्ल्ड स्केलेरन डेटासेट्स

वास्तविक दुनिया स्केलेरन डेटासेट वास्तविक दुनिया की समस्याओं पर आधारित होते हैं, जो आमतौर पर पायथन में स्केलेरन लाइब्रेरी का उपयोग करके मशीन लर्निंग एल्गोरिदम और तकनीकों के साथ अभ्यास और प्रयोग करने के लिए उपयोग किया जाता है।

7. बोस्टन हाउसिंग

बोस्टन हाउसिंग डेटासेट में बोस्टन, मैसाचुसेट्स के क्षेत्र में आवास के बारे में जानकारी शामिल है। इसमें लगभग 506 पंक्तियाँ और डेटा के 14 स्तंभ हैं।


डेटासेट में कुछ चरों में शामिल हैं:


  • CRIM - शहर के अनुसार प्रति व्यक्ति अपराध दर।
  • ZN - 25,000 sq.ft से अधिक लॉट के लिए ज़ोन की गई आवासीय भूमि का अनुपात।
  • इंडस - प्रति शहर गैर-खुदरा व्यापार एकड़ का अनुपात।
  • चास - चार्ल्स रिवर डमी वेरिएबल (= 1 अगर ट्रैक्ट रिवर को बांधता है; 0 अन्यथा)।
  • NOX - नाइट्रिक ऑक्साइड सांद्रता (भाग प्रति 10 मिलियन)।
  • आरएम - प्रति आवास कमरों की औसत संख्या।
  • AGE - 1940 से पहले निर्मित स्वामित्व वाली इकाइयों का अनुपात।
  • डीआईएस - बोस्टन के पांच रोजगार केंद्रों की भारित दूरी।
  • रेड - रेडियल राजमार्गों तक पहुंच का सूचकांक।
  • टैक्स - प्रति $10,000 पर पूरे मूल्य की संपत्ति-कर की दर।
  • PTRATIO - शहर द्वारा छात्र-शिक्षक अनुपात।
  • B - 1000(Bk - 0.63)^2 जहां -Bk शहर द्वारा अश्वेतों का अनुपात है।
  • LSTAT - जनसंख्या का प्रतिशत कम स्थिति।
  • MEDV - $1000 में मालिक के कब्जे वाले घरों का औसत मूल्य।


आप sklearn.datasets मॉड्यूल से load_boston फ़ंक्शन का उपयोग करके बोस्टन हाउसिंग डेटासेट को सीधे स्किकिट-लर्न से लोड कर सकते हैं।


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


स्केलेरन का उपयोग करके बोस्टन हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html 29/3/2023 को।

8. ओलिवेटी चेहरे

ओलिवेटी फ़ेस डेटासेट एटी एंड टी प्रयोगशालाओं में अप्रैल 1992 और अप्रैल 1994 के बीच लिए गए मानव चेहरों की ग्रेस्केल छवियों का एक संग्रह है। इसमें 10 व्यक्तियों की 400 छवियां शामिल हैं, प्रत्येक व्यक्ति के पास अलग-अलग कोणों और विभिन्न प्रकाश स्थितियों में 40 छवियों को शूट किया गया है।


आप डेटासेट मॉड्यूल से fetch_olivetti_faces फ़ंक्शन का उपयोग करके ओलिवेटी फ़ेस डेटासेट को स्केलेर में लोड कर सकते हैं।


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


स्केलेरन का उपयोग करके ओलिवेटी फेसेस डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 29/3/2023 को।

9. कैलिफोर्निया हाउसिंग

इस स्केलेरन डेटासेट में माध्यिका गृह मूल्यों के साथ-साथ कैलिफ़ोर्निया में जनगणना ट्रैक्स के लिए विशेषताएँ शामिल हैं। इसमें 20,640 उदाहरण और 8 सुविधाएँ भी शामिल हैं।


डेटासेट में कुछ चर:


  • MedInc - ब्लॉक में औसत आय।
  • हाउसएज - ब्लॉक में घरों की औसत आयु।
  • AveRooms - प्रति घर कमरों की औसत संख्या।
  • AveBedrms - प्रति परिवार शयनकक्षों की औसत संख्या।
  • जनसंख्या - ब्लॉक जनसंख्या।
  • AveOccup - औसत घरेलू अधिभोग।
  • अक्षांश - दशमलव डिग्री में ब्लॉक का अक्षांश।
  • देशांतर - दशमलव डिग्री में ब्लॉक का देशांतर।


आप स्केलेरन से fetch_california_housing फ़ंक्शन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड कर सकते हैं।


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


स्केलेरन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 29/3/2023 को।

10. Mnist

MNIST डेटासेट मशीन लर्निंग और कंप्यूटर विज़न के क्षेत्र में लोकप्रिय और व्यापक रूप से उपयोग किया जाता है। इसमें हस्तलिखित अंकों की 70,000 ग्रेस्केल छवियां 0–9 हैं, जिसमें प्रशिक्षण के लिए 60,000 चित्र और परीक्षण के लिए 10,000 चित्र हैं। प्रत्येक छवि आकार में 28x28 पिक्सेल है और इसमें एक संबंधित लेबल है जो दर्शाता है कि यह किस अंक का प्रतिनिधित्व करता है।


आप निम्न कोड का उपयोग करके एमएनआईएसटी डेटासेट को स्केलेर से लोड कर सकते हैं:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


नोट: MNIST डेटासेट डिजिट डेटासेट का एक सबसेट है।


स्केलेरन का उपयोग करके MNIST डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30/3/2023 को।


11। फैशन-MNIST

फ़ैशन MNIST डेटासेट Zalando Research द्वारा मूल MNIST डेटासेट के प्रतिस्थापन के रूप में बनाया गया था। फैशन MNIST डेटासेट में 70,000 ग्रेस्केल चित्र (60,000 का प्रशिक्षण सेट और 10,000 का परीक्षण सेट) शामिल हैं।


छवियां आकार में 28x28 पिक्सेल हैं और टी-शर्ट/टॉप, पतलून, स्वेटर, कपड़े, कोट, सैंडल, शर्ट, स्नीकर्स, बैग और टखने के जूते सहित कपड़ों के 10 विभिन्न वर्गों का प्रतिनिधित्व करती हैं। यह मूल MNIST डेटासेट के समान है, लेकिन कपड़ों की वस्तुओं की अधिक जटिलता और विविधता के कारण अधिक चुनौतीपूर्ण वर्गीकरण कार्यों के साथ।


आप Fetch_openml फ़ंक्शन का उपयोग करके इस स्केलेरन डेटासेट को लोड कर सकते हैं।


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


स्केलेरन का उपयोग करके फैशन एमएनआईएसटी डेटासेट लोड करने के लिए कोड। 30/3/2023 को __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ से प्राप्त किया गया।

उत्पन्न स्केलेरन डेटासेट

जेनरेट किए गए स्केलेर डेटासेट सिंथेटिक डेटासेट हैं, जो पायथन में स्केलेरन लाइब्रेरी का उपयोग करके उत्पन्न होते हैं। उनका उपयोग मशीन लर्निंग एल्गोरिदम / मॉडल के परीक्षण, बेंचमार्किंग और विकास के लिए किया जाता है।

12. make_classification

यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूनों, सुविधाओं और सूचनात्मक सुविधाओं के साथ एक यादृच्छिक एन-श्रेणी वर्गीकरण डेटासेट उत्पन्न करता है।


इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 3 वर्गों के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


यह कोड 3 वर्गों और 3 सूचनात्मक विशेषताओं के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। शेष विशेषताएँ बेमानी या शोर वाली होंगी।


स्केलेरन का उपयोग करके मेक_क्लासिफिकेशन डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30/3/2023 को।

13. make_regression

यह फ़ंक्शन निर्दिष्ट संख्या में नमूनों, सुविधाओं और शोर के साथ एक यादृच्छिक प्रतिगमन डेटासेट उत्पन्न करता है।


इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 0.1 के शोर स्तर के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


यह कोड 0.1 के शोर स्तर के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। लक्ष्य चर y एक सतत चर होगा।


स्केलेरन का उपयोग करके मेक_रिग्रेशन डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30/3/2023 को।

14. make_blobs

यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूने और क्लस्टर के साथ एक यादृच्छिक डेटासेट उत्पन्न करता है।


100 नमूनों और 3 समूहों के साथ इस स्केलेरन डेटासेट को उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


यह कोड 100 नमूनों और 2 सुविधाओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, जिसमें 3 क्लस्टर यादृच्छिक स्थानों पर केंद्रित होते हैं, और बिना किसी शोर के।


स्केलेरन का उपयोग करके Make_blobs डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30/3/2023 को।

15. make_moons और make_circles

ये फ़ंक्शन गैर-रैखिक सीमाओं वाले डेटासेट उत्पन्न करते हैं जो गैर-रैखिक वर्गीकरण एल्गोरिदम के परीक्षण के लिए उपयोगी होते हैं।


Make_moons डेटासेट लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:


sklearn.datasets से make_moons आयात करें

एक्स, वाई = मेक_मून्स (एन_सैंपल्स = 1000, शोर = 0.2, रैंडम_स्टेट = 42)


यह कोड दो वर्गों के बीच एक गैर-रेखीय सीमा के साथ 1000 नमूनों और 2 विशेषताओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, और डेटा में जोड़े गए गॉसियन शोर के 0.2 मानक विचलन के साथ।


स्केलेरन का उपयोग करके मेक_मून डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30/3/2023 को।


Make_circles डेटासेट जनरेट करने और लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


स्केलेरन का उपयोग करके Make_circles डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30/3/2023 को।

16. make_sparse_coded_signal

यह फ़ंक्शन एक विरल कोडेड सिग्नल डेटासेट उत्पन्न करता है जो कंप्रेसिव सेंसिंग एल्गोरिदम के परीक्षण के लिए उपयोगी है।


इस स्केलेरन डेटासेट को लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


यह कोड 100 नमूनों, 50 विशेषताओं और 10 परमाणुओं के साथ विरल कोडित सिग्नल डेटासेट उत्पन्न करता है।


स्केलेरन का उपयोग करके Make_sparse_coded_signal डेटासेट लोड करने के लिए कोड। से लिया गया https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30/3/2023 को।


स्केलेरन डेटासेट के लिए सामान्य उपयोग के मामले

पूर्व-स्थापित (खिलौना) स्केलेरन डेटासेट

आँख की पुतली - यह स्केलेरन डेटासेट आमतौर पर वर्गीकरण कार्यों के लिए उपयोग किया जाता है और वर्गीकरण एल्गोरिदम के परीक्षण के लिए एक बेंचमार्क डेटासेट के रूप में उपयोग किया जाता है।


मधुमेह - इस डेटासेट में मधुमेह के रोगियों के बारे में चिकित्सा जानकारी होती है और इसका उपयोग स्वास्थ्य देखभाल विश्लेषण में वर्गीकरण और प्रतिगमन कार्यों के लिए किया जाता है।


अंक - इस स्केलेरन डेटासेट में हस्तलिखित अंकों की छवियां होती हैं और आमतौर पर छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए उपयोग की जाती हैं।


Linnerud - इस डेटासेट में 20 एथलीटों की शारीरिक फिटनेस और चिकित्सा डेटा शामिल है और आमतौर पर बहुभिन्नरूपी प्रतिगमन विश्लेषण के लिए उपयोग किया जाता है।


शराब - इस स्केलेरन डेटासेट में वाइन का रासायनिक विश्लेषण होता है और आमतौर पर इसका उपयोग वर्गीकरण और क्लस्टरिंग कार्यों के लिए किया जाता है।


स्तन कैंसर विस्कॉन्सिन - इस डेटासेट में स्तन कैंसर रोगियों के बारे में चिकित्सा जानकारी होती है और आमतौर पर स्वास्थ्य देखभाल विश्लेषण में वर्गीकरण कार्यों के लिए इसका उपयोग किया जाता है।

रियल वर्ल्ड स्केलेरन डेटासेट्स

बोस्टन हाउसिंग - इस स्केलेरन डेटासेट में बोस्टन में आवास के बारे में जानकारी है और आमतौर पर इसका उपयोग प्रतिगमन कार्यों के लिए किया जाता है।


ओलिवेटी चेहरे - इस डेटासेट में चेहरों की ग्रेस्केल छवियां होती हैं और आमतौर पर इसका उपयोग छवि वर्गीकरण और चेहरे की पहचान कार्यों के लिए किया जाता है।


कैलिफोर्निया हाउसिंग - इस स्केलेरन डेटासेट में कैलिफोर्निया में आवास के बारे में जानकारी है और आमतौर पर इसका उपयोग प्रतिगमन कार्यों के लिए किया जाता है।


Mnist - इस डेटासेट में हस्तलिखित अंकों की छवियां होती हैं और आमतौर पर इसका उपयोग छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए किया जाता है।


फैशन-MNIST - इस स्केलेरन डेटासेट में कपड़ों की वस्तुओं की छवियां होती हैं और आमतौर पर छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए उपयोग की जाती हैं।

उत्पन्न स्केलेरन डेटासेट

make_classification - यह डेटासेट बाइनरी और मल्टीक्लास वर्गीकरण कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।


make_regression - यह डेटासेट प्रतिगमन कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।


make_blobs - यह स्केलेरन डेटासेट क्लस्टरिंग कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।


make_moons और make_circles - ये डेटासेट वर्गीकरण कार्यों के लिए बेतरतीब ढंग से उत्पन्न डेटासेट हैं और आमतौर पर नॉनलाइनियर क्लासिफायर के परीक्षण के लिए उपयोग किए जाते हैं।


make_sparse_coded_signal - यह डेटासेट सिग्नल प्रोसेसिंग में विरल कोडिंग कार्यों के लिए एक यादृच्छिक रूप से उत्पन्न डेटासेट है।

अंतिम विचार

स्केलेरन डेटासेट डेवलपर्स और शोधकर्ताओं के लिए मशीन लर्निंग मॉडल का परीक्षण और मूल्यांकन करने के लिए एक सुविधाजनक तरीका प्रदान करते हैं, बिना मैन्युअल रूप से डेटा एकत्र और प्रीप्रोसेस किए बिना।


वे किसी के लिए भी मुफ्त में डाउनलोड करने और उपयोग करने के लिए उपलब्ध हैं।


इस आलेख की मुख्य छवि हैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से शीघ्र 'आइरिस डेटासेट' का उपयोग करके तैयार की गई थी।


अधिक डेटासेट सूची:

  1. एक्सेल डेटासेट
  2. केरस डेटासेट
  3. आर डेटासेट