paint-brush
বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেটদ্বারা@datasets
30,247 পড়া
30,247 পড়া

বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট

দ্বারা Open Datasets Compiled by HackerNoon12m2023/04/15
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

Sklearn হল SciPy-এর উপরে তৈরি মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম এবং ব্যবহারের সহজতার কারণে এটি অনন্য। ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন। Sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়।
featured image - বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট
Open Datasets Compiled by HackerNoon HackerNoon profile picture

ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন বা sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়। Scikit-learn (sklearn) হল SciPy-এর উপরে নির্মিত মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম, ব্যবহারের সহজতা এবং অন্যান্য পাইথন লাইব্রেরির সাথে একীকরণের কারণে এটি অনন্য।

"Sklearn Datasets" কি?

স্কলার্ন ডেটাসেটগুলি স্কিট-লার্নের অংশ হিসাবে অন্তর্ভুক্ত করা হয়েছে ( sklearn ) লাইব্রেরি, তাই তারা লাইব্রেরির সাথে প্রি-ইনস্টল করে আসে। এই কারণে, আপনি এই ডেটাসেটগুলিকে আলাদাভাবে ডাউনলোড না করে সহজেই অ্যাক্সেস এবং লোড করতে পারেন৷


একটি নির্দিষ্ট ডেটাসেট ব্যবহার করতে, আপনি কেবল sklearn.datasets মডিউল থেকে এটি আমদানি করতে পারেন এবং আপনার প্রোগ্রামে ডেটা লোড করার জন্য উপযুক্ত ফাংশনটি কল করতে পারেন।


এই ডেটাসেটগুলি সাধারণত প্রাক-প্রক্রিয়াজাত এবং ব্যবহারের জন্য প্রস্তুত, যা ডেটা অনুশীলনকারীদের জন্য সময় এবং শ্রম বাঁচায় যাদের বিভিন্ন মেশিন লার্নিং মডেল এবং অ্যালগরিদম নিয়ে পরীক্ষা করতে হবে।

Sklearn লাইব্রেরিতে ডেটাসেটের সম্পূর্ণ তালিকা

  1. আইরিস
  2. ডায়াবেটিস
  3. অঙ্ক
  4. লিনারুড
  5. মদ
  6. স্তন ক্যান্সার উইসকনসিন
  7. বোস্টন হাউজিং
  8. অলিভেটি ফেস
  9. ক্যালিফোর্নিয়া হাউজিং
  10. MNIST
  11. ফ্যাশন-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons এবং make_circles
  16. তৈরি_স্পার্স_কোডেড_সিগন্যাল

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

1. আইরিস

এই ডেটাসেটে সেপালের দৈর্ঘ্য, সেপালের প্রস্থ, পাপড়ির দৈর্ঘ্য এবং 150টি আইরিস ফুলের পাপড়ির প্রস্থের পরিমাপ রয়েছে, যা 3টি ভিন্ন প্রজাতির অন্তর্ভুক্ত: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা। আইরিস ডেটাসেটে 150টি সারি এবং 5টি কলাম রয়েছে, যা প্রতিটি ফুলের প্রজাতির জন্য একটি কলাম সহ ডেটাফ্রেম হিসাবে সংরক্ষণ করা হয়।


ভেরিয়েবলগুলির মধ্যে রয়েছে:


  • Sepal.Length - sepal.length সেপালের দৈর্ঘ্যকে সেন্টিমিটারে উপস্থাপন করে।
  • Sepal.Width - sepal.width সেপালের প্রস্থকে সেন্টিমিটারে উপস্থাপন করে।
  • Petal.Length - পাপড়ির দৈর্ঘ্য সেন্টিমিটারে পাপড়ির দৈর্ঘ্যকে প্রতিনিধিত্ব করে।
  • প্রজাতি - প্রজাতির পরিবর্তনশীল তিনটি সম্ভাব্য মান সহ আইরিস ফুলের প্রজাতিকে প্রতিনিধিত্ব করে: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা।


আপনি sklearn.datasets মডিউল থেকে load_iris ফাংশন ব্যবহার করে সরাসরি sklearn থেকে iris ডেটাসেট লোড করতে পারেন।


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


sklearn ব্যবহার করে আইরিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 27/3/2023 তারিখে।

2. ডায়াবেটিস

এই স্কলারন ডেটাসেটে ডেমোগ্রাফিক এবং ক্লিনিকাল পরিমাপ সহ 442 জন ডায়াবেটিস রোগীর তথ্য রয়েছে:

  • বয়স
  • সেক্স
  • বডি মাস ইনডেক্স (BMI)
  • গড় রক্তচাপ
  • ছয়টি রক্তের সিরাম পরিমাপ (যেমন মোট কোলেস্টেরল, কম ঘনত্বের লাইপোপ্রোটিন (এলডিএল) কোলেস্টেরল, উচ্চ ঘনত্বের লিপোপ্রোটিন (এইচডিএল) কোলেস্টেরল)।
  • ডায়াবেটিস রোগের অগ্রগতির একটি পরিমাণগত পরিমাপ (HbA1c)।


sklearn.datasets মডিউল থেকে load_diabetes() ফাংশন ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


sklearn ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 28/3/2023 তারিখে।

3. অঙ্ক

এই sklearn ডেটাসেট হল 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের একটি সংগ্রহ, যা গ্রেস্কেল ছবি হিসেবে সংরক্ষিত। এটিতে মোট 1797টি নমুনা রয়েছে, প্রতিটি নমুনার সাথে একটি 2D আকারের অ্যারে (8,8)। ডিজিট স্ক্লিয়ার ডেটাসেটে 64টি ভেরিয়েবল (বা বৈশিষ্ট্য) রয়েছে, প্রতিটি অঙ্কের চিত্রের 64 পিক্সেলের সাথে সম্পর্কিত।


sklearn.datasets মডিউল থেকে load_digits() ফাংশন ব্যবহার করে অঙ্ক ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


sklearn ব্যবহার করে ডিজিট ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset 29/3/2023 তারিখে।


4. লিনারুড

লিনারুড ডেটাসেটে 20 জন পেশাদার ক্রীড়াবিদদের শারীরিক এবং শারীরবৃত্তীয় পরিমাপ রয়েছে।


ডেটাসেটে নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:


  • তিনটি শারীরিক ব্যায়ামের ভেরিয়েবল - চিন-আপ, সিট-আপ এবং জাম্পিং জ্যাক।
  • তিনটি শারীরবৃত্তীয় পরিমাপের ভেরিয়েবল - নাড়ি, সিস্টোলিক রক্তচাপ এবং ডায়াস্টোলিক রক্তচাপ।


sklearn ব্যবহার করে পাইথনে Linnerud ডেটাসেট লোড করতে:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


sklearn ব্যবহার করে linnerud ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27/3/2023 তারিখে।

5. মদ

এই স্কলারন ডেটাসেটে ইতালির একটি নির্দিষ্ট এলাকায় জন্মানো ওয়াইনগুলির রাসায়নিক বিশ্লেষণের ফলাফল রয়েছে, ওয়াইনগুলিকে তাদের সঠিক জাতের মধ্যে শ্রেণীবদ্ধ করতে।


ডেটাসেটের কিছু ভেরিয়েবল:


  • মদ
  • Malic অ্যাসিড
  • ছাই
  • ছাই এর ক্ষারত্ব
  • ম্যাগনেসিয়াম
  • মোট ফেনোলস
  • ফ্ল্যাভানয়েডস


sklearn.datasets মডিউল থেকে load_wine() ফাংশন ব্যবহার করে ওয়াইন ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


sklearn ব্যবহার করে ওয়াইন কোয়ালিটি ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 28/3/2023 তারিখে।

6. স্তন ক্যান্সার উইসকনসিন ডেটাসেট

এই স্কলারন ডেটাসেটটি স্তন ক্যান্সারের টিউমার সম্পর্কে তথ্য নিয়ে গঠিত এবং এটি প্রাথমিকভাবে ড. উইলিয়াম এইচ. ওলবার্গ তৈরি করেছিলেন। ডেটাসেটটি গবেষক এবং মেশিন লার্নিং অনুশীলনকারীদের টিউমারগুলিকে ম্যালিগন্যান্ট (ক্যান্সারযুক্ত) বা সৌম্য (অ-ক্যান্সার) হিসাবে শ্রেণীবদ্ধ করতে সহায়তা করার জন্য তৈরি করা হয়েছিল।


এই ডেটাসেটে অন্তর্ভুক্ত কিছু ভেরিয়েবল:


  • আইডি নাম্বার
  • রোগ নির্ণয় (M = ম্যালিগন্যান্ট, B = সৌম্য)।
  • ব্যাসার্ধ (কেন্দ্র থেকে ঘেরের বিন্দু পর্যন্ত দূরত্বের গড়)।
  • টেক্সচার (ধূসর-স্কেল মানগুলির আদর্শ বিচ্যুতি)।
  • পরিধি
  • এলাকা
  • মসৃণতা (ব্যাসার্ধের দৈর্ঘ্যের স্থানীয় পরিবর্তন)।
  • কম্প্যাক্টনেস (ঘের^2 / এলাকা - 1.0)।
  • অবতলতা (কনট্যুরের অবতল অংশের তীব্রতা)।
  • অবতল বিন্দু (কনট্যুরের অবতল অংশের সংখ্যা)।
  • প্রতিসাম্য
  • ফ্র্যাক্টাল ডাইমেনশন ("কোস্টলাইন অ্যাপ্রোক্সিমেশন" - 1)।


আপনি sklearn.datasets মডিউল থেকে load_breast_cancer ফাংশন ব্যবহার করে সরাসরি sklearn থেকে ব্রেস্ট ক্যান্সার উইসকনসিন ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


sklearn ব্যবহার করে স্তন ক্যান্সার উইসকনসিন ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html 28/3/2023 তারিখে।


স্তন ক্যান্সার উইসকনসিন ডেটাসেট

বাস্তব বিশ্ব Sklearn ডেটাসেট

রিয়েল ওয়ার্ল্ড স্ক্লিয়ার ডেটাসেটগুলি বাস্তব-বিশ্বের সমস্যার উপর ভিত্তি করে তৈরি করা হয়, সাধারণত পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে মেশিন লার্নিং অ্যালগরিদম এবং কৌশলগুলির অনুশীলন এবং পরীক্ষা করার জন্য ব্যবহৃত হয়।

7. বোস্টন হাউজিং

বোস্টন হাউজিং ডেটাসেটে বোস্টন, ম্যাসাচুসেটস এলাকার আবাসন সম্পর্কিত তথ্য রয়েছে। এতে প্রায় 506টি সারি এবং 14টি কলাম ডেটা রয়েছে।


ডেটাসেটের কিছু ভেরিয়েবলের মধ্যে রয়েছে:


  • CRIM - শহর অনুসারে মাথাপিছু অপরাধের হার।
  • ZN - আবাসিক জমির অনুপাত 25,000 বর্গফুটের বেশি লটের জন্য জোন করা হয়েছে।
  • INDUS - শহর প্রতি অ-খুচরা ব্যবসার একর অনুপাত।
  • CHAS - চার্লস রিভার ডামি পরিবর্তনশীল (= 1 যদি ট্র্যাক্ট নদীকে আবদ্ধ করে; অন্যথায় 0)।
  • NOX - নাইট্রিক অক্সাইড ঘনত্ব (প্রতি 10 মিলিয়ন অংশ)।
  • RM - প্রতি বাসস্থানে ঘরের গড় সংখ্যা।
  • AGE - 1940 সালের আগে নির্মিত মালিক-অধিকৃত ইউনিটগুলির অনুপাত।
  • DIS - পাঁচটি বোস্টন কর্মসংস্থান কেন্দ্রের ওজনযুক্ত দূরত্ব।
  • RAD - রেডিয়াল হাইওয়েতে অ্যাক্সেসযোগ্যতার সূচক।
  • ট্যাক্স - $10,000 প্রতি পূর্ণ-মূল্যের সম্পত্তি করের হার।
  • PTRATIO - শহর অনুসারে ছাত্র-শিক্ষক অনুপাত।
  • B - 1000(Bk - 0.63)^2 যেখানে -Bk হল শহর অনুসারে কালোদের অনুপাত।
  • LSTAT - জনসংখ্যার শতাংশ নিম্ন অবস্থা।
  • MEDV - $1000 এর মধ্যে মালিক-অধিকৃত বাড়ির গড় মান।


আপনি sklearn.datasets মডিউল থেকে load_boston ফাংশন ব্যবহার করে scikit-learn থেকে সরাসরি বোস্টন হাউজিং ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


sklearn ব্যবহার করে বোস্টন হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html 29/3/2023 তারিখে।

8. অলিভেটি ফেস

অলিভেটি ফেসেস ডেটাসেট হল AT&T ল্যাবরেটরিতে এপ্রিল 1992 এবং এপ্রিল 1994 এর মধ্যে তোলা মানুষের মুখের গ্রেস্কেল চিত্রগুলির একটি সংগ্রহ৷ এটিতে 10 জন ব্যক্তির 400টি ছবি রয়েছে, প্রতিটি ব্যক্তির 40টি ছবি বিভিন্ন কোণে এবং বিভিন্ন আলোর শর্তে তোলা হয়েছে৷


আপনি ডেটাসেট মডিউল থেকে fetch_olivetti_faces ফাংশন ব্যবহার করে sklearn-এ Olivetti Faces ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


sklearn ব্যবহার করে Olivetti Faces ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 29/3/2023 তারিখে।

9. ক্যালিফোর্নিয়া হাউজিং

এই sklearn ডেটাসেটে মধ্যম ঘরের মান, সেইসাথে ক্যালিফোর্নিয়ায় আদমশুমারির ট্র্যাক্টের বৈশিষ্ট্যের তথ্য রয়েছে। এটি 20,640টি উদাহরণ এবং 8টি বৈশিষ্ট্যও অন্তর্ভুক্ত করে।


ডেটাসেটের কিছু ভেরিয়েবল:


  • MedInc - ব্লকের মধ্যবর্তী আয়।
  • হাউসএজ - ব্লকের ঘরগুলির গড় বয়স।
  • AveRooms - পরিবারের প্রতি কক্ষের গড় সংখ্যা।
  • AveBedrms - প্রতি পরিবারে বেডরুমের গড় সংখ্যা।
  • জনসংখ্যা - ব্লক জনসংখ্যা।
  • AveOccup - গড় পরিবারের দখল।
  • অক্ষাংশ - দশমিক ডিগ্রীতে ব্লকের অক্ষাংশ।
  • দ্রাঘিমাংশ - দশমিক ডিগ্রীতে ব্লকের দ্রাঘিমাংশ।


আপনি sklearn থেকে fetch_california_housing ফাংশন ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


sklearn ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 29/3/2023 তারিখে।

10. MNIST

MNIST ডেটাসেট মেশিন লার্নিং এবং কম্পিউটার ভিশনের ক্ষেত্রে জনপ্রিয় এবং ব্যাপকভাবে ব্যবহৃত হয়। এটিতে হাতে লেখা 0-9 সংখ্যার 70,000টি গ্রেস্কেল চিত্র রয়েছে, যার মধ্যে 60,000টি প্রশিক্ষণের জন্য এবং 10,000টি পরীক্ষার জন্য রয়েছে। প্রতিটি চিত্রের আকার 28x28 পিক্সেল এবং একটি সংশ্লিষ্ট লেবেল রয়েছে যা নির্দেশ করে যে এটি কোন সংখ্যাগুলিকে প্রতিনিধিত্ব করে৷


আপনি নিম্নলিখিত কোড ব্যবহার করে sklearn থেকে MNIST ডেটাসেট লোড করতে পারেন:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


দ্রষ্টব্য: MNIST ডেটাসেট হল সংখ্যা ডেটাসেটের একটি উপসেট৷


sklearn ব্যবহার করে MNIST ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30/3/2023 তারিখে।


11. ফ্যাশন-MNIST

ফ্যাশন MNIST ডেটাসেটটি মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল। ফ্যাশন MNIST ডেটাসেটে 70,000টি গ্রেস্কেল ছবি (60,000টির প্রশিক্ষণ সেট এবং 10,000টির একটি পরীক্ষামূলক সেট) পোশাকের আইটেম রয়েছে।


চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷


আপনি fetch_openml ফাংশন ব্যবহার করে এই sklearn ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


sklearn ব্যবহার করে ফ্যাশন MNIST ডেটাসেট লোড করার জন্য কোড। __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ থেকে 30/3/2023 তারিখে সংগৃহীত।

উত্পন্ন Sklearn ডেটাসেট

জেনারেটেড স্ক্লিয়ার ডেটাসেট হল সিন্থেটিক ডেটাসেট, পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে তৈরি করা হয়। এগুলি পরীক্ষা, বেঞ্চমার্কিং এবং মেশিন লার্নিং অ্যালগরিদম/মডেল তৈরির জন্য ব্যবহার করা হয়।

12। make_classification

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং তথ্যপূর্ণ বৈশিষ্ট্য সহ একটি এলোমেলো এন-শ্রেণি শ্রেণিবিন্যাস ডেটাসেট তৈরি করে।


100টি নমুনা, 5টি বৈশিষ্ট্য এবং 3টি ক্লাস সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস এবং 3টি তথ্যপূর্ণ বৈশিষ্ট্য রয়েছে৷ অবশিষ্ট বৈশিষ্ট্যগুলি অপ্রয়োজনীয় বা গোলমাল হবে।


sklearn ব্যবহার করে make_classification ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30/3/2023 তারিখে।

13. make_regression

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং শব্দ সহ একটি র্যান্ডম রিগ্রেশন ডেটাসেট তৈরি করে৷


এখানে 100টি নমুনা, 5টি বৈশিষ্ট্য এবং 0.1 এর নয়েজ লেভেল সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার শব্দের মাত্রা 0.1। টার্গেট ভেরিয়েবল y একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে।


sklearn ব্যবহার করে make_regression ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30/3/2023 তারিখে।

14. make_blobs

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা এবং ক্লাস্টার সহ একটি র্যান্ডম ডেটাসেট তৈরি করে৷


100টি নমুনা এবং 3টি ক্লাস্টার সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


এই কোডটি 100টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস্টার এলোমেলো অবস্থানে কেন্দ্রীভূত হয় এবং কোনও শব্দ ছাড়াই৷


sklearn ব্যবহার করে make_blobs ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30/3/2023 তারিখে।

15। make_moons এবং বৃত্ত তৈরি করুন

এই ফাংশনগুলি অ-রৈখিক সীমানা সহ ডেটাসেট তৈরি করে যা অ-রৈখিক শ্রেণিবিন্যাস অ্যালগরিদম পরীক্ষা করার জন্য দরকারী।


make_moons ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


sklearn.datasets থেকে make_moons আমদানি করুন

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


এই কোডটি 1000টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ দুটি শ্রেণীর মধ্যে একটি অ-রৈখিক সীমানা সহ একটি ডেটাসেট তৈরি করে এবং ডেটাতে যোগ করা গাউসিয়ান শব্দের 0.2 স্ট্যান্ডার্ড বিচ্যুতি সহ।


sklearn ব্যবহার করে make_moons ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30/3/2023 তারিখে।


make_circles ডেটাসেট তৈরি এবং লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


sklearn ব্যবহার করে make_circles ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30/3/2023 তারিখে।

16. make_sparse_coded_signal

এই ফাংশনটি একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে যা কম্প্রেসিভ সেন্সিং অ্যালগরিদম পরীক্ষা করার জন্য উপযোগী।


এই sklearn ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


এই কোডটি 100টি নমুনা, 50টি বৈশিষ্ট্য এবং 10টি পরমাণু সহ একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে৷


sklearn ব্যবহার করে make_sparse_coded_signal ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30/3/2023 তারিখে।


Sklearn ডেটাসেটের জন্য সাধারণ ব্যবহারের ক্ষেত্রে

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

আইরিস - এই sklearn ডেটাসেটটি সাধারণত শ্রেণিবিন্যাসের কাজের জন্য ব্যবহৃত হয় এবং শ্রেণীবিভাগ অ্যালগরিদম পরীক্ষা করার জন্য একটি বেঞ্চমার্ক ডেটাসেট হিসাবে ব্যবহৃত হয়।


ডায়াবেটিস - এই ডেটাসেটে ডায়াবেটিস রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগ এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


অঙ্ক - এই sklearn ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


লিনারুড - এই ডেটাসেটে 20 জন ক্রীড়াবিদদের শারীরিক ফিটনেস এবং মেডিকেল ডেটা রয়েছে এবং এটি সাধারণত মাল্টিভেরিয়েট রিগ্রেশন বিশ্লেষণের জন্য ব্যবহৃত হয়।


মদ - এই স্কলারন ডেটাসেটে ওয়াইনগুলির রাসায়নিক বিশ্লেষণ রয়েছে এবং এটি সাধারণত শ্রেণীবিভাগ এবং ক্লাস্টারিং কাজের জন্য ব্যবহৃত হয়।


স্তন ক্যান্সার উইসকনসিন - এই ডেটাসেটে স্তন ক্যান্সারের রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং সাধারণত স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগের কাজে ব্যবহৃত হয়।

বাস্তব বিশ্ব Sklearn ডেটাসেট

বোস্টন হাউজিং - এই sklearn ডেটাসেটে বোস্টনের আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


অলিভেটি ফেস - এই ডেটাসেটে মুখের গ্রেস্কেল চিত্র রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং মুখের শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


ক্যালিফোর্নিয়া হাউজিং - এই sklearn ডেটাসেটে ক্যালিফোর্নিয়ার আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


MNIST - এই ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


ফ্যাশন-MNIST - এই sklearn ডেটাসেটে পোশাকের আইটেমগুলির ছবি রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

উত্পন্ন Sklearn ডেটাসেট

make_classification - এই ডেটাসেটটি বাইনারি এবং মাল্টিক্লাস শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


make_regression - এই ডেটাসেটটি রিগ্রেশন কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


make_blobs - এই sklearn ডেটাসেটটি ক্লাস্টারিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


make_moons এবং বৃত্ত তৈরি করুন - এই ডেটাসেটগুলি শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট এবং সাধারণত ননলাইনার ক্লাসিফায়ারগুলি পরীক্ষা করার জন্য ব্যবহৃত হয়।


make_sparse_coded_signal - এই ডেটাসেটটি সংকেত প্রক্রিয়াকরণে স্পার্স কোডিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

সর্বশেষ ভাবনা

স্কলার্ন ডেটাসেটগুলি ম্যানুয়ালি ডেটা সংগ্রহ এবং প্রিপ্রসেস না করেই ডেভেলপার এবং গবেষকদের মেশিন লার্নিং মডেলগুলি পরীক্ষা ও মূল্যায়ন করার জন্য একটি সুবিধাজনক উপায় প্রদান করে।


এগুলি যে কেউ ডাউনলোড করতে এবং অবাধে ব্যবহার করার জন্য উপলব্ধ।


প্রম্পট 'আইরিস ডেটাসেট' ব্যবহার করে হ্যাকারনুনের এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে এই নিবন্ধের প্রধান চিত্র তৈরি করা হয়েছে।


আরও ডেটাসেট তালিকা:

  1. এক্সেল ডেটাসেট
  2. কেরাস ডেটাসেট
  3. আর ডেটাসেট