16 bộ dữ liệu Sklearn tốt nhất để xây dựng mô hình học máy

Dữ liệu cung cấp năng lượng cho các thuật toán học máy và scikit-learning hoặc cung cấp bộ dữ liệu chất lượng cao được sử dụng rộng rãi bởi các nhà nghiên cứu, học viên và những người đam mê. Scikit-learning (sklearn) là một mô-đun Python dành cho máy học được xây dựng trên SciPy. Nó là duy nhất do có nhiều thuật toán, dễ sử dụng và tích hợp với các thư viện Python khác. sklearning “Bộ dữ liệu Sklearn” là gì? Bộ dữ liệu Sklearn được đưa vào như một phần của scikit-learning ( ), vì vậy chúng được cài đặt sẵn với thư viện. Do đó, bạn có thể dễ dàng truy cập và tải các tập dữ liệu này mà không cần phải tải xuống riêng lẻ. sklearning Để sử dụng một tập dữ liệu cụ thể, bạn chỉ cần nhập tập dữ liệu đó từ mô-đun sklearn.datasets và gọi hàm thích hợp để tải dữ liệu vào chương trình của mình. Các bộ dữ liệu này thường được xử lý trước và sẵn sàng sử dụng, giúp tiết kiệm thời gian và công sức cho những người thực hành dữ liệu, những người cần thử nghiệm các mô hình và thuật toán máy học khác nhau. Danh sách đầy đủ các bộ dữ liệu trong Thư viện Sklearn diên vĩ Bệnh tiểu đường chữ số Linnerud Rượu Ung thư vú Wisconsin nhà ở Boston Khuôn mặt Olivetti nhà ở California MNIST Thời trang-MNIST make_classification make_regression make_blobs make_moons và make_circles Make_sparse_coded_signal Bộ dữ liệu Sklearn được cài đặt sẵn (đồ chơi) 1. diên vĩ Bộ dữ liệu này bao gồm các phép đo chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa và chiều rộng cánh hoa của 150 bông hoa diên vĩ, thuộc 3 loài khác nhau: setosa, versicolor và virginica. Bộ dữ liệu hoa diên vĩ có 150 hàng và 5 cột, được lưu trữ dưới dạng khung dữ liệu, bao gồm một cột cho loài của mỗi loài hoa. Các biến bao gồm: Sepal.Length - Sepal.length đại diện cho chiều dài của sepal tính bằng centimet. Sepal.Width - Sepal.width đại diện cho chiều rộng của sepal tính bằng centimet. Petal.Length - Petal.length đại diện cho chiều dài của cánh hoa tính bằng centimet. Loài - Biến loài đại diện cho loài hoa diên vĩ, với ba giá trị có thể có: setosa, versicolor và virginica. Bạn có thể tải tập dữ liệu mống mắt trực tiếp từ sklearn bằng hàm từ mô-đun sklearn.datasets. load_iris # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe()) Mã để tải tập dữ liệu Iris bằng sklearn. Lấy ra từ ngày 27/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 2. Bệnh tiểu đường Bộ dữ liệu sklearn này chứa thông tin về 442 bệnh nhân mắc bệnh tiểu đường, bao gồm các phép đo nhân khẩu học và lâm sàng: Tuổi giới tính Chỉ số khối cơ thể (BMI) huyết áp trung bình Sáu phép đo huyết thanh trong máu (ví dụ: cholesterol toàn phần, cholesterol lipoprotein mật độ thấp (LDL), cholesterol lipoprotein mật độ cao (HDL)). Một phép đo định lượng về sự tiến triển của bệnh tiểu đường (HbA1c). Có thể tải bộ dữ liệu về Bệnh tiểu đường bằng cách sử dụng hàm từ mô-đun sklearn.datasets. load_diabetes() from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe()) Mã để tải tập dữ liệu Bệnh tiểu đường bằng sklearn. Lấy ra từ ngày 28/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 3. chữ số Bộ dữ liệu sklearn này là tập hợp các chữ số viết tay từ 0 đến 9, được lưu trữ dưới dạng hình ảnh thang độ xám. Nó chứa tổng cộng 1797 mẫu, với mỗi mẫu là một mảng hình dạng 2D (8,8). Có 64 biến (hoặc tính năng) trong tập dữ liệu sklearn chữ số, tương ứng với 64 pixel trong mỗi hình ảnh chữ số. Tập dữ liệu Digits có thể được tải bằng hàm từ mô-đun sklearn.datasets. load_digits() from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target) Mã để tải tập dữ liệu Chữ số bằng sklearn. Lấy ra từ ngày 29/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwrite-digits-dataset 4. Linnerud Bộ dữ liệu Linnerud chứa các phép đo thể chất và sinh lý của 20 vận động viên chuyên nghiệp. Bộ dữ liệu bao gồm các biến sau: Ba biến thể của bài tập thể chất - chống cằm, ngồi dậy và bật nhảy. Ba biến số đo sinh lý - mạch, huyết áp tâm thu và huyết áp tâm trương. Để tải tập dữ liệu Linnerud bằng Python bằng sklearn: from sklearn.datasets import load_linnerud linnerud = load_linnerud() Mã để tải tập dữ liệu linnerud bằng sklearn. Lấy ra từ ngày 27/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 5. Rượu Bộ dữ liệu sklearn này chứa kết quả phân tích hóa học của các loại rượu vang được trồng ở một khu vực cụ thể của Ý, để phân loại các loại rượu vang theo đúng loại của chúng. Một số biến trong tập dữ liệu: Rượu bia axit malic Tro Độ kiềm của tro magie Tổng số phenol Flavanoid Tập dữ liệu Wine có thể được tải bằng hàm từ mô-đun sklearn.datasets. load_wine() from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names Mã để tải tập dữ liệu Chất lượng rượu bằng sklearn. Lấy ra từ ngày 28/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 6. Ung thư vú Bộ dữ liệu Wisconsin Bộ dữ liệu sklearn này bao gồm thông tin về các khối u ung thư vú và ban đầu được tạo ra bởi Tiến sĩ William H. Wolberg. Bộ dữ liệu được tạo ra để hỗ trợ các nhà nghiên cứu và học viên máy học phân loại khối u thành ác tính (ung thư) hoặc lành tính (không ung thư). Một số biến có trong tập dữ liệu này: số ID Chẩn đoán (M = ác tính, B = lành tính). Bán kính (giá trị trung bình của khoảng cách từ tâm đến các điểm trên chu vi). Kết cấu (độ lệch chuẩn của các giá trị thang độ xám). Chu vi Khu vực Độ nhẵn (sự thay đổi cục bộ về độ dài bán kính). Độ gọn (chu vi^2 / diện tích - 1,0). Độ lõm (mức độ nghiêm trọng của các phần lõm của đường viền). Điểm lõm (số phần lõm của đường viền). Đối diện Kích thước Fractal ("xấp xỉ đường bờ biển" - 1). Bạn có thể tải bộ dữ liệu Wisconsin về Ung thư vú trực tiếp từ sklearn bằng cách sử dụng hàm từ mô-đun sklearn.datasets. load_breast_cancer from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe()) Mã để tải bộ dữ liệu Ung thư vú Wisconsin bằng sklearn. Lấy ra từ ngày 28/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html Bộ dữ liệu Sklearn trong thế giới thực Bộ dữ liệu sklearn trong thế giới thực dựa trên các vấn đề trong thế giới thực, thường được sử dụng để thực hành và thử nghiệm các thuật toán và kỹ thuật học máy bằng thư viện sklearn trong Python. 7. nhà ở Boston Bộ dữ liệu Nhà ở Boston bao gồm thông tin về nhà ở trong khu vực Boston, Massachusetts. Nó có khoảng 506 hàng và 14 cột dữ liệu. Một số biến trong tập dữ liệu bao gồm: TỘI PHẠM - Tỷ lệ tội phạm bình quân đầu người theo thị trấn. ZN - Tỷ lệ đất ở được quy hoạch cho các lô trên 25.000 bộ vuông. INDUS - Tỷ lệ mẫu đất kinh doanh phi bán lẻ trên mỗi thị trấn. CHAS - Biến giả sông Charles (= 1 nếu đường giáp sông; 0 nếu ngược lại). NOX - Nồng độ oxit nitric (phần trên 10 triệu). RM - Số phòng trung bình trên một căn nhà. TUỔI - Tỷ lệ các đơn vị sở hữu chủ sở hữu được xây dựng trước năm 1940. DIS - Khoảng cách có trọng số đến năm trung tâm việc làm ở Boston. RAD - Chỉ số khả năng tiếp cận các đường cao tốc xuyên tâm. THUẾ - Thuế suất bất động sản toàn giá trị cho mỗi $10.000. PTRATIO - Tỷ lệ học sinh-giáo viên theo thị trấn. B - 1000(Bk - 0,63)^2 trong đó -Bk là tỷ lệ người da đen theo thị trấn. LSTAT - Tỷ lệ phần trăm địa vị thấp hơn của dân số. MEDV - Giá trị trung bình của những ngôi nhà do chủ sở hữu cư ngụ tính bằng $1000. Bạn có thể tải tập dữ liệu Nhà ở Boston trực tiếp từ scikit-learning bằng cách sử dụng hàm từ mô-đun sklearn.datasets. load_boston from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe()) Mã để tải tập dữ liệu Nhà ở Boston bằng sklearn. Lấy ra từ ngày 29/3/2023. https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html số 8. Khuôn mặt Olivetti Bộ dữ liệu Khuôn mặt Olivetti là tập hợp các hình ảnh thang độ xám của khuôn mặt người được chụp từ tháng 4 năm 1992 đến tháng 4 năm 1994 tại Phòng thí nghiệm AT&T. Nó chứa 400 hình ảnh của 10 cá nhân, với mỗi cá nhân có 40 hình ảnh được chụp ở các góc độ và điều kiện ánh sáng khác nhau. Bạn có thể tải bộ dữ liệu Olivetti Faces trong sklearn bằng cách sử dụng hàm từ mô-đun bộ dữ liệu. fetch_olivetti_faces from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target Mã để tải bộ dữ liệu Olivetti Faces bằng sklearn. Lấy ra từ ngày 29/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 9. nhà ở California Bộ dữ liệu sklearn này chứa thông tin về giá trị nhà ở trung bình, cũng như các thuộc tính cho các vùng điều tra dân số ở California. Nó cũng bao gồm 20.640 phiên bản và 8 tính năng. Một số biến trong tập dữ liệu: MedInc - Thu nhập trung bình trong khối. HouseAge - Tuổi trung bình của các ngôi nhà trong khối. AveRooms - Số phòng trung bình cho mỗi hộ gia đình. AveBedrms - Số phòng ngủ trung bình của mỗi hộ gia đình. Dân số - Dân số khối. AveOccup - Công suất hộ gia đình trung bình. Vĩ độ - Vĩ độ của khối theo độ thập phân. Kinh độ - Kinh độ của khối theo độ thập phân. Bạn có thể tải tập dữ liệu Nhà ở California bằng cách sử dụng hàm từ sklearn. fetch_california_housing from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target Mã để tải bộ dữ liệu Nhà ở California bằng sklearn. Lấy ra từ ngày 29/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 10. MNIST Bộ dữ liệu MNIST phổ biến và được sử dụng rộng rãi trong các lĩnh vực học máy và thị giác máy tính. Nó bao gồm 70.000 hình ảnh thang độ xám của các chữ số viết tay từ 0–9, với 60.000 hình ảnh để đào tạo và 10.000 để kiểm tra. Mỗi hình ảnh có kích thước 28x28 pixel và có một nhãn tương ứng biểu thị các chữ số mà nó đại diện. Bạn có thể tải tập dữ liệu MNIST từ sklearn bằng mã sau: from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') Lưu ý: Tập dữ liệu MNIST là một tập hợp con của tập dữ liệu Digits. Mã để tải tập dữ liệu MNIST bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 11. Thời trang-MNIST Bộ dữ liệu Fashion MNIST do Zalando Research tạo ra để thay thế cho bộ dữ liệu MNIST ban đầu. Bộ dữ liệu Fashion MNIST bao gồm 70.000 hình ảnh thang độ xám (tập huấn luyện 60.000 và tập kiểm tra 10.000) mặt hàng quần áo. Hình ảnh có kích thước 28x28 pixel và đại diện cho 10 loại mặt hàng quần áo khác nhau, bao gồm áo phông/áo, quần tây, áo chui đầu, váy, áo khoác, xăng đan, áo sơ mi, giày thể thao, túi xách và bốt đến mắt cá chân. Nó tương tự như bộ dữ liệu MNIST ban đầu, nhưng với các nhiệm vụ phân loại khó khăn hơn do sự phức tạp và đa dạng hơn của các mặt hàng quần áo. Bạn có thể tải tập dữ liệu sklearn này bằng hàm fetch_openml. from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST') Mã để tải bộ dữ liệu Fashion MNIST bằng sklearn. Đã lấy từ__ __ vào ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml Bộ dữ liệu Sklearn đã tạo Bộ dữ liệu sklearn đã tạo là bộ dữ liệu tổng hợp, được tạo bằng thư viện sklearn trong Python. Chúng được sử dụng để thử nghiệm, đo điểm chuẩn và phát triển các mô hình/thuật toán học máy. 12. make_classification Hàm này tạo tập dữ liệu phân loại n lớp ngẫu nhiên với số lượng mẫu, tính năng và tính năng thông tin được chỉ định. Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và 3 lớp: from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42) Mã này tạo ra một tập dữ liệu với 100 mẫu và 5 tính năng, với 3 lớp và 3 tính năng cung cấp thông tin. Các tính năng còn lại sẽ dư thừa hoặc nhiễu. Mã để tải tập dữ liệu make_classification bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 13. make_regression Hàm này tạo tập dữ liệu hồi quy ngẫu nhiên với số lượng mẫu, tính năng và nhiễu được chỉ định. Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và mức độ nhiễu là 0,1: from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42) Mã này tạo tập dữ liệu có 100 mẫu và 5 tính năng, với độ nhiễu là 0,1. Biến mục tiêu y sẽ là một biến liên tục. Mã để tải tập dữ liệu make_regression bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 14. make_blobs Hàm này tạo một tập dữ liệu ngẫu nhiên với số lượng mẫu và cụm được chỉ định. Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu và 3 cụm: from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42) Mã này tạo tập dữ liệu có 100 mẫu và 2 tính năng (tọa độ x và y), với 3 cụm được đặt ở giữa tại các vị trí ngẫu nhiên và không có nhiễu. Mã để tải tập dữ liệu make_blobs bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 15. make_moons Và make_circles Các hàm này tạo các bộ dữ liệu có ranh giới phi tuyến tính, hữu ích để thử nghiệm các thuật toán phân loại phi tuyến tính. Đây là mã ví dụ để tải bộ dữ liệu make_moons: từ sklearn.datasets nhập make_moons X, y = make_moons(n_samples=1000, noise=0.2, random_state=42) Mã này tạo ra một tập dữ liệu với 1000 mẫu và 2 tính năng (tọa độ x và y) với ranh giới phi tuyến tính giữa hai lớp và với 0,2 độ lệch chuẩn của nhiễu Gaussian được thêm vào dữ liệu. Mã để tải tập dữ liệu make_moons bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons Đây là mã ví dụ để tạo và tải tập dữ liệu make_circles: from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42) Mã để tải tập dữ liệu make_circles bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 16. make_sparse_coded_signal Chức năng này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt, hữu ích để thử nghiệm các thuật toán cảm biến nén. Đây là mã ví dụ để tải tập dữ liệu sklearn này: from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42) Mã này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt với 100 mẫu, 50 tính năng và 10 nguyên tử. Mã để tải tập dữ liệu make_sparse_coded_signal bằng sklearn. Lấy ra từ ngày 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal Các trường hợp sử dụng phổ biến cho Bộ dữ liệu Sklearn Bộ dữ liệu Sklearn được cài đặt sẵn (đồ chơi) - Bộ dữ liệu sklearn này thường được sử dụng cho các nhiệm vụ phân loại và được sử dụng làm bộ dữ liệu chuẩn để thử nghiệm các thuật toán phân loại. diên vĩ - Bộ dữ liệu này chứa thông tin y tế về bệnh nhân tiểu đường và được sử dụng cho các nhiệm vụ phân loại và hồi quy trong phân tích chăm sóc sức khỏe. Bệnh tiểu đường - Bộ dữ liệu sklearn này chứa hình ảnh của các chữ số viết tay và thường được sử dụng cho các nhiệm vụ nhận dạng mẫu và phân loại hình ảnh. chữ số - Bộ dữ liệu này chứa dữ liệu về thể lực và y tế của 20 vận động viên và được sử dụng phổ biến để phân tích hồi quy đa biến. Linnerud - Bộ dữ liệu sklearn này chứa các phân tích hóa học về rượu vang và thường được sử dụng cho các nhiệm vụ phân loại và phân cụm. Rượu - Bộ dữ liệu này chứa thông tin y tế về bệnh nhân ung thư vú và thường được sử dụng cho các nhiệm vụ phân loại trong phân tích chăm sóc sức khỏe. Ung thư vú Wisconsin Bộ dữ liệu Sklearn trong thế giới thực - Bộ dữ liệu sklearn này chứa thông tin về nhà ở ở Boston và thường được sử dụng cho các tác vụ hồi quy. nhà ở Boston - Bộ dữ liệu này chứa các hình ảnh thang độ xám của khuôn mặt và thường được sử dụng cho các nhiệm vụ phân loại hình ảnh và nhận dạng khuôn mặt. Khuôn mặt Olivetti - Bộ dữ liệu sklearn này chứa thông tin về nhà ở tại California và thường được sử dụng cho các tác vụ hồi quy. nhà ở California - Bộ dữ liệu này chứa hình ảnh của các chữ số viết tay và thường được sử dụng cho các nhiệm vụ phân loại hình ảnh và nhận dạng mẫu. MNIST - Bộ dữ liệu sklearn này chứa hình ảnh của các mặt hàng quần áo và thường được sử dụng cho các tác vụ nhận dạng mẫu và phân loại hình ảnh. Thời trang-MNIST Bộ dữ liệu Sklearn đã tạo - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ phân loại nhị phân và đa lớp. make_classification - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ hồi quy. make_regression - Tập dữ liệu sklearn này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ phân cụm. make_blobs Và - Các bộ dữ liệu này là các bộ dữ liệu được tạo ngẫu nhiên cho các nhiệm vụ phân loại và thường được sử dụng để thử nghiệm các bộ phân loại phi tuyến. make_moons make_circles - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ mã hóa thưa thớt trong xử lý tín hiệu. make_sparse_coded_signal Suy nghĩ cuối cùng Bộ dữ liệu Sklearn cung cấp một cách thuận tiện để các nhà phát triển và nhà nghiên cứu kiểm tra và đánh giá các mô hình máy học mà không cần phải thu thập và xử lý trước dữ liệu theo cách thủ công. Chúng cũng có sẵn cho mọi người tải xuống và sử dụng miễn phí. Hình ảnh chính của bài viết này được tạo thông qua mô hình bằng cách sử dụng dấu nhắc 'bộ dữ liệu mống mắt'. Khuếch tán ổn định AI của HackerNoon Danh sách tập dữ liệu khác: Bộ dữ liệu Excel Bộ dữ liệu máy ảnh Bộ dữ liệu R