paint-brush
16 melhores conjuntos de dados do Sklearn para construir modelos de aprendizado de máquinapor@datasets
30,247 leituras
30,247 leituras

16 melhores conjuntos de dados do Sklearn para construir modelos de aprendizado de máquina

Muito longo; Para ler

Sklearn é um módulo Python para aprendizado de máquina construído sobre o SciPy. É único devido à sua ampla gama de algoritmos e facilidade de uso. Os dados alimentam os algoritmos de aprendizado de máquina e o scikit-learn. Sklearn oferece conjuntos de dados de alta qualidade que são amplamente utilizados por pesquisadores, profissionais e entusiastas.
featured image - 16 melhores conjuntos de dados do Sklearn para construir modelos de aprendizado de máquina
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Os dados alimentam algoritmos de aprendizado de máquina e scikit-learn ou sklearn oferece conjuntos de dados de alta qualidade que são amplamente utilizados por pesquisadores, profissionais e entusiastas. Scikit-learn (sklearn) é um módulo Python para aprendizado de máquina construído sobre o SciPy. É único devido à sua ampla gama de algoritmos, facilidade de uso e integração com outras bibliotecas Python.

O que são “conjuntos de dados do Sklearn”?

Os conjuntos de dados Sklearn são incluídos como parte do scikit-learn ( sklearn ) biblioteca, então eles vêm pré-instalados com a biblioteca. Devido a isso, você pode acessar e carregar facilmente esses conjuntos de dados, sem precisar baixá-los separadamente.


Para usar um conjunto de dados específico, você pode simplesmente importá-lo do módulo sklearn.datasets e chamar a função apropriada para carregar os dados em seu programa.


Esses conjuntos de dados geralmente são pré-processados e prontos para uso, o que economiza tempo e esforço para profissionais de dados que precisam experimentar diferentes modelos e algoritmos de aprendizado de máquina.

Lista completa de conjuntos de dados na biblioteca Sklearn

  1. Íris
  2. Diabetes
  3. Dígitos
  4. Linnerud
  5. Vinho
  6. Câncer de mama Wisconsin
  7. Habitação em Boston
  8. Rostos de Olivetti
  9. Residência na Califórnia
  10. MNIST
  11. Moda-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons e make_circles
  16. Make_sparse_coded_signal

Conjuntos de dados Sklearn pré-instalados (brinquedo)

1. Íris

Este conjunto de dados inclui medições do comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala de 150 flores de íris, que pertencem a 3 espécies diferentes: setosa, versicolor e virginica. O dataset iris possui 150 linhas e 5 colunas, que são armazenadas como um dataframe, incluindo uma coluna para as espécies de cada flor.


As variáveis incluem:


  • Sepal.Length - O sepal.length representa o comprimento da sépala em centímetros.
  • Sepal.Width - O sepal.width representa a largura da sépala em centímetros.
  • Petal.Length - O petal.length representa o comprimento da pétala em centímetros.
  • Espécie - A variável espécie representa a espécie da flor íris, com três valores possíveis: setosa, versicolor e virginica.


Você pode carregar o conjunto de dados da íris diretamente do sklearn usando a função load_iris do módulo sklearn.datasets.


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


Código para carregar o conjunto de dados Iris usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html em 27/3/2023.

2. Diabetes

Este conjunto de dados sklearn contém informações sobre 442 pacientes com diabetes, incluindo medições demográficas e clínicas:

  • Idade
  • Sexo
  • Índice de massa corporal (IMC)
  • Pressão arterial média
  • Seis medições de soro sanguíneo (por exemplo, colesterol total, colesterol de lipoproteína de baixa densidade (LDL), colesterol de lipoproteína de alta densidade (HDL)).
  • Uma medida quantitativa da progressão da doença do diabetes (HbA1c).


O conjunto de dados Diabetes pode ser carregado usando a função load_diabetes() do módulo sklearn.datasets.


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


Código para carregar o conjunto de dados Diabetes usando sklearn. Recuperado de https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset em 28/3/2023.

3. Dígitos

Este conjunto de dados sklearn é uma coleção de dígitos escritos à mão de 0 a 9, armazenados como imagens em tons de cinza. Ele contém um total de 1797 amostras, com cada amostra sendo uma matriz 2D de forma (8,8). Existem 64 variáveis (ou recursos) no conjunto de dados do sklearn de dígitos, correspondendo aos 64 pixels em cada imagem de dígito.


O conjunto de dados Digits pode ser carregado usando a função load_digits() do módulo sklearn.datasets.


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


Código para carregar o conjunto de dados Digits usando sklearn. Recuperado de https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset em 29/3/2023.


4. Linnerud

O conjunto de dados Linnerud contém medições físicas e fisiológicas de 20 atletas profissionais.


O conjunto de dados inclui as seguintes variáveis:


  • Três variáveis de exercício físico - chin-ups, sit-ups e polichinelos.
  • Três variáveis de medição fisiológicas - pulso, pressão arterial sistólica e pressão arterial diastólica.


Para carregar o conjunto de dados Linnerud em Python usando sklearn:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


Código para carregar o conjunto de dados linnerud usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud em 27/3/2023.

5. Vinho

Este conjunto de dados sklearn contém os resultados de análises químicas de vinhos cultivados em uma área específica da Itália, para classificar os vinhos em suas variedades corretas.


Algumas das variáveis no conjunto de dados:


  • Álcool
  • ácido málico
  • Cinzas
  • Alcalinidade das cinzas
  • Magnésio
  • fenóis totais
  • Flavonóides


O conjunto de dados Wine pode ser carregado usando a função load_wine() do módulo sklearn.datasets.


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


Código para carregar o conjunto de dados Wine Quality usando sklearn. Recuperado de https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset em 28/3/2023.

6. Conjunto de dados de câncer de mama em Wisconsin

Este conjunto de dados sklearn consiste em informações sobre tumores de câncer de mama e foi inicialmente criado pelo Dr. William H. Wolberg. O conjunto de dados foi criado para auxiliar pesquisadores e profissionais de aprendizado de máquina na classificação de tumores como malignos (cancerígenos) ou benignos (não cancerosos).


Algumas das variáveis incluídas neste conjunto de dados:


  • número de identidade
  • Diagnóstico (M = maligno, B = benigno).
  • Raio (a média das distâncias do centro aos pontos no perímetro).
  • Textura (o desvio padrão dos valores da escala de cinza).
  • Perímetro
  • Área
  • Suavidade (a variação local nos comprimentos dos raios).
  • Compacidade (o perímetro^2 / área - 1,0).
  • Concavidade (a gravidade das porções côncavas do contorno).
  • Pontos côncavos (o número de porções côncavas do contorno).
  • Simetria
  • Dimensão fractal ("aproximação do litoral" - 1).


Você pode carregar o conjunto de dados Breast Cancer Wisconsin diretamente do sklearn usando a função load_breast_cancer do módulo sklearn.datasets.


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


Código para carregar o conjunto de dados Breast Cancer Wisconsin usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html em 28/3/2023.


Conjunto de dados de câncer de mama em Wisconsin

Conjuntos de dados Sklearn do mundo real

Os conjuntos de dados sklearn do mundo real são baseados em problemas do mundo real, comumente usados para praticar e experimentar algoritmos e técnicas de aprendizado de máquina usando a biblioteca sklearn em Python.

7. Habitação em Boston

O conjunto de dados de habitação de Boston consiste em informações sobre habitação na área de Boston, Massachusetts. Tem cerca de 506 linhas e 14 colunas de dados.


Algumas das variáveis no conjunto de dados incluem:


  • CRIM - Índice de criminalidade per capita por município.
  • ZN - A proporção de terreno residencial zoneada para lotes acima de 25.000 pés quadrados.
  • INDUS - A proporção de hectares de negócios não varejistas por cidade.
  • CHAS - Variável dummy Charles River (= 1 se o trecho limita o rio; 0 caso contrário).
  • NOX - A concentração de óxido nítrico (partes por 10 milhões).
  • RM - Número médio de divisões por habitação.
  • IDADE - A proporção de unidades ocupadas pelo proprietário construídas antes de 1940.
  • DIS - As distâncias ponderadas para cinco centros de emprego de Boston.
  • RAD - Índice de acessibilidade às rodovias radiais.
  • IMPOSTO - A taxa de imposto de propriedade de valor total por $ 10.000.
  • PTRATIO - A relação aluno-professor por cidade.
  • B - 1000(Bk - 0,63)^2 onde -Bk é a proporção de negros por município.
  • LSTAT - O status inferior percentual da população.
  • MEDV - O valor médio das casas ocupadas pelo proprietário em US$ 1.000.


Você pode carregar o conjunto de dados Boston Housing diretamente do scikit-learn usando a função load_boston do módulo sklearn.datasets.


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


Código para carregar o conjunto de dados do Boston Housing usando sklearn. Recuperado de https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html em 29/3/2023.

8. Rostos de Olivetti

O conjunto de dados Olivetti Faces é uma coleção de imagens em tons de cinza de rostos humanos tiradas entre abril de 1992 e abril de 1994 nos Laboratórios AT&T. Ele contém 400 imagens de 10 indivíduos, com cada indivíduo tendo 40 imagens tiradas em diferentes ângulos e diferentes condições de iluminação.


Você pode carregar o conjunto de dados Olivetti Faces no sklearn usando a função fetch_olivetti_faces do módulo de conjuntos de dados.


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


Código para carregar o conjunto de dados Olivetti Faces usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html em 29/3/2023.

9. Residência na Califórnia

Este conjunto de dados sklearn contém informações sobre os valores medianos das casas, bem como atributos para setores censitários na Califórnia. Ele também inclui 20.640 instâncias e 8 recursos.


Algumas das variáveis no conjunto de dados:


  • MedInc - A renda mediana no bloco.
  • HouseAge - A idade média das casas no bloco.
  • AveRooms - O número médio de cômodos por residência.
  • AveBedrms - O número médio de quartos por residência.
  • População - A população do bloco.
  • AveOccup - A ocupação média do agregado familiar.
  • Latitude - A latitude do bloco em graus decimais.
  • Longitude - A longitude do bloco em graus decimais.


Você pode carregar o conjunto de dados California Housing usando a função fetch_california_housing do sklearn.


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


Código para carregar o conjunto de dados California Housing usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html em 29/3/2023.

10. MNIST

O conjunto de dados MNIST é popular e amplamente utilizado nas áreas de aprendizado de máquina e visão computacional. Consiste em 70.000 imagens em tons de cinza de dígitos manuscritos de 0 a 9, com 60.000 imagens para treinamento e 10.000 para teste. Cada imagem tem 28x28 pixels de tamanho e possui um rótulo correspondente indicando quais dígitos ela representa.


Você pode carregar o conjunto de dados MNIST do sklearn usando o seguinte código:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


Nota: O conjunto de dados MNIST é um subconjunto do conjunto de dados Digits.


Código para carregar o conjunto de dados MNIST usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml em 30/03/2023.


11. Moda-MNIST

O conjunto de dados Fashion MNIST foi criado pela Zalando Research como um substituto para o conjunto de dados MNIST original. O conjunto de dados Fashion MNIST consiste em 70.000 imagens em tons de cinza (conjunto de treinamento de 60.000 e um conjunto de teste de 10.000) de itens de vestuário.


As imagens têm tamanho de 28 x 28 pixels e representam 10 classes diferentes de itens de vestuário, incluindo camisetas/blusas, calças, pulôveres, vestidos, casacos, sandálias, camisas, tênis, bolsas e botins. É semelhante ao conjunto de dados MNIST original, mas com tarefas de classificação mais desafiadoras devido à maior complexidade e variedade dos itens de vestuário.


Você pode carregar este conjunto de dados sklearn usando a função fetch_openml.


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


Código para carregar o conjunto de dados Fashion MNIST usando sklearn. Recuperado de__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ em 30/3/2023.

Conjuntos de dados do Sklearn gerados

Conjuntos de dados sklearn gerados são conjuntos de dados sintéticos, gerados usando a biblioteca sklearn em Python. Eles são usados para testar, comparar e desenvolver algoritmos/modelos de aprendizado de máquina.

12. make_classification

Essa função gera um conjunto de dados de classificação de n classes aleatório com um número especificado de amostras, recursos e recursos informativos.


Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e 3 classes:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


Esse código gera um conjunto de dados com 100 amostras e 5 recursos, sendo 3 classes e 3 recursos informativos. Os recursos restantes serão redundantes ou ruído.


Código para carregar o conjunto de dados make_classification usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification em 30/03/2023.

13. make_regression

Essa função gera um conjunto de dados de regressão aleatória com um número especificado de amostras, recursos e ruído.


Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e nível de ruído de 0,1:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


Este código gera um conjunto de dados com 100 amostras e 5 características, com um nível de ruído de 0,1. A variável de destino y será uma variável contínua.


Código para carregar o conjunto de dados make_regression usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression em 30/03/2023.

14. make_blobs

Essa função gera um conjunto de dados aleatório com um número especificado de amostras e clusters.


Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras e 3 clusters:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


Esse código gera um conjunto de dados com 100 amostras e 2 recursos (coordenadas x e y), com 3 clusters centralizados em locais aleatórios e sem ruído.


Código para carregar o conjunto de dados make_blobs usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs em 30/03/2023.

15. make_moons e fazer_círculos

Essas funções geram conjuntos de dados com limites não lineares que são úteis para testar algoritmos de classificação não linear.


Aqui está um exemplo de código para carregar o conjunto de dados make_moons:


de sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


Esse código gera um conjunto de dados com 1.000 amostras e 2 recursos (coordenadas x e y) com um limite não linear entre as duas classes e com 0,2 desvios padrão de ruído gaussiano adicionado aos dados.


Código para carregar o conjunto de dados make_moons usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons em 30/03/2023.


Aqui está um exemplo de código para gerar e carregar o conjunto de dados make_circles:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


Código para carregar o conjunto de dados make_circles usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles em 30/03/2023.

16. make_sparse_coded_signal

Esta função gera um conjunto de dados de sinal codificado esparso que é útil para testar algoritmos de detecção compressiva.


Aqui está um código de exemplo para carregar este conjunto de dados sklearn:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


Esse código gera um conjunto de dados de sinal codificado esparso com 100 amostras, 50 recursos e 10 átomos.


Código para carregar o conjunto de dados make_sparse_coded_signal usando sklearn. Recuperado de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal em 30/03/2023.


Casos de uso comuns para conjuntos de dados do Sklearn

Conjuntos de dados Sklearn pré-instalados (brinquedo)

Íris - Este conjunto de dados sklearn é comumente usado para tarefas de classificação e é usado como um conjunto de dados de referência para testar algoritmos de classificação.


Diabetes - Este conjunto de dados contém informações médicas sobre pacientes com diabetes e é usado para tarefas de classificação e regressão em análises de saúde.


Dígitos - Este conjunto de dados sklearn contém imagens de dígitos manuscritos e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões.


Linnerud - Este conjunto de dados contém dados médicos e de aptidão física de 20 atletas e é comumente usado para análise de regressão multivariada.


Vinho - Este conjunto de dados sklearn contém análises químicas de vinhos e é comumente usado para tarefas de classificação e agrupamento.


Câncer de mama Wisconsin - Este conjunto de dados contém informações médicas sobre pacientes com câncer de mama e é comumente usado para tarefas de classificação em análises de assistência médica.

Conjuntos de dados Sklearn do mundo real

Habitação em Boston - Este conjunto de dados sklearn contém informações sobre habitação em Boston e é comumente usado para tarefas de regressão.


Rostos de Olivetti - Este conjunto de dados contém imagens em tons de cinza de rostos e é comumente usado para classificação de imagens e tarefas de reconhecimento facial.


Residência na Califórnia - Este conjunto de dados sklearn contém informações sobre habitação na Califórnia e é comumente usado para tarefas de regressão.


MNIST - Este conjunto de dados contém imagens de dígitos manuscritos e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões.


Moda-MNIST - Este conjunto de dados sklearn contém imagens de itens de vestuário e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões.

Conjuntos de dados do Sklearn gerados

make_classification - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de classificação binária e multiclasse.


make_regression - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de regressão.


make_blobs - Este conjunto de dados sklearn é um conjunto de dados gerado aleatoriamente para tarefas de agrupamento.


make_moons e fazer_círculos - Esses conjuntos de dados são conjuntos de dados gerados aleatoriamente para tarefas de classificação e são comumente usados para testar classificadores não lineares.


make_sparse_coded_signal - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de codificação esparsa no processamento de sinal.

Pensamentos finais

Os conjuntos de dados do Sklearn fornecem uma maneira conveniente para desenvolvedores e pesquisadores testarem e avaliarem modelos de aprendizado de máquina sem precisar coletar e pré-processar manualmente os dados.


Eles também estão disponíveis para qualquer pessoa baixar e usar livremente.


A imagem principal deste artigo foi gerada por meio do modelo AI Stable Diffusion do HackerNoon usando o prompt 'iris dataset'.


Mais listas de conjuntos de dados:

  1. Conjuntos de dados do Excel
  2. Conjuntos de dados Keras
  3. Conjuntos de dados R