16 melhores conjuntos de dados do Sklearn para construir modelos de aprendizado de máquina

Os dados alimentam algoritmos de aprendizado de máquina e scikit-learn ou oferece conjuntos de dados de alta qualidade que são amplamente utilizados por pesquisadores, profissionais e entusiastas. Scikit-learn (sklearn) é um módulo Python para aprendizado de máquina construído sobre o SciPy. É único devido à sua ampla gama de algoritmos, facilidade de uso e integração com outras bibliotecas Python. sklearn O que são “conjuntos de dados do Sklearn”? Os conjuntos de dados Sklearn são incluídos como parte do scikit-learn ( ) biblioteca, então eles vêm pré-instalados com a biblioteca. Devido a isso, você pode acessar e carregar facilmente esses conjuntos de dados, sem precisar baixá-los separadamente. sklearn Para usar um conjunto de dados específico, você pode simplesmente importá-lo do módulo sklearn.datasets e chamar a função apropriada para carregar os dados em seu programa. Esses conjuntos de dados geralmente são pré-processados e prontos para uso, o que economiza tempo e esforço para profissionais de dados que precisam experimentar diferentes modelos e algoritmos de aprendizado de máquina. Lista completa de conjuntos de dados na biblioteca Sklearn Íris Diabetes Dígitos Linnerud Vinho Câncer de mama Wisconsin Habitação em Boston Rostos de Olivetti Residência na Califórnia MNIST Moda-MNIST make_classification make_regression make_blobs make_moons e make_circles Make_sparse_coded_signal Conjuntos de dados Sklearn pré-instalados (brinquedo) 1. Íris Este conjunto de dados inclui medições do comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala de 150 flores de íris, que pertencem a 3 espécies diferentes: setosa, versicolor e virginica. O dataset iris possui 150 linhas e 5 colunas, que são armazenadas como um dataframe, incluindo uma coluna para as espécies de cada flor. As variáveis incluem: Sepal.Length - O sepal.length representa o comprimento da sépala em centímetros. Sepal.Width - O sepal.width representa a largura da sépala em centímetros. Petal.Length - O petal.length representa o comprimento da pétala em centímetros. Espécie - A variável espécie representa a espécie da flor íris, com três valores possíveis: setosa, versicolor e virginica. Você pode carregar o conjunto de dados da íris diretamente do sklearn usando a função do módulo sklearn.datasets. load_iris # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe()) Código para carregar o conjunto de dados Iris usando sklearn. Recuperado de em 27/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 2. Diabetes Este conjunto de dados sklearn contém informações sobre 442 pacientes com diabetes, incluindo medições demográficas e clínicas: Idade Sexo Índice de massa corporal (IMC) Pressão arterial média Seis medições de soro sanguíneo (por exemplo, colesterol total, colesterol de lipoproteína de baixa densidade (LDL), colesterol de lipoproteína de alta densidade (HDL)). Uma medida quantitativa da progressão da doença do diabetes (HbA1c). O conjunto de dados Diabetes pode ser carregado usando a função do módulo sklearn.datasets. load_diabetes() from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe()) Código para carregar o conjunto de dados Diabetes usando sklearn. Recuperado de em 28/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 3. Dígitos Este conjunto de dados sklearn é uma coleção de dígitos escritos à mão de 0 a 9, armazenados como imagens em tons de cinza. Ele contém um total de 1797 amostras, com cada amostra sendo uma matriz 2D de forma (8,8). Existem 64 variáveis (ou recursos) no conjunto de dados do sklearn de dígitos, correspondendo aos 64 pixels em cada imagem de dígito. O conjunto de dados Digits pode ser carregado usando a função do módulo sklearn.datasets. load_digits() from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target) Código para carregar o conjunto de dados Digits usando sklearn. Recuperado de em 29/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset 4. Linnerud O conjunto de dados Linnerud contém medições físicas e fisiológicas de 20 atletas profissionais. O conjunto de dados inclui as seguintes variáveis: Três variáveis de exercício físico - chin-ups, sit-ups e polichinelos. Três variáveis de medição fisiológicas - pulso, pressão arterial sistólica e pressão arterial diastólica. Para carregar o conjunto de dados Linnerud em Python usando sklearn: from sklearn.datasets import load_linnerud linnerud = load_linnerud() Código para carregar o conjunto de dados linnerud usando sklearn. Recuperado de em 27/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 5. Vinho Este conjunto de dados sklearn contém os resultados de análises químicas de vinhos cultivados em uma área específica da Itália, para classificar os vinhos em suas variedades corretas. Algumas das variáveis no conjunto de dados: Álcool ácido málico Cinzas Alcalinidade das cinzas Magnésio fenóis totais Flavonóides O conjunto de dados Wine pode ser carregado usando a função do módulo sklearn.datasets. load_wine() from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names Código para carregar o conjunto de dados Wine Quality usando sklearn. Recuperado de em 28/3/2023. https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 6. Conjunto de dados de câncer de mama em Wisconsin Este conjunto de dados sklearn consiste em informações sobre tumores de câncer de mama e foi inicialmente criado pelo Dr. William H. Wolberg. O conjunto de dados foi criado para auxiliar pesquisadores e profissionais de aprendizado de máquina na classificação de tumores como malignos (cancerígenos) ou benignos (não cancerosos). Algumas das variáveis incluídas neste conjunto de dados: número de identidade Diagnóstico (M = maligno, B = benigno). Raio (a média das distâncias do centro aos pontos no perímetro). Textura (o desvio padrão dos valores da escala de cinza). Perímetro Área Suavidade (a variação local nos comprimentos dos raios). Compacidade (o perímetro^2 / área - 1,0). Concavidade (a gravidade das porções côncavas do contorno). Pontos côncavos (o número de porções côncavas do contorno). Simetria Dimensão fractal ("aproximação do litoral" - 1). Você pode carregar o conjunto de dados Breast Cancer Wisconsin diretamente do sklearn usando a função do módulo sklearn.datasets. load_breast_cancer from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe()) Código para carregar o conjunto de dados Breast Cancer Wisconsin usando sklearn. Recuperado de em 28/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html Conjuntos de dados Sklearn do mundo real Os conjuntos de dados sklearn do mundo real são baseados em problemas do mundo real, comumente usados para praticar e experimentar algoritmos e técnicas de aprendizado de máquina usando a biblioteca sklearn em Python. 7. Habitação em Boston O conjunto de dados de habitação de Boston consiste em informações sobre habitação na área de Boston, Massachusetts. Tem cerca de 506 linhas e 14 colunas de dados. Algumas das variáveis no conjunto de dados incluem: CRIM - Índice de criminalidade per capita por município. ZN - A proporção de terreno residencial zoneada para lotes acima de 25.000 pés quadrados. INDUS - A proporção de hectares de negócios não varejistas por cidade. CHAS - Variável dummy Charles River (= 1 se o trecho limita o rio; 0 caso contrário). NOX - A concentração de óxido nítrico (partes por 10 milhões). RM - Número médio de divisões por habitação. IDADE - A proporção de unidades ocupadas pelo proprietário construídas antes de 1940. DIS - As distâncias ponderadas para cinco centros de emprego de Boston. RAD - Índice de acessibilidade às rodovias radiais. IMPOSTO - A taxa de imposto de propriedade de valor total por $ 10.000. PTRATIO - A relação aluno-professor por cidade. B - 1000(Bk - 0,63)^2 onde -Bk é a proporção de negros por município. LSTAT - O status inferior percentual da população. MEDV - O valor médio das casas ocupadas pelo proprietário em US$ 1.000. Você pode carregar o conjunto de dados Boston Housing diretamente do scikit-learn usando a função do módulo sklearn.datasets. load_boston from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe()) Código para carregar o conjunto de dados do Boston Housing usando sklearn. Recuperado de em 29/3/2023. https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html 8. Rostos de Olivetti O conjunto de dados Olivetti Faces é uma coleção de imagens em tons de cinza de rostos humanos tiradas entre abril de 1992 e abril de 1994 nos Laboratórios AT&T. Ele contém 400 imagens de 10 indivíduos, com cada indivíduo tendo 40 imagens tiradas em diferentes ângulos e diferentes condições de iluminação. Você pode carregar o conjunto de dados Olivetti Faces no sklearn usando a função do módulo de conjuntos de dados. fetch_olivetti_faces from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target Código para carregar o conjunto de dados Olivetti Faces usando sklearn. Recuperado de em 29/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 9. Residência na Califórnia Este conjunto de dados sklearn contém informações sobre os valores medianos das casas, bem como atributos para setores censitários na Califórnia. Ele também inclui 20.640 instâncias e 8 recursos. Algumas das variáveis no conjunto de dados: MedInc - A renda mediana no bloco. HouseAge - A idade média das casas no bloco. AveRooms - O número médio de cômodos por residência. AveBedrms - O número médio de quartos por residência. População - A população do bloco. AveOccup - A ocupação média do agregado familiar. Latitude - A latitude do bloco em graus decimais. Longitude - A longitude do bloco em graus decimais. Você pode carregar o conjunto de dados California Housing usando a função do sklearn. fetch_california_housing from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target Código para carregar o conjunto de dados California Housing usando sklearn. Recuperado de em 29/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 10. MNIST O conjunto de dados MNIST é popular e amplamente utilizado nas áreas de aprendizado de máquina e visão computacional. Consiste em 70.000 imagens em tons de cinza de dígitos manuscritos de 0 a 9, com 60.000 imagens para treinamento e 10.000 para teste. Cada imagem tem 28x28 pixels de tamanho e possui um rótulo correspondente indicando quais dígitos ela representa. Você pode carregar o conjunto de dados MNIST do sklearn usando o seguinte código: from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') Nota: O conjunto de dados MNIST é um subconjunto do conjunto de dados Digits. Código para carregar o conjunto de dados MNIST usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 11. Moda-MNIST O conjunto de dados Fashion MNIST foi criado pela Zalando Research como um substituto para o conjunto de dados MNIST original. O conjunto de dados Fashion MNIST consiste em 70.000 imagens em tons de cinza (conjunto de treinamento de 60.000 e um conjunto de teste de 10.000) de itens de vestuário. As imagens têm tamanho de 28 x 28 pixels e representam 10 classes diferentes de itens de vestuário, incluindo camisetas/blusas, calças, pulôveres, vestidos, casacos, sandálias, camisas, tênis, bolsas e botins. É semelhante ao conjunto de dados MNIST original, mas com tarefas de classificação mais desafiadoras devido à maior complexidade e variedade dos itens de vestuário. Você pode carregar este conjunto de dados sklearn usando a função fetch_openml. from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST') Código para carregar o conjunto de dados Fashion MNIST usando sklearn. Recuperado de__ __ em 30/3/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml Conjuntos de dados do Sklearn gerados Conjuntos de dados sklearn gerados são conjuntos de dados sintéticos, gerados usando a biblioteca sklearn em Python. Eles são usados para testar, comparar e desenvolver algoritmos/modelos de aprendizado de máquina. 12. make_classification Essa função gera um conjunto de dados de classificação de n classes aleatório com um número especificado de amostras, recursos e recursos informativos. Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e 3 classes: from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42) Esse código gera um conjunto de dados com 100 amostras e 5 recursos, sendo 3 classes e 3 recursos informativos. Os recursos restantes serão redundantes ou ruído. Código para carregar o conjunto de dados make_classification usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 13. make_regression Essa função gera um conjunto de dados de regressão aleatória com um número especificado de amostras, recursos e ruído. Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e nível de ruído de 0,1: from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42) Este código gera um conjunto de dados com 100 amostras e 5 características, com um nível de ruído de 0,1. A variável de destino y será uma variável contínua. Código para carregar o conjunto de dados make_regression usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 14. make_blobs Essa função gera um conjunto de dados aleatório com um número especificado de amostras e clusters. Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras e 3 clusters: from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42) Esse código gera um conjunto de dados com 100 amostras e 2 recursos (coordenadas x e y), com 3 clusters centralizados em locais aleatórios e sem ruído. Código para carregar o conjunto de dados make_blobs usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 15. make_moons e fazer_círculos Essas funções geram conjuntos de dados com limites não lineares que são úteis para testar algoritmos de classificação não linear. Aqui está um exemplo de código para carregar o conjunto de dados make_moons: de sklearn.datasets import make_moons X, y = make_moons(n_samples=1000, noise=0.2, random_state=42) Esse código gera um conjunto de dados com 1.000 amostras e 2 recursos (coordenadas x e y) com um limite não linear entre as duas classes e com 0,2 desvios padrão de ruído gaussiano adicionado aos dados. Código para carregar o conjunto de dados make_moons usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons Aqui está um exemplo de código para gerar e carregar o conjunto de dados make_circles: from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42) Código para carregar o conjunto de dados make_circles usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 16. make_sparse_coded_signal Esta função gera um conjunto de dados de sinal codificado esparso que é útil para testar algoritmos de detecção compressiva. Aqui está um código de exemplo para carregar este conjunto de dados sklearn: from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42) Esse código gera um conjunto de dados de sinal codificado esparso com 100 amostras, 50 recursos e 10 átomos. Código para carregar o conjunto de dados make_sparse_coded_signal usando sklearn. Recuperado de em 30/03/2023. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal Casos de uso comuns para conjuntos de dados do Sklearn Conjuntos de dados Sklearn pré-instalados (brinquedo) - Este conjunto de dados sklearn é comumente usado para tarefas de classificação e é usado como um conjunto de dados de referência para testar algoritmos de classificação. Íris - Este conjunto de dados contém informações médicas sobre pacientes com diabetes e é usado para tarefas de classificação e regressão em análises de saúde. Diabetes - Este conjunto de dados sklearn contém imagens de dígitos manuscritos e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões. Dígitos - Este conjunto de dados contém dados médicos e de aptidão física de 20 atletas e é comumente usado para análise de regressão multivariada. Linnerud - Este conjunto de dados sklearn contém análises químicas de vinhos e é comumente usado para tarefas de classificação e agrupamento. Vinho - Este conjunto de dados contém informações médicas sobre pacientes com câncer de mama e é comumente usado para tarefas de classificação em análises de assistência médica. Câncer de mama Wisconsin Conjuntos de dados Sklearn do mundo real - Este conjunto de dados sklearn contém informações sobre habitação em Boston e é comumente usado para tarefas de regressão. Habitação em Boston - Este conjunto de dados contém imagens em tons de cinza de rostos e é comumente usado para classificação de imagens e tarefas de reconhecimento facial. Rostos de Olivetti - Este conjunto de dados sklearn contém informações sobre habitação na Califórnia e é comumente usado para tarefas de regressão. Residência na Califórnia - Este conjunto de dados contém imagens de dígitos manuscritos e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões. MNIST - Este conjunto de dados sklearn contém imagens de itens de vestuário e é comumente usado para classificação de imagens e tarefas de reconhecimento de padrões. Moda-MNIST Conjuntos de dados do Sklearn gerados - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de classificação binária e multiclasse. make_classification - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de regressão. make_regression - Este conjunto de dados sklearn é um conjunto de dados gerado aleatoriamente para tarefas de agrupamento. make_blobs e - Esses conjuntos de dados são conjuntos de dados gerados aleatoriamente para tarefas de classificação e são comumente usados para testar classificadores não lineares. make_moons fazer_círculos - Este conjunto de dados é um conjunto de dados gerado aleatoriamente para tarefas de codificação esparsa no processamento de sinal. make_sparse_coded_signal Pensamentos finais Os conjuntos de dados do Sklearn fornecem uma maneira conveniente para desenvolvedores e pesquisadores testarem e avaliarem modelos de aprendizado de máquina sem precisar coletar e pré-processar manualmente os dados. Eles também estão disponíveis para qualquer pessoa baixar e usar livremente. A imagem principal deste artigo foi gerada por meio do modelo usando o prompt 'iris dataset'. AI Stable Diffusion do HackerNoon Mais listas de conjuntos de dados: Conjuntos de dados do Excel Conjuntos de dados Keras Conjuntos de dados R

16 melhores conjuntos de dados do Sklearn para construir modelos de aprendizado de máquina

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps