paint-brush
Los 16 mejores conjuntos de datos de Sklearn para crear modelos de aprendizaje automáticopor@datasets
30,247 lecturas
30,247 lecturas

Los 16 mejores conjuntos de datos de Sklearn para crear modelos de aprendizaje automático

Demasiado Largo; Para Leer

Sklearn es un módulo de Python para el aprendizaje automático construido sobre SciPy. Es único debido a su amplia gama de algoritmos y facilidad de uso. Los datos potencian los algoritmos de aprendizaje automático y scikit-learn. Sklearn ofrece conjuntos de datos de alta calidad que son ampliamente utilizados por investigadores, profesionales y entusiastas.
featured image - Los 16 mejores conjuntos de datos de Sklearn para crear modelos de aprendizaje automático
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Los datos potencian los algoritmos de aprendizaje automático y scikit-learn o aprender ofrece conjuntos de datos de alta calidad que son ampliamente utilizados por investigadores, profesionales y entusiastas. Scikit-learn (sklearn) es un módulo de Python para el aprendizaje automático construido sobre SciPy. Es único debido a su amplia gama de algoritmos, facilidad de uso e integración con otras bibliotecas de Python.

¿Qué son los "conjuntos de datos de Sklearn"?

Los conjuntos de datos de Sklearn se incluyen como parte de scikit-learn ( aprender ), por lo que vienen preinstalados con la biblioteca. Debido a esto, puede acceder y cargar fácilmente estos conjuntos de datos, sin tener que descargarlos por separado.


Para usar un conjunto de datos específico, simplemente puede importarlo desde el módulo sklearn.datasets y llamar a la función adecuada para cargar los datos en su programa.


Estos conjuntos de datos generalmente se procesan previamente y están listos para usar, lo que ahorra tiempo y esfuerzo a los profesionales de datos que necesitan experimentar con diferentes modelos y algoritmos de aprendizaje automático.

Lista completa de conjuntos de datos en la biblioteca de Sklearn

  1. Iris
  2. Diabetes
  3. dígitos
  4. Linnerud
  5. Vino
  6. Cáncer de mama Wisconsin
  7. Boston Vivienda
  8. Rostros Olivetti
  9. Vivienda en California
  10. MNIST
  11. Moda-MNIST
  12. hacer_clasificación
  13. hacer_regresión
  14. hacer_blobs
  15. hacer_lunas y hacer_círculos
  16. Make_sparse_coded_signal

Conjuntos de datos de Sklearn preinstalados (juguete)

1. Iris

Este conjunto de datos incluye medidas de la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo de 150 flores de iris, que pertenecen a 3 especies diferentes: setosa, versicolor y virginica. El conjunto de datos del iris tiene 150 filas y 5 columnas, que se almacenan como un marco de datos, incluida una columna para la especie de cada flor.


Las variables incluyen:


  • Sepal.Length - La longitud del sépalo representa la longitud del sépalo en centímetros.
  • Sépalo.Ancho - El sépalo.ancho representa el ancho del sépalo en centímetros.
  • Petal.Length: petal.length representa la longitud del pétalo en centímetros.
  • Especie - La variable especie representa la especie de la flor del iris, con tres valores posibles: setosa, versicolor y virginica.


Puede cargar el conjunto de datos del iris directamente desde sklearn utilizando la función load_iris del módulo sklearn.datasets.


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


Código para cargar el conjunto de datos de Iris usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html el 27/3/2023.

2. Diabetes

Este conjunto de datos de Sklearn contiene información sobre 442 pacientes con diabetes, incluidas mediciones demográficas y clínicas:

  • Edad
  • Sexo
  • Índice de masa corporal (IMC)
  • Presión arterial promedio
  • Seis mediciones de suero sanguíneo (por ejemplo, colesterol total, colesterol de lipoproteínas de baja densidad (LDL), colesterol de lipoproteínas de alta densidad (HDL)).
  • Una medida cuantitativa de la progresión de la enfermedad diabética (HbA1c).


El conjunto de datos de diabetes se puede cargar mediante la función load_diabetes() del módulo sklearn.datasets.


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


Código para cargar el conjunto de datos de Diabetes usando sklearn. Obtenido de https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset el 28/3/2023.

3. dígitos

Este conjunto de datos de Sklearn es una colección de dígitos escritos a mano del 0 al 9, almacenados como imágenes en escala de grises. Contiene un total de 1797 muestras, y cada muestra es una matriz 2D de forma (8,8). Hay 64 variables (o características) en el conjunto de datos de dígitos sklearn, correspondientes a los 64 píxeles en cada imagen de dígito.


El conjunto de datos Digits se puede cargar usando la función load_digits() del módulo sklearn.datasets.


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


Código para cargar el conjunto de datos Digits usando sklearn. Obtenido de https://scikit-learn.org/stable/datasets/toy_dataset.html#reconocimiento-óptico-del-conjunto-de-datos-de-dígitos-escritos-a-mano el 29/3/2023.


4. Linnerud

El conjunto de datos de Linnerud contiene medidas físicas y fisiológicas de 20 atletas profesionales.


El conjunto de datos incluye las siguientes variables:


  • Tres variables de ejercicio físico: dominadas, abdominales y saltos de tijera.
  • Tres variables de medición fisiológicas: pulso, presión arterial sistólica y presión arterial diastólica.


Para cargar el conjunto de datos Linnerud en Python usando sklearn:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


Código para cargar el conjunto de datos de linnerud usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud el 27/3/2023.

5. Vino

Este conjunto de datos de Sklearn contiene los resultados de análisis químicos de vinos cultivados en un área específica de Italia, para clasificar los vinos en sus variedades correctas.


Algunas de las variables en el conjunto de datos:


  • Alcohol
  • Ácido málico
  • Ceniza
  • Alcalinidad de la ceniza
  • Magnesio
  • fenoles totales
  • Flavonoides


El conjunto de datos de Wine se puede cargar usando la función load_wine() del módulo sklearn.datasets.


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


Código para cargar el conjunto de datos de calidad del vino usando sklearn. Obtenido de https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset el 28/3/2023.

6. Conjunto de datos de Wisconsin sobre el cáncer de mama

Este conjunto de datos de Sklearn consiste en información sobre tumores de cáncer de mama y fue creado inicialmente por el Dr. William H. Wolberg. El conjunto de datos se creó para ayudar a los investigadores y profesionales del aprendizaje automático a clasificar los tumores como malignos (cancerosos) o benignos (no cancerosos).


Algunas de las variables incluidas en este conjunto de datos:


  • número de identificación
  • Diagnóstico (M = maligno, B = benigno).
  • Radio (la media de las distancias desde el centro hasta los puntos del perímetro).
  • Textura (la desviación estándar de los valores de la escala de grises).
  • Perímetro
  • Área
  • Suavidad (la variación local en las longitudes de los radios).
  • Compacidad (el perímetro^2 / área - 1.0).
  • Concavidad (la severidad de las porciones cóncavas del contorno).
  • Puntos cóncavos (el número de porciones cóncavas del contorno).
  • Simetría
  • Dimensión fractal ("aproximación a la línea de costa" - 1).


Puede cargar el conjunto de datos de Breast Cancer Wisconsin directamente desde sklearn utilizando la función load_breast_cancer del módulo sklearn.datasets.


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


Código para cargar el conjunto de datos de Breast Cancer Wisconsin usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html el 28/3/2023.


Conjunto de datos de Wisconsin sobre el cáncer de mama

Conjuntos de datos de Sklearn del mundo real

Los conjuntos de datos de sklearn del mundo real se basan en problemas del mundo real, comúnmente utilizados para practicar y experimentar con algoritmos y técnicas de aprendizaje automático utilizando la biblioteca sklearn en Python.

7. Boston Vivienda

El conjunto de datos de Vivienda de Boston consta de información sobre viviendas en el área de Boston, Massachusetts. Tiene alrededor de 506 filas y 14 columnas de datos.


Algunas de las variables en el conjunto de datos incluyen:


  • CRIM - Tasa de criminalidad per cápita por ciudad.
  • ZN - La proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados.
  • INDUS - La proporción de acres comerciales no minoristas por ciudad.
  • CHAS: variable ficticia del río Charles (= 1 si el tramo limita con el río; 0 en caso contrario).
  • NOX - La concentración de óxido nítrico (partes por 10 millones).
  • RM - Número medio de habitaciones por vivienda.
  • EDAD: la proporción de unidades ocupadas por sus propietarios construidas antes de 1940.
  • DIS - Las distancias ponderadas a cinco centros de empleo de Boston.
  • RAD - El Índice de accesibilidad a las carreteras radiales.
  • IMPUESTO - La tasa de impuesto a la propiedad de valor total por cada $10,000.
  • PTRATIO - Ratio alumno-profesor por municipio.
  • B - 1000(Bk - 0.63)^2 donde -Bk es la proporción de negros por ciudad.
  • LSTAT - El estado porcentual más bajo de la población.
  • MEDV: el valor medio de las viviendas ocupadas por sus propietarios en miles de dólares.


Puede cargar el conjunto de datos de Vivienda de Boston directamente desde scikit-learn mediante la función load_boston del módulo sklearn.datasets.


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


Código para cargar el conjunto de datos de Vivienda de Boston usando sklearn. Obtenido de https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html el 29/3/2023.

8. Rostros Olivetti

El conjunto de datos Olivetti Faces es una colección de imágenes en escala de grises de rostros humanos tomadas entre abril de 1992 y abril de 1994 en AT&T Laboratories. Contiene 400 imágenes de 10 individuos, y cada individuo tiene 40 imágenes tomadas en diferentes ángulos y diferentes condiciones de iluminación.


Puede cargar el conjunto de datos de Olivetti Faces en sklearn usando la función fetch_olivetti_faces del módulo de conjuntos de datos.


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


Código para cargar el conjunto de datos de Olivetti Faces usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html el 29/3/2023.

9. Vivienda en California

Este conjunto de datos de sklearn contiene información sobre el valor medio de las casas, así como atributos para distritos censales en California. También incluye 20.640 instancias y 8 funciones.


Algunas de las variables en el conjunto de datos:


  • MedInc - El ingreso medio en bloque.
  • HouseAge - La edad media de las casas en bloque.
  • AveRooms: el número promedio de habitaciones por hogar.
  • AveBedrms: el número promedio de habitaciones por hogar.
  • Población - La población del bloque.
  • AveOccup: la ocupación promedio del hogar.
  • Latitud: la latitud del bloque en grados decimales.
  • Longitud - La longitud del bloque en grados decimales.


Puede cargar el conjunto de datos de Vivienda de California utilizando la función fetch_california_housing de sklearn.


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


Código para cargar el conjunto de datos de Vivienda de California usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html el 29/3/2023.

10 MNIST

El conjunto de datos MNIST es popular y se usa ampliamente en los campos del aprendizaje automático y la visión por computadora. Consta de 70 000 imágenes en escala de grises de dígitos escritos a mano del 0 al 9, con 60 000 imágenes para entrenamiento y 10 000 para pruebas. Cada imagen tiene un tamaño de 28x28 píxeles y tiene una etiqueta correspondiente que indica qué dígitos representa.


Puede cargar el conjunto de datos MNIST desde sklearn usando el siguiente código:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


Nota: El conjunto de datos MNIST es un subconjunto del conjunto de datos Dígitos.


Código para cargar el conjunto de datos MNIST usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml el 30/3/2023.


11 Moda-MNIST

El conjunto de datos Fashion MNIST fue creado por Zalando Research como reemplazo del conjunto de datos MNIST original. El conjunto de datos Fashion MNIST consta de 70 000 imágenes en escala de grises (un conjunto de entrenamiento de 60 000 y un conjunto de prueba de 10 000) de prendas de vestir.


Las imágenes tienen un tamaño de 28x28 píxeles y representan 10 clases diferentes de prendas de vestir, incluidas camisetas/tops, pantalones, jerséis, vestidos, abrigos, sandalias, camisas, zapatillas, bolsos y botines. Es similar al conjunto de datos original del MNIST, pero con tareas de clasificación más desafiantes debido a la mayor complejidad y variedad de las prendas de vestir.


Puede cargar este conjunto de datos de sklearn utilizando la función fetch_openml.


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


Código para cargar el conjunto de datos Fashion MNIST usando sklearn. Obtenido de__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ el 30/3/2023.

Conjuntos de datos de Sklearn generados

Los conjuntos de datos de sklearn generados son conjuntos de datos sintéticos, generados con la biblioteca sklearn en Python. Se utilizan para probar, comparar y desarrollar algoritmos/modelos de aprendizaje automático.

12 hacer_clasificación

Esta función genera un conjunto de datos de clasificación aleatorio de clase n con un número específico de muestras, características y características informativas.


Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras, 5 características y 3 clases:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


Este código genera un conjunto de datos con 100 muestras y 5 funciones, con 3 clases y 3 funciones informativas. El resto de funciones serán redundantes o ruidosas.


Código para cargar el conjunto de datos make_classification usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification el 30/3/2023.

13 hacer_regresión

Esta función genera un conjunto de datos de regresión aleatoria con un número específico de muestras, características y ruido.


Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras, 5 funciones y un nivel de ruido de 0.1:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


Este código genera un conjunto de datos con 100 muestras y 5 características, con un nivel de ruido de 0,1. La variable objetivo y será una variable continua.


Código para cargar el conjunto de datos make_regression usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression el 30/3/2023.

14 hacer_blobs

Esta función genera un conjunto de datos aleatorio con un número específico de muestras y conglomerados.


Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras y 3 grupos:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


Este código genera un conjunto de datos con 100 muestras y 2 características (coordenadas x e y), con 3 grupos centrados en ubicaciones aleatorias y sin ruido.


Código para cargar el conjunto de datos make_blobs usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs el 30/3/2023.

15. hacer_moons y hacer_circulos

Estas funciones generan conjuntos de datos con límites no lineales que son útiles para probar algoritmos de clasificación no lineal.


Aquí hay un código de ejemplo para cargar el conjunto de datos make_moons:


desde sklearn.datasets importar make_moons

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


Este código genera un conjunto de datos con 1000 muestras y 2 características (coordenadas x e y) con un límite no lineal entre las dos clases y con 0,2 desviaciones estándar de ruido gaussiano agregado a los datos.


Código para cargar el conjunto de datos make_moons usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons el 30/3/2023.


Aquí hay un código de ejemplo para generar y cargar el conjunto de datos make_circles:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


Código para cargar el conjunto de datos make_circles usando sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles el 30/3/2023.

dieciséis. make_sparse_coded_signal

Esta función genera un conjunto de datos de señal codificada escasa que es útil para probar algoritmos de detección de compresión.


Aquí hay un código de ejemplo para cargar este conjunto de datos de sklearn:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


Este código genera un conjunto de datos de señal codificada dispersa con 100 muestras, 50 características y 10 átomos.


Código para cargar el conjunto de datos make_sparse_coded_signal mediante sklearn. Obtenido de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal el 30/3/2023.


Casos de uso comunes para conjuntos de datos de Sklearn

Conjuntos de datos de Sklearn preinstalados (juguetes)

Iris - Este conjunto de datos de Sklearn se usa comúnmente para tareas de clasificación y se usa como un conjunto de datos de referencia para probar algoritmos de clasificación.


Diabetes - Este conjunto de datos contiene información médica sobre pacientes con diabetes y se usa para tareas de clasificación y regresión en análisis de atención médica.


dígitos - Este conjunto de datos de sklearn contiene imágenes de dígitos escritos a mano y se usa comúnmente para tareas de clasificación de imágenes y reconocimiento de patrones.


Linnerud - Este conjunto de datos contiene datos médicos y de aptitud física de 20 atletas y se usa comúnmente para el análisis de regresión multivariable.


Vino - Este conjunto de datos de sklearn contiene análisis químicos de vinos y se usa comúnmente para tareas de clasificación y agrupación.


Cáncer de mama Wisconsin - Este conjunto de datos contiene información médica sobre pacientes con cáncer de mama y se usa comúnmente para tareas de clasificación en análisis de atención médica.

Conjuntos de datos de Sklearn del mundo real

Boston Vivienda - Este conjunto de datos de Sklearn contiene información sobre viviendas en Boston y se usa comúnmente para tareas de regresión.


Rostros Olivetti - Este conjunto de datos contiene imágenes de rostros en escala de grises y se usa comúnmente para tareas de clasificación de imágenes y reconocimiento facial.


Vivienda en California - Este conjunto de datos de Sklearn contiene información sobre viviendas en California y se usa comúnmente para tareas de regresión.


MNIST - Este conjunto de datos contiene imágenes de dígitos escritos a mano y se usa comúnmente para tareas de clasificación de imágenes y reconocimiento de patrones.


Moda-MNIST - Este conjunto de datos de sklearn contiene imágenes de prendas de vestir y se usa comúnmente para tareas de clasificación de imágenes y reconocimiento de patrones.

Conjuntos de datos de Sklearn generados

hacer_clasificación - Este conjunto de datos es un conjunto de datos generado aleatoriamente para tareas de clasificación binaria y multiclase.


hacer_regresión - Este conjunto de datos es un conjunto de datos generado aleatoriamente para tareas de regresión.


hacer_blobs - Este conjunto de datos de Sklearn es un conjunto de datos generado aleatoriamente para tareas de agrupación.


hacer_moons y hacer_circulos - Estos conjuntos de datos son conjuntos de datos generados aleatoriamente para tareas de clasificación y se usan comúnmente para probar clasificadores no lineales.


make_sparse_coded_signal - Este conjunto de datos es un conjunto de datos generado aleatoriamente para tareas de codificación dispersas en el procesamiento de señales.

Pensamientos finales

Los conjuntos de datos de Sklearn proporcionan una forma conveniente para que los desarrolladores e investigadores prueben y evalúen modelos de aprendizaje automático sin tener que recopilar y preprocesar datos manualmente.


También están disponibles para que cualquiera los descargue y use libremente.


La imagen principal de este artículo se generó a través del modelo AI Stable Diffusion de HackerNoon utilizando el indicador 'iris dataset'.


Más listas de conjuntos de datos:

  1. Conjuntos de datos de Excel
  2. Conjuntos de datos de Keras
  3. Conjuntos de datos R