Los datos potencian los algoritmos de aprendizaje automático y scikit-learn o
Los conjuntos de datos de Sklearn se incluyen como parte de scikit-learn (
Para usar un conjunto de datos específico, simplemente puede importarlo desde el módulo sklearn.datasets y llamar a la función adecuada para cargar los datos en su programa.
Estos conjuntos de datos generalmente se procesan previamente y están listos para usar, lo que ahorra tiempo y esfuerzo a los profesionales de datos que necesitan experimentar con diferentes modelos y algoritmos de aprendizaje automático.
Este conjunto de datos incluye medidas de la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo de 150 flores de iris, que pertenecen a 3 especies diferentes: setosa, versicolor y virginica. El conjunto de datos del iris tiene 150 filas y 5 columnas, que se almacenan como un marco de datos, incluida una columna para la especie de cada flor.
Las variables incluyen:
Puede cargar el conjunto de datos del iris directamente desde sklearn utilizando la función load_iris del módulo sklearn.datasets.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Código para cargar el conjunto de datos de Iris usando sklearn. Obtenido de
Este conjunto de datos de Sklearn contiene información sobre 442 pacientes con diabetes, incluidas mediciones demográficas y clínicas:
El conjunto de datos de diabetes se puede cargar mediante la función load_diabetes() del módulo sklearn.datasets.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Código para cargar el conjunto de datos de Diabetes usando sklearn. Obtenido de
Este conjunto de datos de Sklearn es una colección de dígitos escritos a mano del 0 al 9, almacenados como imágenes en escala de grises. Contiene un total de 1797 muestras, y cada muestra es una matriz 2D de forma (8,8). Hay 64 variables (o características) en el conjunto de datos de dígitos sklearn, correspondientes a los 64 píxeles en cada imagen de dígito.
El conjunto de datos Digits se puede cargar usando la función load_digits() del módulo sklearn.datasets.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Código para cargar el conjunto de datos Digits usando sklearn. Obtenido de
El conjunto de datos de Linnerud contiene medidas físicas y fisiológicas de 20 atletas profesionales.
El conjunto de datos incluye las siguientes variables:
Para cargar el conjunto de datos Linnerud en Python usando sklearn:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Código para cargar el conjunto de datos de linnerud usando sklearn. Obtenido de
Este conjunto de datos de Sklearn contiene los resultados de análisis químicos de vinos cultivados en un área específica de Italia, para clasificar los vinos en sus variedades correctas.
Algunas de las variables en el conjunto de datos:
El conjunto de datos de Wine se puede cargar usando la función load_wine() del módulo sklearn.datasets.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Código para cargar el conjunto de datos de calidad del vino usando sklearn. Obtenido de
Este conjunto de datos de Sklearn consiste en información sobre tumores de cáncer de mama y fue creado inicialmente por el Dr. William H. Wolberg. El conjunto de datos se creó para ayudar a los investigadores y profesionales del aprendizaje automático a clasificar los tumores como malignos (cancerosos) o benignos (no cancerosos).
Algunas de las variables incluidas en este conjunto de datos:
Puede cargar el conjunto de datos de Breast Cancer Wisconsin directamente desde sklearn utilizando la función load_breast_cancer del módulo sklearn.datasets.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Código para cargar el conjunto de datos de Breast Cancer Wisconsin usando sklearn. Obtenido de
Los conjuntos de datos de sklearn del mundo real se basan en problemas del mundo real, comúnmente utilizados para practicar y experimentar con algoritmos y técnicas de aprendizaje automático utilizando la biblioteca sklearn en Python.
El conjunto de datos de Vivienda de Boston consta de información sobre viviendas en el área de Boston, Massachusetts. Tiene alrededor de 506 filas y 14 columnas de datos.
Algunas de las variables en el conjunto de datos incluyen:
Puede cargar el conjunto de datos de Vivienda de Boston directamente desde scikit-learn mediante la función load_boston del módulo sklearn.datasets.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Código para cargar el conjunto de datos de Vivienda de Boston usando sklearn. Obtenido de
El conjunto de datos Olivetti Faces es una colección de imágenes en escala de grises de rostros humanos tomadas entre abril de 1992 y abril de 1994 en AT&T Laboratories. Contiene 400 imágenes de 10 individuos, y cada individuo tiene 40 imágenes tomadas en diferentes ángulos y diferentes condiciones de iluminación.
Puede cargar el conjunto de datos de Olivetti Faces en sklearn usando la función fetch_olivetti_faces del módulo de conjuntos de datos.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Código para cargar el conjunto de datos de Olivetti Faces usando sklearn. Obtenido de
Este conjunto de datos de sklearn contiene información sobre el valor medio de las casas, así como atributos para distritos censales en California. También incluye 20.640 instancias y 8 funciones.
Algunas de las variables en el conjunto de datos:
Puede cargar el conjunto de datos de Vivienda de California utilizando la función fetch_california_housing de sklearn.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Código para cargar el conjunto de datos de Vivienda de California usando sklearn. Obtenido de
El conjunto de datos MNIST es popular y se usa ampliamente en los campos del aprendizaje automático y la visión por computadora. Consta de 70 000 imágenes en escala de grises de dígitos escritos a mano del 0 al 9, con 60 000 imágenes para entrenamiento y 10 000 para pruebas. Cada imagen tiene un tamaño de 28x28 píxeles y tiene una etiqueta correspondiente que indica qué dígitos representa.
Puede cargar el conjunto de datos MNIST desde sklearn usando el siguiente código:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Nota: El conjunto de datos MNIST es un subconjunto del conjunto de datos Dígitos.
Código para cargar el conjunto de datos MNIST usando sklearn. Obtenido de
El conjunto de datos Fashion MNIST fue creado por Zalando Research como reemplazo del conjunto de datos MNIST original. El conjunto de datos Fashion MNIST consta de 70 000 imágenes en escala de grises (un conjunto de entrenamiento de 60 000 y un conjunto de prueba de 10 000) de prendas de vestir.
Las imágenes tienen un tamaño de 28x28 píxeles y representan 10 clases diferentes de prendas de vestir, incluidas camisetas/tops, pantalones, jerséis, vestidos, abrigos, sandalias, camisas, zapatillas, bolsos y botines. Es similar al conjunto de datos original del MNIST, pero con tareas de clasificación más desafiantes debido a la mayor complejidad y variedad de las prendas de vestir.
Puede cargar este conjunto de datos de sklearn utilizando la función fetch_openml.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Código para cargar el conjunto de datos Fashion MNIST usando sklearn. Obtenido de__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ el 30/3/2023.
Los conjuntos de datos de sklearn generados son conjuntos de datos sintéticos, generados con la biblioteca sklearn en Python. Se utilizan para probar, comparar y desarrollar algoritmos/modelos de aprendizaje automático.
Esta función genera un conjunto de datos de clasificación aleatorio de clase n con un número específico de muestras, características y características informativas.
Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras, 5 características y 3 clases:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Este código genera un conjunto de datos con 100 muestras y 5 funciones, con 3 clases y 3 funciones informativas. El resto de funciones serán redundantes o ruidosas.
Código para cargar el conjunto de datos make_classification usando sklearn. Obtenido de
Esta función genera un conjunto de datos de regresión aleatoria con un número específico de muestras, características y ruido.
Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras, 5 funciones y un nivel de ruido de 0.1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Este código genera un conjunto de datos con 100 muestras y 5 características, con un nivel de ruido de 0,1. La variable objetivo y será una variable continua.
Código para cargar el conjunto de datos make_regression usando sklearn. Obtenido de
Esta función genera un conjunto de datos aleatorio con un número específico de muestras y conglomerados.
Aquí hay un código de ejemplo para generar este conjunto de datos de sklearn con 100 muestras y 3 grupos:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Este código genera un conjunto de datos con 100 muestras y 2 características (coordenadas x e y), con 3 grupos centrados en ubicaciones aleatorias y sin ruido.
Código para cargar el conjunto de datos make_blobs usando sklearn. Obtenido de
Estas funciones generan conjuntos de datos con límites no lineales que son útiles para probar algoritmos de clasificación no lineal.
Aquí hay un código de ejemplo para cargar el conjunto de datos make_moons:
desde sklearn.datasets importar make_moons
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
Este código genera un conjunto de datos con 1000 muestras y 2 características (coordenadas x e y) con un límite no lineal entre las dos clases y con 0,2 desviaciones estándar de ruido gaussiano agregado a los datos.
Código para cargar el conjunto de datos make_moons usando sklearn. Obtenido de
Aquí hay un código de ejemplo para generar y cargar el conjunto de datos make_circles:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Código para cargar el conjunto de datos make_circles usando sklearn. Obtenido de
Esta función genera un conjunto de datos de señal codificada escasa que es útil para probar algoritmos de detección de compresión.
Aquí hay un código de ejemplo para cargar este conjunto de datos de sklearn:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Este código genera un conjunto de datos de señal codificada dispersa con 100 muestras, 50 características y 10 átomos.
Código para cargar el conjunto de datos make_sparse_coded_signal mediante sklearn. Obtenido de
Los conjuntos de datos de Sklearn proporcionan una forma conveniente para que los desarrolladores e investigadores prueben y evalúen modelos de aprendizaje automático sin tener que recopilar y preprocesar datos manualmente.
También están disponibles para que cualquiera los descargue y use libremente.
La imagen principal de este artículo se generó a través del modelo AI Stable Diffusion de HackerNoon utilizando el indicador 'iris dataset'.
Más listas de conjuntos de datos: