paint-brush
Los 20 mejores conjuntos de datos de PyTorch para crear modelos de aprendizaje profundopor@datasets
4,761 lecturas
4,761 lecturas

Los 20 mejores conjuntos de datos de PyTorch para crear modelos de aprendizaje profundo

Demasiado Largo; Para Leer

Los dos marcos de aprendizaje automático de código abierto más utilizados para entrenar y crear modelos de aprendizaje profundo son TensorFlow y PyTorch. Estos marcos tienen diferencias únicas en su enfoque para construir y entrenar modelos. La elección de los marcos depende de las necesidades y preferencias específicas del usuario. Este artículo analiza los mejores conjuntos de datos de PyTorch para crear modelos de aprendizaje profundo.
featured image - Los 20 mejores conjuntos de datos de PyTorch para crear modelos de aprendizaje profundo
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Los dos marcos de aprendizaje automático de código abierto más utilizados para entrenar y crear modelos de aprendizaje profundo son TensorFlow y PyTorch.


Estos marcos tienen diferencias únicas en su enfoque para construir y entrenar modelos. Mientras que TensorFlow usa un gráfico estático y una programación declarativa, lo que brinda mejores oportunidades de optimización y permite el entrenamiento distribuido, PyTorch usa un gráfico computacional dinámico y una programación imperativa, lo que permite un proceso de depuración más flexible y sencillo. La elección de los marcos depende de las necesidades y preferencias específicas del usuario.


Este artículo analiza los mejores conjuntos de datos de PyTorch para crear modelos de aprendizaje profundo disponibles en la actualidad.

Lista definitiva de conjuntos de datos abiertos de PyTorch


1. Penn Treebank

El Penn Treebank es una colección de texto en inglés anotado, que se estudia ampliamente en la comunidad de investigación del procesamiento del lenguaje natural (NLP). Comprende más de 4,5 millones de palabras de texto de varios géneros, como revistas, artículos de noticias e historias de ficción. El conjunto de datos también consta de información anotada manualmente sobre los derechos de los nombres, parte de las etiquetas de voz y la estructura sintáctica, que se utiliza para entrenar y evaluar una amplia gama de modelos NLP, incluidos modelos de lenguaje, analizadores y sistemas de traducción automática.


Para descargar este conjunto de datos, haga clic en aquí

2. Conjunto de datos de preguntas y respuestas de Stanford (SQuAD)

El SQuAD (Stanford Question Answering Dataset) es un popular conjunto de datos de referencia en el procesamiento del lenguaje natural (NLP) que comprende más de 100 000 pares de preguntas y respuestas, extraídos de un conjunto de artículos de Wikipedia. Se utiliza para evaluar el rendimiento de varios modelos NLP creados con PyTorch u otros marcos de aprendizaje profundo. Los tramos de respuesta tienen una longitud promedio de 3,6 palabras, y hay 11,0 palabras en promedio en los pasajes correspondientes.


Aquí hay algunos detalles adicionales sobre el SQuAD:


EQUIPO 1.0 - Contiene más de 100 000 pares de preguntas y respuestas en 536 artículos de Wikipedia en inglés.


EQUIPO 2.0 - Contiene más de 150 000 pares de preguntas y respuestas en más de 100 000 artículos de Wikipedia, con preguntas adicionales sin respuesta para probar la capacidad del modelo para abstenerse de responder.


El objetivo del conjunto de datos es proporcionar una tarea desafiante para que los modelos de aprendizaje automático respondan preguntas sobre un pasaje de texto determinado. Haga clic aquí para descargar el última versión (SQuAD 2.0) .

3. Consorcio de base de datos de imágenes pulmonares e iniciativa de recursos de base de datos de imágenes (LIDC-IDRI)

Este conjunto de datos de PyTorch es un conjunto de datos público de imágenes de tomografía computarizada del tórax que varios radiólogos han anotado para detectar nódulos pulmonares. Comprende 1.018 tomografías computarizadas recopiladas de varias instituciones y contiene más de 23.000 nódulos anotados.

Cada escaneo en el conjunto de datos está acompañado por anotaciones de cuatro radiólogos experimentados que brindan información sobre la forma, el tamaño, la ubicación del nódulo y la textura. El conjunto de datos se creó para respaldar la investigación sobre el desarrollo de sistemas de diagnóstico asistido por computadora (CAD) para la detección y el diagnóstico del cáncer de pulmón.


Nota: El conjunto de datos está disponible públicamente, pero está sujeto a ciertas restricciones y requisitos de uso.


Hacer clic aquí descargar.

4. Moda-MNIST

El conjunto de datos PyTorch Fashion MNIST fue creado por Zalando Research como reemplazo del conjunto de datos MNIST original y está disponible en un formato compatible con PyTorch. El conjunto de datos PyTorch Fashion MNIST comprende 70 000 imágenes en escala de grises de prendas de vestir, incluidas 60 000 imágenes de entrenamiento y 10 000 imágenes de prueba.


Las imágenes tienen un tamaño de 28x28 píxeles y representan 10 clases diferentes de prendas de vestir, incluidas camisetas/tops, pantalones, jerséis, vestidos, abrigos, sandalias, camisas, zapatillas, bolsos y botines. Es similar al conjunto de datos original del MNIST, pero con tareas de clasificación más desafiantes debido a la mayor complejidad y variedad de las prendas de vestir.


El conjunto de datos se puede descargar aquí .

5. Reseñas de Yelp

El conjunto de datos de Yelp Reviews es una amplia colección de más de 5 millones de reseñas de empresas locales de 11 áreas metropolitanas de los Estados Unidos. Cada reseña en el conjunto de datos contiene información como la calificación de estrellas, la categoría comercial, el texto de la reseña, la fecha y la ubicación. Es un recurso valioso interesado en construir modelos de aprendizaje profundo con PyTorch.


Regístrese y haga clic aquí para descargar el conjunto de datos .

6. Perros Stanford

Este conjunto de datos de PyTorch comprende una colección de 20 580 imágenes de alta calidad de 120 razas diferentes de perros, cada una etiquetada con información sobre la raza del perro en la imagen. Se puede utilizar para la clasificación de imágenes y el reconocimiento de objetos. Con el conjunto de datos proporcionado en formato JPEG y anotaciones en un archivo de texto, las imágenes tienen un tamaño de 224x224 píxeles. Las razas en el conjunto de datos van desde razas comunes como Golden Retrievers y Labradors hasta razas más oscuras como Otterhound y Sussex Spaniel.


Puedes descargar el conjunto de datos aquí.


7. Caltech 101

Si bien la cantidad limitada de imágenes por categoría puede ser un desafío, las anotaciones detalladas hacen que el conjunto de datos PyTorch Caltech 101 sea un recurso valioso para evaluar modelos de aprendizaje profundo. El conjunto de datos es un conjunto de datos de visión artificial etiquetado con 9144 imágenes de alta calidad de objetos en 101 categorías. También cubre una amplia gama de categorías de objetos y las imágenes se obtuvieron de varias fuentes. Cada imagen está etiquetada con la categoría de objeto e imagen, lo que simplifica su uso con una variedad de marcos de aprendizaje profundo.


Click aquí para descargar .

8. STS-B (punto de referencia de similitud textual semántica)

El conjunto de datos STS-B (Semantic Textual Similarity Benchmark) es un conjunto de datos en inglés utilizado en las tareas STS organizadas en el contexto de SemEval entre 2012 y 2017. Comprende 8628 pares de oraciones con puntajes de similitud asignados por humanos en una escala de 1 a 5. Extraído de varias fuentes, como artículos de noticias, publicaciones en foros, imágenes con subtítulos y que cubre una amplia gama de temas, es un conjunto de datos popular que se usa con PyTorch para evaluar el rendimiento de los modelos al determinar la similitud semántica entre dos oraciones. El conjunto de datos STS-B está disponible en varios formatos, incluidos los formatos compatibles con PyTorch, ya que PyTorch es un marco de aprendizaje profundo para entrenar y evaluar modelos en este conjunto de datos.

\Para descargar este conjunto de datos, haga clic en aquí .


9. WMT'14 inglés-alemán

Este conjunto de datos de PyTorch es un conjunto de datos de referencia para la traducción automática entre inglés y alemán creado por Stanford en 2015. Comprende corpus paralelos de textos alineados con oraciones en inglés y alemán, que se utilizan para construir y evaluar modelos de aprendizaje profundo. Mientras que los conjuntos de prueba contienen 3000 pares de oraciones cada uno, el conjunto de entrenamiento consta de aproximadamente 4,5 millones de pares de oraciones y la longitud promedio de las oraciones es de 26 palabras en inglés y 30 palabras en alemán, con un tamaño de vocabulario de aproximadamente 160 000 palabras para inglés y 220 000 palabras para inglés. Alemán.


Puedes desplazarte hacia abajo y descargarlo. aquí .

10. CelebA

Este conjunto de datos es un popular conjunto de datos de atributos faciales a gran escala que comprende más de 200 000 imágenes de celebridades. Fue lanzado por primera vez por investigadores de la Universidad China de Hong Kong en 2015. Una imagen en CelebA consta de 40 atributos faciales, como edad, color de cabello, expresión facial y género. Además, estas imágenes se recuperaron de Internet y cubren una amplia gama de apariencias faciales, incluidas diferentes razas, edades y géneros. Anotaciones de cuadro delimitador para la ubicación de la cara en cada imagen, así como 5 puntos de referencia para los ojos, la nariz y la boca.


Nota: El conjunto de datos de CelebA está bajo la licencia de Creative Commons Attribution-Nocommercial-Share, que permite su uso con fines de investigación no comerciales siempre que se otorgue el crédito adecuado.


Para usar el conjunto de datos CelebA en PyTorch, puede usar la clase torchvision.datasets.CelebA , que forma parte del módulo torchvision . Puede descargar el conjunto de datos desde el sitio web o aquí .

11. UCF101

El conjunto de datos UFC101 se usa ampliamente para la clasificación de videos en el campo de la visión artificial. Comprende 13.230 videos de acciones humanas de 101 categorías de acción, cada una de las cuales contiene alrededor de 100 a 300 videos. El conjunto de datos PyTorch UCF101 es una versión preprocesada del UCF101 original que está listo para usar en PyTorch. El conjunto de datos preprocesados comprende cuadros de video que se han normalizado y redimensionado, incluidas las etiquetas correspondientes para cada video. También se divide en tres conjuntos: entrenamiento, validación y prueba, con aproximadamente 9500, 3500 y 3000 videos, respectivamente.


Para descargar el conjunto de datos, haga clic en aquí .

12. HMDB51

El conjunto de datos HMDB51 es una colección de videos recuperados de varias fuentes, incluidas películas, programas de televisión y videos en línea, que comprende 51 clases de acción, cada una con al menos 101 videoclips. Fue creado por investigadores de la Universidad de Florida Central en 2011 para investigar el reconocimiento de la acción humana. Los videos están en formato AVI y tienen una resolución de 320x240 píxeles, con anotaciones reales para cada video, incluida la etiqueta de clase de acción y los cuadros de inicio y final de la acción dentro del video. Cada video en el conjunto de datos representa a una persona que realiza una acción frente a una cámara estática. Las acciones incluyen una amplia gama de actividades todos los días, como saltar, saludar, beber y cepillarse los dientes, así como acciones complejas como tocar la guitarra y montar a caballo.


Nota: Se utiliza en concomitancia con el UCF101 conjunto de datos, que contiene una mayor cantidad de clases de acción pero con menos videos por clase.


Puede descargar el conjunto de datos aquí .

13. Red de actividad

ActivityNet es un conjunto de datos de comprensión de videos a gran escala que comprende más de 20,000 videos de un conjunto diverso de categorías como cocina, deportes, baile, etc. Los videos tienen una duración promedio de 3 minutos y están anotados con un promedio de 1.41 segmentos de actividad. Está disponible en PyTorch, que es fácil de usar en marcos de aprendizaje profundo. La versión de PyTorch ofrece funciones preprocesadas extraídas de los cuadros RGB y los campos de flujo óptico de cada video, así como anotaciones de datos reales para los segmentos temporales y etiquetas de actividad.


Puede descargar el conjunto de datos aquí .

14. Conjunto de datos VOC (clases de objetos visuales)

El conjunto de datos VOC (Visual Object Classes) se introdujo por primera vez en 2005 como parte del Desafío PASCAL VOC, cuyo objetivo era avanzar en el reconocimiento visual de última generación. Consiste en imágenes de 20 categorías de objetos diferentes, incluidos animales, vehículos y objetos domésticos comunes. Cada una de estas imágenes está anotada con las ubicaciones y clasificaciones de los objetos dentro de la imagen. Las anotaciones incluyen cuadros delimitadores y máscaras de segmentación a nivel de píxel. El conjunto de datos se divide en dos conjuntos principales: los conjuntos de entrenamiento y validación. El conjunto de entrenamiento contiene aproximadamente 5000 imágenes con anotaciones, mientras que el conjunto de validación contiene alrededor de 5000 imágenes sin anotaciones. Además, el conjunto de datos también incluye un conjunto de prueba con aproximadamente 10 000 imágenes, pero las anotaciones para este conjunto no están disponibles públicamente.


Para descargar el conjunto de datos reciente, puede descargarlo desde el sitio web , cárguelo en Python a través de nuestro código abierto Deep Lake con solo una línea de código, o descárguelo de Kaggle .


15. Video YCB

Este conjunto de datos es una colección de modelos de objetos 3D y secuencias de video diseñados para el reconocimiento de objetos y tareas de estimación de poses. Contiene 21 artículos domésticos cotidianos, con cada objeto capturado en diversas condiciones de iluminación y puntos de vista de la cámara. El conjunto de datos proporciona anotaciones de la realidad del terreno a nivel de píxel y se usa comúnmente para evaluar algoritmos de visión por computadora y sistemas robóticos.


Haga clic aquí para descargar el conjunto de datos .

16. KITTI

El conjunto de datos KITTI es una colección de datos de visión por computadora para la investigación de conducción autónoma. Incluye más de 4000 imágenes de alta resolución, nubes de puntos LIDAR y datos de sensores de un automóvil equipado con varios sensores. El conjunto de datos proporciona anotaciones para la detección, seguimiento y segmentación de objetos, así como mapas de profundidad y parámetros de calibración. El conjunto de datos de KITTI se usa ampliamente para entrenar y evaluar modelos de aprendizaje profundo para conducción autónoma y robótica.


Para descargar el conjunto de datos reciente, puede descargarlo desde el sitio web , GitHub o descargalo de Kaggle .

17. mocosos

El conjunto de datos BRATS PyTorch es una colección de imágenes por resonancia magnética (IRM) para la segmentación de tumores cerebrales. Consta de más de 200 imágenes cerebrales en 3D de alta resolución, cada una con cuatro modalidades (T1, T1c, T2 y FLAIR) y las correspondientes máscaras de segmentación binaria. El conjunto de datos se usa comúnmente para entrenar y evaluar modelos de aprendizaje profundo para la detección y segmentación automatizadas de tumores cerebrales.


Puede descargar este conjunto de datos en Kaggle haciendo clic en aquí .

18. Análisis multihumano

El conjunto de datos PyTorch de análisis multihumano es un conjunto de datos de imágenes humanas a gran escala con anotaciones a nivel de píxel para el análisis de partes humanas. Contiene más de 26.000 imágenes de humanos, cada una segmentada en 18 etiquetas de partes humanas. El conjunto de datos se utiliza para entrenar y evaluar modelos de aprendizaje profundo para la estimación de poses humanas, la segmentación y el reconocimiento de acciones.


Para descargar el conjunto de datos, haga clic en aquí .

19. Charadas

Este conjunto de datos es un conjunto de datos de video a gran escala para el reconocimiento y la localización de acciones. Comprende más de 9800 videos de actividades diarias, como cocinar, limpiar y socializar, con una duración promedio de 30 segundos por video. El conjunto de datos proporciona anotaciones detalladas para cada video, incluidos límites temporales para acciones y conceptos visuales atómicos, lo que lo hace adecuado para entrenar y evaluar modelos de aprendizaje profundo para reconocimiento, detección y segmentación de acciones.


El conjunto de datos PyTorch de Charades se usa ampliamente en la comunidad de investigación de visión por computadora y está disponible gratuitamente para descargar y use.

20. Universidad Técnica de Berlín

Este conjunto de datos es una rica colección de imágenes de alta resolución y poses de objetos 3D para la detección de objetos y la estimación de poses. Contiene más de 11.000 imágenes de 60 categorías de objetos, con anotaciones para poses 2D y 3D. Con su gran tamaño y diversas categorías de objetos, el conjunto de datos TU Berlin PyTorch proporciona un excelente banco de pruebas para desarrollar modelos sólidos y precisos de detección de objetos y estimación de poses.


Puede obtener el conjunto de datos directamente desde el sitio web haciendo clic en aquí .



Casos de uso comunes para conjuntos de datos de PyTorch

Procesamiento natural del lenguaje

Visión por computador

Análisis de imágenes médicas

Reconocimiento de actividad humana

Pensamientos finales

PyTorch es útil para la investigación y la experimentación, donde el enfoque suele ser el desarrollo de modelos de aprendizaje profundo y la exploración de nuevos enfoques. Además, PyTorch se ha ganado la reputación de ser un marco centrado en la investigación con una creciente comunidad de desarrolladores e investigadores que contribuyen al ecosistema.

Estos conjuntos de datos tienen aplicaciones en múltiples campos y también están disponibles para que cualquiera los descargue y use libremente.



La imagen principal de este artículo se generó a través del modelo AI Stable Diffusion de HackerNoon utilizando el indicador "imágenes superpuestas de PyTorch".