paint-brush
20 meilleurs ensembles de données PyTorch pour créer des modèles d'apprentissage en profondeurpar@datasets
4,817 lectures
4,817 lectures

20 meilleurs ensembles de données PyTorch pour créer des modèles d'apprentissage en profondeur

Trop long; Pour lire

Les deux cadres d'apprentissage automatique open source les plus largement utilisés pour la formation et la création de modèles d'apprentissage en profondeur sont TensorFlow et PyTorch. Ces frameworks ont des différences uniques dans leur approche de la construction et de la formation de modèles. Le choix des cadres dépend des besoins et des préférences spécifiques de l'utilisateur. Cet article examine les meilleurs ensembles de données PyTorch pour la création de modèles d'apprentissage en profondeur.
featured image - 20 meilleurs ensembles de données PyTorch pour créer des modèles d'apprentissage en profondeur
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Les deux cadres d'apprentissage automatique open source les plus largement utilisés pour la formation et la création de modèles d'apprentissage en profondeur sont TensorFlow et PyTorch.


Ces frameworks ont des différences uniques dans leur approche de la construction et de la formation de modèles. Alors que TensorFlow utilise un graphe statique et une programmation déclarative, qui offre de meilleures opportunités d'optimisation et permet une formation distribuée, PyTorch utilise un graphe de calcul dynamique et une programmation impérative, ce qui permet un processus de débogage plus flexible et plus facile. Le choix des cadres dépend des besoins et des préférences spécifiques de l'utilisateur.


Cet article examine les meilleurs ensembles de données PyTorch pour la création de modèles d'apprentissage en profondeur disponibles aujourd'hui.

Liste ultime des ensembles de données Open PyTorch


1. Penn Treebank

La Penn Treebank est une collection de textes annotés en anglais, qui est largement étudiée dans la communauté de recherche sur le traitement du langage naturel (TAL). Il comprend plus de 4,5 millions de mots de texte de divers genres tels que des magazines, des articles de presse et des histoires de fiction. L'ensemble de données comprend également des informations annotées manuellement sur les titres de nom, une partie des balises vocales et la structure syntaxique, utilisées pour former et évaluer un large éventail de modèles NLP, y compris des modèles de langage, des analyseurs et des systèmes de traduction automatique.


Pour télécharger ce jeu de données, cliquez sur ici .

2. Ensemble de données de réponse aux questions de Stanford (SQuAD)

Le SQuAD (Stanford Question Answering Dataset) est un ensemble de données de référence populaire en traitement du langage naturel (TAL) qui comprend plus de 100 000 paires question-réponse, extraites d'un ensemble d'articles de Wikipédia. Il est utilisé pour évaluer les performances de divers modèles NLP construits à l'aide de PyTorch ou d'autres cadres d'apprentissage en profondeur. Les réponses ont une longueur moyenne de 3,6 mots et il y a en moyenne 11,0 mots dans les passages correspondants.


Voici quelques détails supplémentaires sur le SQuAD :


ESCOUADE 1.0 - Il contient plus de 100 000 paires question-réponse sur 536 articles de Wikipédia en anglais.


ESCOUADE 2.0 - Il contient plus de 150 000 paires question-réponse sur plus de 100 000 articles Wikipédia, avec des questions supplémentaires sans réponse pour tester la capacité du modèle à s'abstenir de répondre.


L'objectif de l'ensemble de données est de fournir une tâche difficile aux modèles d'apprentissage automatique pour répondre à des questions sur un passage de texte donné. Cliquez ici pour télécharger le dernière version (SQuAD 2.0) .

3. Lung Image Database Consortium et Image Database Resource Initiative (LIDC-IDRI)

Cet ensemble de données PyTorch est un ensemble de données public d'images de tomodensitométrie de la poitrine qui a été annoté pour les nodules pulmonaires par plusieurs radiologues. Il comprend 1 018 tomodensitogrammes collectés auprès de diverses institutions et contient plus de 23 000 nodules annotés.

Chaque scan de l'ensemble de données est accompagné d'annotations de quatre radiologues expérimentés qui fournissent des informations sur la forme, la taille, l'emplacement et la texture des nodules. L'ensemble de données a été créé pour soutenir la recherche sur le développement de systèmes de diagnostic assisté par ordinateur (CAO) pour le dépistage et le diagnostic du cancer du poumon.


Remarque : L'ensemble de données est accessible au public mais soumis à certaines restrictions et exigences d'utilisation.


Cliquez sur ici Télécharger.

4. Mode-MNIST

L'ensemble de données PyTorch Fashion MNIST a été créé par Zalando Research en remplacement de l'ensemble de données MNIST d'origine et est disponible dans un format compatible avec PyTorch. L'ensemble de données PyTorch Fashion MNIST comprend 70 000 images en niveaux de gris d'articles vestimentaires, dont 60 000 images d'entraînement et 10 000 images de test.


Les images ont une taille de 28 x 28 pixels et représentent 10 classes différentes de vêtements, notamment des t-shirts/hauts, des pantalons, des pulls, des robes, des manteaux, des sandales, des chemises, des baskets, des sacs et des bottines. Il est similaire à l'ensemble de données MNIST original, mais avec des tâches de classification plus difficiles en raison de la plus grande complexité et de la variété des vêtements.


Le jeu de données peut être téléchargé ici .

5. Avis Yelp

L'ensemble de données Yelp Reviews est une vaste collection de plus de 5 millions d'avis d'entreprises locales dans 11 régions métropolitaines des États-Unis. Chaque avis de l'ensemble de données contient des informations telles que le nombre d'étoiles, la catégorie d'activité, le texte de l'avis, la date et le lieu. C'est une ressource précieuse qui s'intéresse à la création de modèles d'apprentissage en profondeur avec PyTorch.


Veuillez vous inscrire et cliquer ici pour télécharger l' ensemble de données .

6. Chiens de Stanford

Cet ensemble de données PyTorch comprend une collection de 20 580 images de haute qualité de 120 races de chiens différentes, chacune étiquetée avec des informations sur la race du chien dans l'image. Il peut être utilisé pour la classification d'images et la reconnaissance d'objets. Avec le jeu de données fourni au format JPEG et les annotations dans un fichier texte, les images sont de taille 224x224 pixels. Les races de l'ensemble de données vont des races communes telles que les Golden Retrievers et les Labradors à des races plus obscures telles que l'Otterhound et le Sussex Spaniel.


Vous pouvez télécharger le base de données ici.


7. Caltech 101

Alors que le nombre limité d'images par catégorie peut être un défi, les annotations détaillées font de l'ensemble de données PyTorch Caltech 101 une ressource précieuse pour évaluer les modèles d'apprentissage en profondeur. L'ensemble de données est un ensemble de données de vision par ordinateur étiqueté avec 9 144 images d'objets de haute qualité dans 101 catégories. Il couvre également un large éventail de catégories d'objets et les images ont été obtenues à partir de diverses sources. Chaque image est étiquetée avec la catégorie d'objet et d'image, ce qui simplifie son utilisation avec une variété de frameworks d'apprentissage en profondeur.


Cliquez ici pour télécharger .

8. STS-B (référence de similarité textuelle sémantique)

Le jeu de données STS-B (Semantic Textual Similarity Benchmark) est un jeu de données en anglais utilisé dans les tâches STS organisées dans le cadre de SemEval entre 2012 et 2017. Il comprend 8628 paires de phrases avec des scores de similarité attribués par l'homme sur une échelle de 1 à 5. Tiré de diverses sources, telles que des articles de presse, des messages de forum, des images avec des légendes et couvrant un large éventail de sujets, il s'agit d'un ensemble de données populaire utilisé avec PyTorch pour évaluer les performances des modèles dans la détermination de la similarité sémantique entre deux phrases. L'ensemble de données STS-B est disponible dans plusieurs formats, y compris les formats compatibles avec PyTorch, car PyTorch est un cadre d'apprentissage en profondeur pour la formation et l'évaluation de modèles sur cet ensemble de données.

\Pour télécharger ce jeu de données, cliquez sur ici .


9. WMT'14 anglais-allemand

Cet ensemble de données PyTorch est un ensemble de données de référence pour la traduction automatique entre l'anglais et l'allemand créé par Stanford en 2015. Il comprend des corpus parallèles de textes alignés sur des phrases en anglais et en allemand, qui sont utilisés pour construire et évaluer des modèles d'apprentissage en profondeur. Alors que les ensembles de test contiennent chacun 3 000 paires de phrases, l'ensemble d'apprentissage se compose d'environ 4,5 millions de paires de phrases et la longueur moyenne des phrases est de 26 mots en anglais et de 30 mots en allemand, avec une taille de vocabulaire d'environ 160 000 mots pour l'anglais et 220 000 mots pour Allemand.


Vous pouvez faire défiler vers le bas et le télécharger ici .

10. CelebA

Cet ensemble de données est un ensemble de données d'attributs de visage à grande échelle populaire qui comprend plus de 200 000 images de célébrités. Il a été publié pour la première fois par des chercheurs de l'Université chinoise de Hong Kong en 2015. Une image dans CelebA se compose de 40 attributs faciaux tels que l'âge, la couleur des cheveux, l'expression faciale et le sexe. De plus, ces images ont été récupérées sur Internet et couvrent un large éventail d'apparences faciales, y compris différentes races, âges et sexes. Annotations de la boîte englobante pour l'emplacement du visage dans chaque image, ainsi que 5 points de repère pour les yeux, le nez et la bouche.


Remarque : L'ensemble de données CelebA est sous la licence Creative Commons Attribution-Noncommercial-Share, ce qui lui permet d'être utilisé à des fins de recherche non commerciales tant que le crédit approprié est accordé.


Pour utiliser le jeu de données CelebA dans PyTorch, vous pouvez utiliser la classe torchvision.datasets.CelebA , qui fait partie du module torchvision . Vous pouvez télécharger le jeu de données à partir du site Internet ou ici .

11. UCF101

Le jeu de données UFC101 est largement utilisé pour la classification vidéo dans le domaine de la vision par ordinateur. Il comprend 13 230 vidéos d'actions humaines de 101 catégories d'actions, chacune contenant environ 100 à 300 vidéos. L'ensemble de données PyTorch UCF101 est une version prétraitée de l'UCF101 d'origine qui est prête à être utilisée dans PyTorch. L'ensemble de données prétraité comprend des images vidéo qui ont été normalisées et redimensionnées, y compris des étiquettes correspondantes pour chaque vidéo. Il est également divisé en trois ensembles : formation, validation et test, avec environ 9 500, 3 500 et 3 000 vidéos, respectivement.


Pour télécharger le jeu de données, cliquez sur ici .

12. HMDB51

L'ensemble de données HMDB51 est une collection de vidéos récupérées à partir de diverses sources, y compris des films, des émissions de télévision et des vidéos en ligne, comprenant 51 classes d'action, chacune avec au moins 101 clips vidéo. Il a été créé par des chercheurs de l'Université de Floride centrale en 2011 pour la recherche sur la reconnaissance de l'action humaine. Les vidéos sont au format AVI et ont une résolution de 320x240 pixels, avec des annotations de vérité au sol pour chaque vidéo, y compris l'étiquette de la classe d'action et les images de début et de fin de l'action dans la vidéo. Chaque vidéo de l'ensemble de données représente une personne effectuant une action devant une caméra statique. Les actions comprennent un large éventail d'activités quotidiennes, telles que sauter, saluer, boire et se brosser les dents, ainsi que des actions complexes comme jouer de la guitare et faire de l'équitation.


Remarque : Il est utilisé en concomitance avec le UCF101 ensemble de données, qui contient un plus grand nombre de classes d'action mais avec moins de vidéos par classe.


Vous pouvez télécharger le jeu de données ici .

13. ActivityNet

L'ActivityNet est un ensemble de données de compréhension vidéo à grande échelle qui comprend plus de 20 000 vidéos d'un ensemble diversifié de catégories comme la cuisine, le sport, la danse, etc. Les vidéos ont une durée moyenne de 3 minutes et sont annotées avec une moyenne de 1,41 segments d'activité. Il est disponible dans PyTorch, qui est facile à utiliser dans les cadres d'apprentissage en profondeur. La version PyTorch propose des fonctionnalités prétraitées extraites des trames RVB et des champs de flux optique de chaque vidéo, ainsi que des annotations de vérité terrain pour les segments temporels et les étiquettes d'activité.


Vous pouvez télécharger le jeu de données ici .

14. Ensemble de données VOC (classes d'objets visuels)

L'ensemble de données VOC (Visual Object Classes) a été introduit pour la première fois en 2005 dans le cadre du PASCAL VOC Challenge, qui visait à faire progresser l'état de l'art en matière de reconnaissance visuelle. Il se compose d'images de 20 catégories d'objets différentes, y compris des animaux, des véhicules et des objets ménagers courants. Chacune de ces images est annotée avec les emplacements et les classifications des objets dans l'image. Les annotations comprennent à la fois des cadres de délimitation et des masques de segmentation au niveau des pixels. L'ensemble de données est divisé en deux ensembles principaux : les ensembles d'apprentissage et de validation. L'ensemble de formation contient environ 5 000 images avec annotations, tandis que l'ensemble de validation contient environ 5 000 images sans annotations. En outre, l'ensemble de données comprend également un ensemble de test avec environ 10 000 images, mais les annotations pour cet ensemble ne sont pas accessibles au public.


Pour télécharger le jeu de données récent, vous pouvez le télécharger depuis le site Internet , chargez-le en Python via notre open source Deep Lake avec une seule ligne de code, ou téléchargez-le depuis Kagglé .


15. YCB-Vidéo

Cet ensemble de données est une collection de modèles d'objets 3D et de séquences vidéo conçus pour la reconnaissance d'objets et les tâches d'estimation de pose. Il contient 21 articles ménagers de tous les jours, chaque objet étant capturé dans diverses conditions d'éclairage et points de vue de la caméra. L'ensemble de données fournit des annotations de vérité terrain au niveau des pixels et est couramment utilisé pour évaluer les algorithmes de vision par ordinateur et les systèmes robotiques.


Cliquez ici pour télécharger le base de données .

16. KITTI

L'ensemble de données KITTI est une collection de données de vision par ordinateur pour la recherche sur la conduite autonome. Il comprend plus de 4000 images haute résolution, des nuages de points LIDAR et des données de capteurs provenant d'une voiture équipée de divers capteurs. L'ensemble de données fournit des annotations pour la détection, le suivi et la segmentation d'objets, ainsi que des cartes de profondeur et des paramètres d'étalonnage. L'ensemble de données KITTI est largement utilisé pour la formation et l'évaluation de modèles d'apprentissage en profondeur pour la conduite autonome et la robotique.


Pour télécharger le jeu de données récent, vous pouvez le télécharger depuis le site Internet , GitHub ou télécharge le de Kagglé .

17. BraTS

L'ensemble de données BRATS PyTorch est une collection d'images par résonance magnétique (IRM) pour la segmentation des tumeurs cérébrales. Il se compose de plus de 200 images cérébrales 3D haute résolution, chacune avec quatre modalités (T1, T1c, T2 et FLAIR) et les masques de segmentation binaire correspondants. L'ensemble de données est couramment utilisé pour la formation et l'évaluation de modèles d'apprentissage en profondeur pour la détection et la segmentation automatisées des tumeurs cérébrales.


Vous pouvez télécharger cet ensemble de données sur Kaggle en cliquant sur ici .

18. Analyse multi-humaine

L'ensemble de données Multi-Human Parsing PyTorch est un ensemble de données d'images humaines à grande échelle avec des annotations au niveau des pixels pour l'analyse des parties humaines. Il contient plus de 26 000 images d'humains, chacune segmentée en 18 étiquettes de parties humaines. L'ensemble de données est utilisé pour former et évaluer des modèles d'apprentissage en profondeur pour l'estimation de la pose humaine, la segmentation et la reconnaissance des actions.


Pour télécharger le jeu de données, cliquez sur ici .

19. Charades

Cet ensemble de données est un ensemble de données vidéo à grande échelle pour la reconnaissance et la localisation des actions. Il comprend plus de 9 800 vidéos d'activités quotidiennes, telles que la cuisine, le nettoyage et la socialisation, d'une durée moyenne de 30 secondes par vidéo. L'ensemble de données fournit des annotations détaillées pour chaque vidéo, y compris des limites temporelles pour les actions et des concepts visuels atomiques, ce qui le rend adapté à la formation et à l'évaluation de modèles d'apprentissage en profondeur pour la reconnaissance, la détection et la segmentation des actions.


L'ensemble de données Charades PyTorch est largement utilisé dans la communauté de recherche en vision par ordinateur et est disponible gratuitement pour télécharger et utilise.

20. TU Berlin

Cet ensemble de données est une riche collection d'images haute résolution et de poses d'objets 3D pour la détection d'objets et l'estimation de pose. Il contient plus de 11 000 images de 60 catégories d'objets, avec des annotations pour les poses 2D et 3D. Avec sa grande taille et ses diverses catégories d'objets, l'ensemble de données TU Berlin PyTorch fournit un excellent banc d'essai pour développer des modèles de détection d'objets et d'estimation de pose robustes et précis.


Vous pouvez obtenir l'ensemble de données directement à partir du site Web en cliquant sur ici .



Cas d'utilisation courants pour les ensembles de données PyTorch

Traitement du langage naturel

Vision par ordinateur

Analyse d'images médicales

Reconnaissance de l'activité humaine

Dernières pensées

PyTorch est utile pour la recherche et l'expérimentation, où l'accent est souvent mis sur le développement de modèles d'apprentissage en profondeur et l'exploration de nouvelles approches. De plus, PyTorch a acquis une réputation de framework axé sur la recherche avec une communauté croissante de développeurs et de chercheurs contribuant à l'écosystème.

Ces ensembles de données ont des applications dans plusieurs domaines et peuvent également être téléchargés et utilisés librement par tous.



L'image principale de cet article a été générée via le modèle AI Stable Diffusion de HackerNoon à l'aide de l'invite "Images superposées PyTorch".