paint-brush
Die 20 besten PyTorch-Datensätze zum Erstellen von Deep-Learning-Modellenvon@datasets
4,776 Lesungen
4,776 Lesungen

Die 20 besten PyTorch-Datensätze zum Erstellen von Deep-Learning-Modellen

Zu lang; Lesen

Die beiden am häufigsten verwendeten Open-Source-Frameworks für maschinelles Lernen zum Trainieren und Erstellen von Deep-Learning-Modellen sind TensorFlow und PyTorch. Diese Frameworks weisen einzigartige Unterschiede in ihrem Ansatz zum Erstellen und Trainieren von Modellen auf. Die Wahl der Frameworks hängt von den spezifischen Bedürfnissen und Vorlieben des Benutzers ab. In diesem Artikel werden die besten PyTorch-Datensätze zum Erstellen von Deep-Learning-Modellen vorgestellt.

People Mentioned

Mention Thumbnail
featured image - Die 20 besten PyTorch-Datensätze zum Erstellen von Deep-Learning-Modellen
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Die beiden am weitesten verbreiteten Open-Source-Frameworks für maschinelles Lernen zum Trainieren und Erstellen von Deep-Learning-Modellen sind TensorFlow und PyTorch.


Diese Frameworks weisen einzigartige Unterschiede in ihrem Ansatz zum Erstellen und Trainieren von Modellen auf. Während TensorFlow einen statischen Graphen und deklarative Programmierung verwendet, was bessere Optimierungsmöglichkeiten bietet und verteiltes Training ermöglicht, nutzt PyTorch einen dynamischen Rechengraphen und imperative Programmierung, was einen flexibleren und einfacheren Debugging-Prozess ermöglicht. Die Wahl der Frameworks hängt von den spezifischen Bedürfnissen und Vorlieben des Benutzers ab.


In diesem Artikel werden die besten PyTorch-Datensätze zum Erstellen von Deep-Learning-Modellen vorgestellt, die heute verfügbar sind.

Ultimative Liste offener PyTorch-Datensätze


1. Penn Treebank

Die Penn Treebank ist eine Sammlung kommentierter englischer Texte, die in der Forschungsgemeinschaft zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eingehend untersucht werden. Es umfasst über 4,5 Millionen Wörter Text aus verschiedenen Genres wie Zeitschriften, Nachrichtenartikeln und fiktionalen Geschichten. Der Datensatz besteht außerdem aus manuell annotierten Informationen zu Namensberechtigungen, Wortart-Tags und syntaktischer Struktur, die zum Trainieren und Bewerten einer breiten Palette von NLP-Modellen verwendet werden, darunter Sprachmodelle, Parser und maschinelle Übersetzungssysteme.


Um diesen Datensatz herunterzuladen, klicken Sie auf hier .

2. Stanford Question Answering Dataset (SQuAD)

Der SQuAD (Stanford Question Answering Dataset) ist ein beliebter Benchmark-Datensatz in der Verarbeitung natürlicher Sprache (NLP), der mehr als 100.000 Frage-Antwort-Paare umfasst, die aus einer Reihe von Wikipedia-Artikeln extrahiert wurden. Es wird verwendet, um die Leistung verschiedener NLP-Modelle zu bewerten, die mit PyTorch oder anderen Deep-Learning-Frameworks erstellt wurden. Die Antwortspannen haben eine durchschnittliche Länge von 3,6 Wörtern und die entsprechenden Passagen enthalten im Durchschnitt 11,0 Wörter.


Hier sind einige zusätzliche Details zum SQuAD:


SQuAD 1.0 - Es enthält mehr als 100.000 Frage-Antwort-Paare zu 536 Artikeln aus der englischen Wikipedia.


SQuAD 2.0 - Es enthält mehr als 150.000 Frage-Antwort-Paare zu mehr als 100.000 Wikipedia-Artikeln, mit zusätzlichen unbeantwortbaren Fragen, um die Fähigkeit des Modells zu testen, auf Antworten zu verzichten.


Das Ziel des Datensatzes besteht darin, maschinellen Lernmodellen eine anspruchsvolle Aufgabe zur Beantwortung von Fragen zu einer bestimmten Textpassage bereitzustellen. Klicken Sie hier, um die herunterzuladen neueste Version (SQuAD 2.0) .

3. Lung Image Database Consortium und Image Database Resource Initiative (LIDC-IDRI)

Bei diesem PyTorch-Datensatz handelt es sich um einen öffentlichen Datensatz mit Computertomographiebildern des Brustkorbs, der von mehreren Radiologen mit Anmerkungen zu Lungenknoten versehen wurde. Es umfasst 1.018 CT-Scans verschiedener Institutionen und enthält über 23.000 kommentierte Knoten.

Jeder Scan im Datensatz wird von Anmerkungen von vier erfahrenen Radiologen begleitet, die Informationen zu Form, Größe, Knotenposition und Textur liefern. Der Datensatz wurde erstellt, um die Forschung zur Entwicklung computergestützter Diagnosesysteme (CAD) für die Früherkennung und Diagnose von Lungenkrebs zu unterstützen.


Hinweis: Der Datensatz ist öffentlich verfügbar, unterliegt jedoch bestimmten Einschränkungen und Anforderungen für die Nutzung.


Klicken Hier herunterladen.

4. Mode-MNIST

Der PyTorch Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt und ist in einem PyTorch-kompatiblen Format verfügbar. Der PyTorch Fashion MNIST-Datensatz umfasst 70.000 Graustufenbilder von Kleidungsstücken, darunter 60.000 Trainingsbilder und 10.000 Testbilder.


Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.


Der Datensatz kann heruntergeladen werden Hier .

5. Yelp-Bewertungen

Der Yelp-Bewertungsdatensatz ist eine umfangreiche Sammlung von über 5 Millionen Bewertungen lokaler Unternehmen aus 11 Metropolregionen in den Vereinigten Staaten. Jede Bewertung im Datensatz enthält Informationen wie die Sternebewertung, die Unternehmenskategorie, den Bewertungstext, das Datum und den Ort. Es ist eine wertvolle Ressource, die sich für die Erstellung von Deep-Learning-Modellen mit PyTorch interessiert.


Bitte melden Sie sich an und klicken Sie hier, um den Datensatz herunterzuladen.

6. Stanford-Hunde

Dieser PyTorch-Datensatz umfasst eine Sammlung von 20.580 hochwertigen Bildern von 120 verschiedenen Hunderassen, die jeweils mit Informationen über die Rasse des Hundes im Bild gekennzeichnet sind. Es kann zur Bildklassifizierung und Objekterkennung verwendet werden. Da der Datensatz im JPEG-Format und Anmerkungen in einer Textdatei bereitgestellt werden, haben die Bilder eine Größe von 224 x 224 Pixeln. Die Rassen im Datensatz reichen von gängigen Rassen wie Golden Retriever und Labrador bis hin zu unbekannteren Rassen wie dem Otterhound und dem Sussex Spaniel.


Sie können die herunterladen Datensatz Hier.


7. Caltech 101

Während die begrenzte Anzahl von Bildern pro Kategorie eine Herausforderung darstellen kann, machen die detaillierten Anmerkungen den PyTorch Caltech 101-Datensatz zu einer wertvollen Ressource für die Bewertung von Deep-Learning-Modellen. Der Datensatz ist ein beschrifteter Computer-Vision-Datensatz mit 9.144 hochwertigen Bildern von Objekten in 101 Kategorien. Darüber hinaus deckt es ein breites Spektrum an Objektkategorien ab und die Bilder wurden aus verschiedenen Quellen bezogen. Jedes Bild ist mit der Objekt- und Bildkategorie gekennzeichnet, was die Verwendung mit einer Vielzahl von Deep-Learning-Frameworks vereinfacht.


Hier klicken, um herunterladen .

8. STS-B (Semantic Textual Similarity Benchmark)

Der STS-B-Datensatz (Semantic Textual Similarity Benchmark) ist ein englischsprachiger Datensatz, der in den im Rahmen von SemEval zwischen 2012 und 2017 organisierten STS-Aufgaben verwendet wird. Er umfasst 8628 Satzpaare mit vom Menschen zugewiesenen Ähnlichkeitswerten auf einer Skala von 1 bis 5. Es stammt aus verschiedenen Quellen wie Nachrichtenartikeln, Forenbeiträgen, Bildern mit Bildunterschriften und deckt ein breites Themenspektrum ab. Es handelt sich um einen beliebten Datensatz, der mit PyTorch zur Bewertung der Modellleistung bei der Bestimmung der semantischen Ähnlichkeit zwischen zwei Sätzen verwendet wird. Der STS-B-Datensatz ist in mehreren Formaten verfügbar, einschließlich PyTorch-kompatibler Formate, da PyTorch ein Deep-Learning-Framework zum Trainieren und Bewerten von Modellen auf diesem Datensatz ist.

\Um diesen Datensatz herunterzuladen, klicken Sie auf Hier .


9. WMT'14 Englisch-Deutsch

Dieser PyTorch-Datensatz ist ein Benchmark-Datensatz für die maschinelle Übersetzung zwischen Englisch und Deutsch, der 2015 von Stanford erstellt wurde. Er umfasst parallele Korpora satzorientierter Texte in Englisch und Deutsch, die zur Erstellung und Bewertung von Deep-Learning-Modellen verwendet werden. Während die Testsätze jeweils 3.000 Satzpaare enthalten, besteht der Trainingssatz aus etwa 4,5 Millionen Satzpaaren und die durchschnittliche Satzlänge beträgt 26 Wörter im Englischen und 30 Wörter im Deutschen, bei einem Wortschatzumfang von etwa 160.000 Wörtern für Englisch und 220.000 Wörtern für Deutsch Deutsch.


Sie können nach unten scrollen und es herunterladen Hier .

10. CelebA

Bei diesem Datensatz handelt es sich um einen beliebten groß angelegten Datensatz mit Gesichtsattributen, der über 200.000 Bilder von Prominenten umfasst. Es wurde erstmals 2015 von Forschern der Chinesischen Universität Hongkong veröffentlicht. Ein Bild im CelebA besteht aus 40 Gesichtsattributen wie Alter, Haarfarbe, Gesichtsausdruck und Geschlecht. Außerdem wurden diese Bilder aus dem Internet abgerufen und decken ein breites Spektrum an Gesichtsaussehen ab, darunter verschiedene Rassen, Altersgruppen und Geschlechter. Begrenzungsrahmenanmerkungen für die Position des Gesichts in jedem Bild sowie 5 Orientierungspunkte für Augen, Nase und Mund.


Hinweis: Der CelebA-Datensatz steht unter der Creative Commons Attribution-Noncommercial-Share-Lizenz, die die Nutzung für nichtkommerzielle Forschungszwecke erlaubt, sofern die entsprechende Quellenangabe erfolgt.


Um den CelebA-Datensatz in PyTorch zu verwenden, können Sie die Klasse torchvision.datasets.CelebA verwenden, die Teil des Moduls torchvision ist. Sie können den Datensatz unter herunterladen Webseite oder Hier .

11. UCF101

Der UFC101-Datensatz wird häufig zur Videoklassifizierung im Bereich Computer Vision verwendet. Es umfasst 13.230 Videos menschlicher Handlungen aus 101 Handlungskategorien mit jeweils etwa 100 bis 300 Videos. Der PyTorch UCF101-Datensatz ist eine vorverarbeitete Version des ursprünglichen UCF101, die in PyTorch verwendet werden kann. Der vorverarbeitete Datensatz umfasst Videobilder, die normalisiert und in der Größe geändert wurden, einschließlich entsprechender Beschriftungen für jedes Video. Es ist außerdem in drei Sätze unterteilt: Training, Validierung und Testen, mit jeweils etwa 9.500, 3.500 und 3.000 Videos.


Um den Datensatz herunterzuladen, klicken Sie auf Hier .

12. HMDB51

Der HMDB51-Datensatz ist eine Sammlung von Videos aus verschiedenen Quellen, darunter Filmen, Fernsehsendungen und Online-Videos, die 51 Aktionsklassen mit jeweils mindestens 101 Videoclips umfasst. Es wurde 2011 von Forschern der University of Central Florida für die Erforschung der Erkennung menschlicher Handlungen entwickelt. Die Videos sind im AVI-Format und haben eine Auflösung von 320 x 240 Pixel, mit Ground-Truth-Anmerkungen für jedes Video, einschließlich der Bezeichnung der Aktionsklasse sowie der Start- und Endbilder der Aktion im Video. Jedes Video im Datensatz stellt eine Person dar, die vor einer statischen Kamera eine Aktion ausführt. Die Aktionen umfassen eine breite Palette täglicher Aktivitäten wie Springen, Winken, Trinken und Zähneputzen, aber auch komplexe Aktionen wie Gitarre spielen und Reiten.


Hinweis: Es wird zusammen mit verwendet UCF101 Datensatz, der eine größere Anzahl von Aktionsklassen, aber weniger Videos pro Klasse enthält.


Sie können den Datensatz herunterladen Hier .

13. ActivityNet

Das ActivityNet ist ein umfangreicher Datensatz zum Videoverständnis, der über 20.000 Videos aus verschiedenen Kategorien wie Kochen, Sport, Tanzen usw. umfasst. Die Videos haben eine durchschnittliche Länge von 3 Minuten und sind mit durchschnittlich 1,41 Aktivitätssegmenten versehen. Es ist in PyTorch verfügbar, das in Deep-Learning-Frameworks einfach zu verwenden ist. Die PyTorch-Version bietet vorverarbeitete Funktionen, die aus den RGB-Frames und optischen Flussfeldern jedes Videos extrahiert werden, sowie Ground-Truth-Anmerkungen für die zeitlichen Segmente und Aktivitätsbezeichnungen.


Sie können den Datensatz herunterladen Hier .

14. VOC-Datensatz (Visual Object Classes)

Der VOC-Datensatz (Visual Object Classes) wurde erstmals 2005 im Rahmen der PASCAL VOC Challenge eingeführt, deren Ziel es war, den Stand der Technik in der visuellen Erkennung voranzutreiben. Es besteht aus Bildern von 20 verschiedenen Objektkategorien, darunter Tiere, Fahrzeuge und gewöhnliche Haushaltsgegenstände. Jedes dieser Bilder ist mit den Standorten und Klassifizierungen der Objekte im Bild versehen. Die Anmerkungen umfassen sowohl Begrenzungsrahmen als auch Segmentierungsmasken auf Pixelebene. Der Datensatz ist in zwei Hauptsätze unterteilt: den Trainings- und den Validierungssatz. Der Trainingssatz enthält etwa 5.000 Bilder mit Anmerkungen, während der Validierungssatz etwa 5.000 Bilder ohne Anmerkungen enthält. Darüber hinaus enthält der Datensatz auch einen Testsatz mit etwa 10.000 Bildern, die Anmerkungen zu diesem Satz sind jedoch nicht öffentlich verfügbar.


Um den aktuellen Datensatz herunterzuladen, können Sie ihn unter herunterladen Webseite , laden Sie es in Python über unsere Deep Lake Open Source mit nur einer Codezeile oder laden Sie es von herunter Kaggle .


15. YCB-Video

Bei diesem Datensatz handelt es sich um eine Sammlung von 3D-Objektmodellen und Videosequenzen, die für Objekterkennungs- und Posenschätzungsaufgaben entwickelt wurden. Es enthält 21 alltägliche Haushaltsgegenstände, wobei jedes Objekt bei verschiedenen Lichtverhältnissen und Kameraperspektiven aufgenommen wurde. Der Datensatz bietet Ground-Truth-Anmerkungen auf Pixelebene und wird häufig zur Bewertung von Computer-Vision-Algorithmen und Robotersystemen verwendet.


Klicken Sie hier, um das herunterzuladen Datensatz .

16. KITTI

Der KITTI-Datensatz ist eine Sammlung von Computer-Vision-Daten für die autonome Fahrforschung. Es umfasst über 4000 hochauflösende Bilder, LIDAR-Punktwolken und Sensordaten eines mit verschiedenen Sensoren ausgestatteten Autos. Der Datensatz bietet Anmerkungen zur Objekterkennung, -verfolgung und -segmentierung sowie Tiefenkarten und Kalibrierungsparameter. Der KITTI-Datensatz wird häufig zum Training und zur Bewertung von Deep-Learning-Modellen für autonomes Fahren und Robotik verwendet.


Um den aktuellen Datensatz herunterzuladen, können Sie ihn unter herunterladen Webseite , GitHub oder downloade es von Kaggle .

17. BraTS

Der BRATS PyTorch-Datensatz ist eine Sammlung von Magnetresonanztomographie-Scans (MRT) zur Segmentierung von Hirntumoren. Es besteht aus über 200 hochauflösenden 3D-Gehirnbildern mit jeweils vier Modalitäten (T1, T1c, T2 und FLAIR) und entsprechenden binären Segmentierungsmasken. Der Datensatz wird häufig zum Trainieren und Bewerten von Deep-Learning-Modellen für die automatisierte Erkennung und Segmentierung von Hirntumoren verwendet.


Sie können diesen Datensatz auf Kaggle herunterladen, indem Sie auf klicken Hier .

18. Multi-Human-Parsing

Der PyTorch-Datensatz „Multi-Human Parsing“ ist ein umfangreicher Datensatz menschlicher Bilder mit Anmerkungen auf Pixelebene für die Analyse menschlicher Teile. Es enthält über 26.000 Bilder von Menschen, die jeweils in 18 Bezeichnungen menschlicher Teile unterteilt sind. Der Datensatz wird zum Trainieren und Bewerten von Deep-Learning-Modellen zur menschlichen Posenschätzung, Segmentierung und Aktionserkennung verwendet.


Um den Datensatz herunterzuladen, klicken Sie auf Hier .

19. Scharaden

Bei diesem Datensatz handelt es sich um einen umfangreichen Videodatensatz zur Aktionserkennung und -lokalisierung. Es umfasst über 9.800 Videos von alltäglichen Aktivitäten wie Kochen, Putzen und Geselligkeit mit einer durchschnittlichen Länge von 30 Sekunden pro Video. Der Datensatz bietet detaillierte Anmerkungen für jedes Video, einschließlich zeitlicher Grenzen für Aktionen und atomare visuelle Konzepte, wodurch er für das Training und die Bewertung von Deep-Learning-Modellen zur Aktionserkennung, -erkennung und -segmentierung geeignet ist.


Der Charades PyTorch-Datensatz wird in der Computer-Vision-Forschungsgemeinschaft häufig verwendet und ist kostenlos verfügbar herunterladen und verwenden.

20. TU Berlin

Dieser Datensatz ist eine umfangreiche Sammlung hochauflösender Bilder und 3D-Objektposen zur Objekterkennung und Posenschätzung. Es enthält über 11.000 Bilder von 60 Objektkategorien mit Anmerkungen für 2D- und 3D-Posen. Mit seiner Größe und den vielfältigen Objektkategorien bietet der PyTorch-Datensatz der TU Berlin eine hervorragende Testumgebung für die Entwicklung robuster und genauer Modelle zur Objekterkennung und Posenschätzung.


Durch Anklicken können Sie den Datensatz direkt von der Website abrufen Hier .



Häufige Anwendungsfälle für PyTorch-Datensätze

Verarbeitung natürlicher Sprache

Computer Vision

Medizinische Bildanalyse

Erkennung menschlicher Aktivitäten

Abschließende Gedanken

PyTorch eignet sich für Forschung und Experimente, bei denen der Schwerpunkt häufig auf der Entwicklung von Deep-Learning-Modellen und der Erforschung neuer Ansätze liegt. Darüber hinaus hat sich PyTorch einen Ruf als forschungsorientiertes Framework mit einer wachsenden Gemeinschaft von Entwicklern und Forschern erworben, die zum Ökosystem beitragen.

Diese Datensätze finden in mehreren Bereichen Anwendung und stehen außerdem jedem zum Download und zur kostenlosen Nutzung zur Verfügung.



Das Hauptbild dieses Artikels wurde mit dem AI Stable Diffusion-Modell von HackerNoon unter Verwendung der Eingabeaufforderung „PyTorch überlagerte Bilder“ generiert.