Keras bietet eine High-Level-API, die den Prozess der Erstellung und des Trainings komplexer neuronaler Netzwerkmodelle vereinfacht. Mit einer breiten Palette vorgefertigter Ebenen und Funktionen können Entwickler mithilfe von Optimierungsalgorithmen problemlos Deep-Learning-Modelle für große Datensätze erstellen und trainieren. Keras unterstützt außerdem die GPU-Beschleunigung für Training und Inferenz, was es zu einer beliebten Wahl sowohl für Forschungs- als auch für Industrieanwendungen macht.   Was sind „Keras-Datensätze“?  Keras-Datensätze sind vorverarbeitete Datensätze, die mit der Keras-Bibliothek vorinstalliert sind. Diese Datensätze werden in der Deep-Learning-Community häufig zum Benchmarking von Modellen für verschiedene Aufgaben wie Bildklassifizierung, Textklassifizierung und Regression verwendet. Durch die Nutzung dieser Datensätze können Entwickler mit verschiedenen Deep-Learning-Modellen experimentieren und deren Leistung einfach vergleichen.  In diesem Artikel werden die   vorgestellt, die Entwicklern und Forschern weltweit zugänglich sind. besten Keras-Datensätze zum Erstellen und Trainieren von Deep-Learning-Modellen   Liste der Keras-Datensätze   1.   MNIST  Der MNIST-Datensatz ist beliebt und wird häufig in den Bereichen maschinelles Lernen und Computer Vision verwendet. Es besteht aus 70.000 Graustufenbildern der handgeschriebenen Ziffern 0–9, davon 60.000 Bilder zum Training und 10.000 zum Testen. Jedes Bild ist 28 x 28 Pixel groß und verfügt über eine entsprechende Beschriftung, die angibt, welche Ziffern es darstellt.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle oder geladen von   Keras :   tf.keras.datasets.mnist.load_data(path="mnist.npz")   2.   CIFAR-10  Der CIFAR-10-Datensatz besteht aus 60.000 32x32-Farbbildern in 10 Klassen mit 6.000 Bildern pro Klasse. Es verfügt über insgesamt 50.000 Trainingsbilder und 10.000 Testbilder, die weiter in fünf Trainingsstapel und einen Teststapel mit jeweils 10.000 Bildern unterteilt sind.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle , oder geladen von   Keras :   tf.keras.datasets.cifar10.load_data()   3.   CIFAR-100  Der CIFAR-100-Datensatz enthält 60.000 (50.000 Trainingsbilder und 10.000 Testbilder) 32x32-Farbbilder in 100 Klassen mit 600 Bildern pro Klasse. Die 100 Klassen sind in 20 Superklassen gruppiert, mit einer feinen Bezeichnung zur Bezeichnung ihrer Klasse und einer groben Bezeichnung zur Darstellung der Superklasse, zu der sie gehört.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle , oder geladen von   Keras :   tf.keras.datasets.cifar100.load_data(label_mode="fine")   4.   Mode-MNIST  Der Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt. Der Fashion-MNIST-Datensatz besteht aus 70.000 Graustufenbildern (Trainingssatz mit 60.000 und Testsatz mit 10.000) von Kleidungsstücken.  Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle , oder geladen von   Keras :     tf.keras.datasets.fashion_mnist.load_data()   5.   IMDB  Der IMDB-Datensatz wird häufig für Stimmungsanalyseaufgaben verwendet, bei denen das Ziel darin besteht, die Bewertungen basierend auf ihrem Inhalt als positiv oder negativ zu klassifizieren. Es besteht aus einer Sammlung von 50.000 Filmrezensionen (Trainingsset mit 25.000 und Testset mit 25.000) von der Website der Internet Movie Database, die gleichmäßig in positive und negative Rezensionen aufgeteilt sind.  Jede Rezension in diesem Datensatz ist ein Textdokument, vorverarbeitet und in Folgen von Ganzzahlen umgewandelt, wobei jede Ganzzahl ein Wort in der Rezension darstellt. Die Vokabulargröße ist auf die 10.000 häufigsten Wörter im Datensatz beschränkt und alle weniger häufigen Wörter werden durch ein spezielles „unbekanntes“ Token ersetzt.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle , oder geladen von   Keras :   tf.keras.datasets.imdb.load_data( path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3, **kwargs )   6.   Boston Housing  Der Boston Housing-Datensatz enthält Informationen über den Wohnungsbau im Raum Boston. Diese Informationen bestehen aus 506 Instanzen (404 Trainings- und 102 Testinstanzen) mit Attributen für jede Instanz.  Die Attribute umfassen eine Mischung aus quantitativen und kategorialen Variablen, wie z. B. die durchschnittliche Anzahl der Zimmer pro Wohnung, die Pro-Kopf-Kriminalitätsrate und den Anteil der Nicht-Einzelhandelsflächen pro Stadt.       Dieser Datensatz kann heruntergeladen werden unter   Kaggle , oder geladen von   Keras :   tf.keras.datasets.boston_housing.load_data( path="boston_housing.npz", test_split=0.2, seed=113 )   7.   Weinqualität  Der Weinqualitätsdatensatz enthält Informationen zu Rot- und Weißweinproben. Das Ziel dieses Datensatzes besteht darin, die Qualität des Weins anhand chemischer Eigenschaften wie pH-Wert, Dichte, Alkoholgehalt und Zitronensäuregehalt zu klassifizieren.   Zu den Variablen in diesem Datensatz gehören:  Fester Säuregehalt – Die Anzahl der festen Säuren im Wein, ausgedrückt in g/dm^3.  Flüchtige Säure – Die Anzahl der flüchtigen Säuren im Wein, ausgedrückt in g/dm^3.  Zitronensäure – Die Menge an Zitronensäure im Wein, ausgedrückt in g/dm^3.  Restzucker: Die Menge des Restzuckers im Wein, ausgedrückt in g/dm^3.  Chloride – Die Menge an Chlorid im Wein, ausgedrückt in g/dm^3.  Freies Schwefeldioxid – Die Menge an freiem Schwefeldioxid im Wein, ausgedrückt in mg/dm^3.  Gesamtschwefeldioxid – Die Gesamtschwefeldioxidmenge im Wein, ausgedrückt in mg/dm^3.  Dichte – Die Dichte des Weins, ausgedrückt in g/cm^3.  pH-Wert – Der pH-Wert des Weins.  Sulfate – Die Anzahl der Sulfate im Wein, ausgedrückt in g/dm^3.  Alkohol – Der Alkoholgehalt des Weines, ausgedrückt in % vol.  Qualität – Die Qualitätsbewertung des Weins auf einer Skala von 0 bis 10.     Sie können den Datensatz herunterladen   Hier , oder es kann von Keras geladen werden:   from keras.datasets import wine_quality (X_train, y_train), (X_test, y_test) = wine_quality.load_data(test_split=0.2, seed=113)   8.   Reuters Newswire  Der Reuters Newswire-Datensatz ist eine vorverarbeitete Version des ursprünglichen Reuters-Datensatzes, wobei der Text als Folgen von Ganzzahlen codiert ist. Es besteht aus 11.228 Nachrichtenartikeln mit einem Wortschatz von 30.979 Wörtern.  Jeder Artikel ist einem von 46 verschiedenen Themen wie „Mais“, „Rohöl“, „Gewinn“ und „Akquisitionen“ zugeordnet.       Sie können den Datensatz herunterladen unter   Kaggle , oder es kann von geladen werden   Keras :   tf.keras.datasets.reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=113,start_char=1,oov_char=2,index_from=3,**kwargs)   9.   Diabetes der Pima-Indianer  Dieser Datensatz besteht aus medizinischen Daten über Pima-Indianerinnen, wie Alter, Anzahl der Schwangerschaften, Glukosespiegel, Blutdruck, Hautdicke, BMI und Insulinspiegel. Die Keras-Version des Pima Indians Diabetes-Datensatzes enthält 768 Proben mit 8 Eingabevariablen und 1 Ausgabevariable.     Der Pima Indians Diabetes-Datensatz kann unter heruntergeladen werden   Kaggle , oder es kann von Keras geladen werden:   from tensorflow.keras.datasets import pima_indians_diabetes (x_train, y_train), (x_test, y_test) = pima_indians_diabetes.load_data()   10.   Hunde gegen Katzen  Der Datensatz „Hunde vs. Katzen“ besteht aus 25.000 beschrifteten Bildern von Hunden und Katzen, mit 12.500 Bildern jeder Klasse. Diese Bilder wurden aus verschiedenen Quellen mit unterschiedlicher Größe und Qualität gesammelt.     Sie können den Datensatz herunterladen unter   Kaggle , oder es kann von Keras geladen werden:   # Import the necessary Keras libraries: from keras.preprocessing.image import ImageDataGenerator # Set the paths to the training and validation directories: train_dir = 'path/to/train' validation_dir = 'path/to/validation' # Define an ImageDataGenerator object to perform data augmentation and normalization: train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) # Use flow_from_directory to load directory data in Keras: validation_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=32, class_mode='binary') validation_generator = validation_datagen.flow_from_directory(validation_dir, target_size=(150, 150), batch_size=32, class_mode='binary') # The flow_from_directory yields preprocessed image batches and labels as DirectoryIterator.  Beachten Sie, dass wir im obigen Code die Datenerweiterung verwenden, um Variationen der Trainingsbilder zu erstellen und so eine Überanpassung zu verhindern. Die Validierungsdaten werden nicht erweitert.    Häufige Anwendungsfälle für Keras-Datensätze  - Handschriftliche Ziffernerkennung.   MNIST  - Objekterkennung in Bildern.   CIFAR-10  - Objekterkennung in Bildern (feiner als CIFAR-10).   CIFAR-100  - Erkennung von Kleidungsstücken.   Mode-MNIST  - Stimmungsanalyse zu Filmkritiken.   IMDB  - Rückgang der Immobilienpreise.   Boston Housing  - Klassifizierung der Weinqualität.    Weinqualität  - Themenklassifizierung von Nachrichtenartikeln.   Reuters Newswire  - Binäre Klassifizierung von Diabetes bei Pima-Indianerinnen.   Diabetes der Pima-Indianer  - Binäre Klassifizierung von Bildern von Hunden und Katzen.   Hunde gegen Katzen   Abschließende Gedanken  Keras-Datensätze sind eine wertvolle Ressource für Praktiker und Forscher des maschinellen Lernens. Sie können Zeit und Aufwand bei der Datenerfassung und -vorverarbeitung sparen und sich stärker auf die Modellentwicklung und das Experimentieren konzentrieren.  Diese Keras-Datensätze stehen auch jedem zum kostenlosen Download und zur kostenlosen Nutzung zur Verfügung.   Weitere Datensatz-Listicles:   Power Bi-Datensätze   Zeitreihendatensätze   Geodatensätze   Umfassende Datensätze   R-Datensätze

REPO of Open Technology Datasets

dataset Blog

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Die 10 besten Keras-Datensätze zum Erstellen und Trainieren von Deep-Learning-Modellen

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Wir feiern die Community unserer Technologieunternehmen!

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Wir feiern die Community unserer Technologieunternehmen!

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps