paint-brush
Derin Öğrenme Modellerini Oluşturmak ve Eğitmek için En İyi 10 Keras Veri Kümesiile@datasets
3,028 okumalar
3,028 okumalar

Derin Öğrenme Modellerini Oluşturmak ve Eğitmek için En İyi 10 Keras Veri Kümesi

Çok uzun; Okumak

Keras, karmaşık sinir ağı modellerini oluşturma ve eğitme sürecini basitleştiren üst düzey bir API sağlar. Geliştiriciler, önceden oluşturulmuş çok çeşitli katmanlar ve işlevlerle kolayca derin öğrenme modelleri oluşturabilir ve eğitebilir. Keras ayrıca eğitim ve çıkarım için GPU hızlandırmayı da destekleyerek hem araştırma hem de endüstri uygulamaları için popüler bir seçim haline geliyor.
featured image - Derin Öğrenme Modellerini Oluşturmak ve Eğitmek için En İyi 10 Keras Veri Kümesi
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Keras, karmaşık sinir ağı modellerini oluşturma ve eğitme sürecini basitleştiren üst düzey bir API sağlar. Geliştiriciler, önceden oluşturulmuş çok çeşitli katmanlar ve işlevlerle, optimizasyon algoritmalarını kullanarak büyük veri kümeleri üzerinde derin öğrenme modellerini kolayca oluşturabilir ve eğitebilir. Keras ayrıca eğitim ve çıkarım için GPU hızlandırmayı da destekleyerek hem araştırma hem de endüstri uygulamaları için popüler bir seçim haline geliyor.


“Keras Veri Kümeleri” nedir?

Keras veri kümeleri, Keras kitaplığıyla önceden yüklenmiş olarak gelen, önceden işlenmiş veri kümeleridir. Bu veri kümeleri, derin öğrenme topluluğunda görüntü sınıflandırma, metin sınıflandırma ve regresyon gibi çeşitli görevlerde modelleri kıyaslamak için yaygın olarak kullanılır. Geliştiriciler bu veri kümelerinden yararlanarak farklı derin öğrenme modellerini deneyebilir ve performanslarını kolayca karşılaştırabilir.


Bu makale, dünya çapındaki geliştiricilerin ve araştırmacıların erişebileceği Derin Öğrenme Modellerini Oluşturmak ve Eğitmek için En İyi Keras Veri Kümelerini ele almaktadır.

Keras Veri Kümelerinin Listesi


1. MNIST

MNIST veri seti popülerdir ve makine öğrenmesi ve bilgisayarlı görme alanlarında yaygın olarak kullanılmaktadır. 60.000'i eğitim ve 10.000'i test için olmak üzere, 0-9 arası elle yazılmış rakamlardan oluşan 70.000 gri tonlamalı görüntüden oluşur. Her görüntü 28x28 piksel boyutundadır ve hangi basamakları temsil ettiğini belirten karşılık gelen bir etikete sahiptir.


Bu veri kümesi şu adresten indirilebilir: Kaggle veya şuradan yüklendi: Keras :


 tf.keras.datasets.mnist.load_data(path="mnist.npz")

2. CIFAR-10

CIFAR-10 veri seti, sınıf başına 6.000 görüntü olmak üzere 10 sınıfta 60.000 32x32 renkli görüntüden oluşur. Toplamda 50.000 eğitim görüntüsü ve 10.000 test görüntüsü vardır; bunlar ayrıca her biri 10.000 görüntü içeren beş eğitim kümesine ve bir test kümesine bölünmüştür.


Bu veri kümesi şu adresten indirilebilir: Kaggle , veya şuradan yüklendi: Keras :


 tf.keras.datasets.cifar10.load_data()

3. CIFAR-100

CIFAR-100 veri seti, sınıf başına 600 görüntü olmak üzere 100 sınıfta 60.000 (50.000 eğitim görüntüsü ve 10.000 test görüntüsü) 32x32 renkli görüntüye sahiptir. 100 sınıf, kendi sınıfını belirten ince bir etiket ve ait olduğu süper sınıfı temsil eden kaba bir etiketle 20 süper sınıfa ayrılmıştır.


Bu veri kümesi şu adresten indirilebilir: Kaggle , veya şuradan yüklendi: Keras :


 tf.keras.datasets.cifar100.load_data(label_mode="fine")

4. Moda-MNIST

Fashion MNIST veri seti, orijinal MNIST veri setinin yerine geçmek üzere Zalando Research tarafından oluşturuldu. Fashion MNIST veri seti, giyim öğelerinin 70.000 gri tonlamalı görüntüsünden (60.000 eğitim seti ve 10.000 test seti) oluşur.


Görüntüler 28x28 piksel boyutundadır ve tişörtler/üstler, pantolonlar, kazaklar, elbiseler, paltolar, sandaletler, gömlekler, spor ayakkabılar, çantalar ve bilekte botlar dahil olmak üzere 10 farklı giyim öğesini temsil etmektedir. Orijinal MNIST veri setine benzer ancak giyim öğelerinin daha karmaşık ve çeşitli olması nedeniyle sınıflandırma görevleri daha zorludur.


Bu veri kümesi şu adresten indirilebilir: Kaggle , veya şuradan yüklendi: Keras :


 tf.keras.datasets.fashion_mnist.load_data() 


Fashion-MNIST görselleri

5. IMDB'si

IMDB veri kümesi, genel olarak duygu analizi görevleri için kullanılır; buradaki amaç, incelemeleri içeriklerine göre olumlu veya olumsuz olarak sınıflandırmaktır. İnternet Film Veritabanı web sitesinden olumlu ve olumsuz incelemeler arasında eşit olarak bölünmüş 50.000 film incelemesinden (25.000 eğitim seti ve 25.000 test seti) oluşan bir koleksiyondan oluşur.


Bu veri kümesindeki her inceleme, önceden işlenmiş ve her tam sayının incelemedeki bir kelimeyi temsil ettiği tam sayı dizilerine dönüştürülmüş bir metin belgesidir. Kelime dağarcığı boyutu, veri kümesindeki en sık kullanılan 10.000 kelimeyle sınırlıdır ve daha az sıklıkta kullanılan kelimeler, özel bir "bilinmeyen" belirteçle değiştirilir.


Bu veri kümesi şu adresten indirilebilir: Kaggle , veya şuradan yüklendi: Keras :


 tf.keras.datasets.imdb.load_data( path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3, **kwargs )

6. Boston Konutları

Boston Konut veri seti, Boston bölgesindeki konutlarla ilgili bilgiler içerir. Bu bilgiler, her bir örneğin öznitelikleriyle birlikte 506 örnekten (404 eğitim ve 102 test örneği) oluşur.


Nitelikler, konut başına ortalama oda sayısı, kişi başına düşen suç oranı ve kasaba başına perakende olmayan iş alanlarının oranı gibi niceliksel ve kategorik değişkenlerin bir karışımını içeriyor.


Bu veri kümesi şu adresten indirilebilir: Kaggle , veya şuradan yüklendi: Keras :


 tf.keras.datasets.boston_housing.load_data( path="boston_housing.npz", test_split=0.2, seed=113 )

7. Şarap Kalitesi

Şarap Kalitesi veri seti, kırmızı ve beyaz şarap örneklerine ilişkin bilgiler içerir. Bu veri setinin amacı şarabın kalitesini pH, yoğunluk, alkol içeriği ve sitrik asit içeriği gibi kimyasal özelliklere göre sınıflandırmaktır.


Bu veri kümesindeki değişkenler şunları içerir:


  • Sabit Asitlik - Şaraptaki sabit asitlerin sayısı, g/dm^3 cinsinden ifade edilir.
  • Uçucu Asitlik - Şaraptaki uçucu asitlerin sayısı, g/dm^3 cinsinden ifade edilir.
  • Sitrik Asit - Şaraptaki sitrik asit miktarı, g/dm^3 cinsinden ifade edilir.
  • Artık Şeker: Şarapta bulunan, g/dm^3 cinsinden ifade edilen artık şeker miktarı.
  • Klorürler - Şaraptaki g/dm^3 cinsinden ifade edilen klorür miktarı.
  • Serbest Sülfür Dioksit - Şaraptaki mg/dm^3 cinsinden ifade edilen serbest kükürt dioksit miktarı.
  • Toplam Kükürt Dioksit - Şaraptaki mg/dm^3 cinsinden ifade edilen toplam kükürt dioksit miktarı.
  • Yoğunluk - Şarabın g/cm^3 cinsinden ifade edilen yoğunluğu.
  • pH - Şarabın pH seviyesi.
  • Sülfatlar - Şaraptaki sülfatların sayısı, g/dm^3 cinsinden ifade edilir.
  • Alkol - Şarabın alkol içeriği, % hacim olarak ifade edilir.
  • Kalite - Şarabın 0'dan 10'a kadar olan kalite derecesi.


Veri setini indirebilirsiniz Burada veya Keras'tan yüklenebilir:


 from keras.datasets import wine_quality (X_train, y_train), (X_test, y_test) = wine_quality.load_data(test_split=0.2, seed=113)

8. Reuters Haber Teli

Reuters Newswire veri seti, orijinal Reuters veri setinin önceden işlenmiş bir versiyonudur ve metin tamsayı dizileri olarak kodlanmıştır. 30.979 kelimelik kelime dağarcığına sahip 11.228 haber makalesinden oluşmaktadır.


Her makale “mısır”, “ham”, “kazançlar” ve “satın almalar” gibi 46 farklı konudan birine sınıflandırılmıştır.


Veri setini şuradan indirebilirsiniz: Kaggle veya şuradan yüklenebilir: Keras :


 tf.keras.datasets.reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=113,start_char=1,oov_char=2,index_from=3,**kwargs)

9. Pima Kızılderilileri Diyabet

Bu veri seti, Pima Hintli kadınlarına ilişkin yaş, gebelik sayısı, glikoz seviyeleri, kan basıncı, cilt kalınlığı, BMI ve insülin seviyesi gibi tıbbi verilerden oluşuyor. Pima Indians Diabetes veri kümesinin Keras sürümü, 8 giriş değişkeni ve 1 çıkış değişkeni içeren 768 örnek içerir.


Pima Kızılderilileri Diyabet veri seti şu adresten indirilebilir: Kaggle veya Keras'tan yüklenebilir:


 from tensorflow.keras.datasets import pima_indians_diabetes (x_train, y_train), (x_test, y_test) = pima_indians_diabetes.load_data()

10. Köpekler ve Kediler

Köpekler ve Kediler veri seti, her sınıftan 12.500 görüntü içeren 25.000 etiketli köpek ve kedi görüntüsünden oluşur. Bu görseller farklı boyut ve kalitede çeşitli kaynaklardan toplanmıştır.


Veri setini şuradan indirebilirsiniz: Kaggle veya Keras'tan yüklenebilir:


 # Import the necessary Keras libraries: from keras.preprocessing.image import ImageDataGenerator # Set the paths to the training and validation directories: train_dir = 'path/to/train' validation_dir = 'path/to/validation' # Define an ImageDataGenerator object to perform data augmentation and normalization: train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) # Use flow_from_directory to load directory data in Keras: validation_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=32, class_mode='binary') validation_generator = validation_datagen.flow_from_directory(validation_dir, target_size=(150, 150), batch_size=32, class_mode='binary') # The flow_from_directory yields preprocessed image batches and labels as DirectoryIterator.


Yukarıdaki kodda, aşırı uyumun önlenmesine yardımcı olmak amacıyla eğitim görüntülerinin varyasyonlarını oluşturmak için veri artırmayı kullandığımızı unutmayın. Doğrulama verileri artırılmaz.


Köpekler ve Kediler görselleri

Keras Veri Kümeleri için Yaygın Kullanım Durumları

MNIST - El yazısı rakam tanıma.


CIFAR-10 - Görüntülerde nesne tanıma.


CIFAR-100 - Görüntülerde nesne tanıma (CIFAR-10'dan daha ince taneli).


Moda-MNIST - Giyim eşyası tanıma.


IMDB'si - Film incelemelerinde duygu analizi.


Boston Konutları - Konut fiyatlarında gerileme.


Şarap Kalitesi - Şarap kalitesinin sınıflandırılması.



Reuters Haber Teli - Haber makalelerinin konu sınıflandırması.


Pima Kızılderilileri Diyabet - Pima Hintli kadınlarda diyabetin ikili sınıflandırması.


Köpekler ve Kediler - Köpek ve kedi görüntülerinin ikili sınıflandırılması.

Son düşünceler

Keras veri kümeleri, makine öğrenimi uygulayıcıları ve araştırmacıları için veri toplama ve ön işlemede zamandan ve emekten tasarruf sağlayan, model geliştirme ve denemeye daha fazla odaklanmaya olanak tanıyan değerli bir kaynaktır.


Bu Keras veri kümeleri aynı zamanda herkesin ücretsiz olarak indirip kullanmasına da açıktır.



Daha Fazla Veri Kümesi Listesi:

  1. Power Bi Veri Kümeleri
  2. Zaman Serisi Veri Kümeleri
  3. Jeo-uzaysal Veri Kümeleri
  4. Veri Kümelerini Kucaklamak
  5. R Veri Kümeleri