paint-brush
कंप्यूटर विजन के लिए 11 टॉर्चविजन डेटासेट आपको जानना जरूरी हैद्वारा@datasets
7,640 रीडिंग
7,640 रीडिंग

कंप्यूटर विजन के लिए 11 टॉर्चविजन डेटासेट आपको जानना जरूरी है

द्वारा Open Datasets Compiled by HackerNoon13m2023/03/26
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

Torchvision पूर्व-निर्मित डेटासेट, मॉडल तक पहुंच प्रदान करता है और विशेष रूप से कंप्यूटर विज़न कार्यों के लिए डिज़ाइन किया गया है। डेटासेट पूर्व-संसाधित, लेबल और स्वरूपों में व्यवस्थित होते हैं जिन्हें आसानी से लोड और उपयोग किया जा सकता है। टॉर्चविजन सीपीयू और जीपीयू त्वरण दोनों का समर्थन करता है, जिससे यह कंप्यूटर दृष्टि अनुप्रयोगों के विकास के लिए एक लचीला और शक्तिशाली उपकरण बन जाता है।
featured image - कंप्यूटर विजन के लिए 11 टॉर्चविजन डेटासेट आपको जानना जरूरी है
Open Datasets Compiled by HackerNoon HackerNoon profile picture

कंप्यूटर दृष्टि महत्वपूर्ण विकास का अनुभव करने वाला क्षेत्र है और इसके कई व्यावहारिक अनुप्रयोग हैं, जिनमें स्व-ड्राइविंग कारों से लेकर चेहरे की पहचान प्रणाली शामिल हैं। हालांकि, इस क्षेत्र में प्रमुख चुनौतियों में से एक मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए उच्च गुणवत्ता वाले डेटासेट प्राप्त करना है।


इस चुनौती का समाधान करने के लिए, टॉर्चविजन पूर्व-निर्मित डेटासेट, मॉडल तक पहुंच प्रदान करता है और विशेष रूप से कंप्यूटर विजन कार्यों के लिए डिज़ाइन किया गया है। टॉर्चविजन सीपीयू और जीपीयू त्वरण दोनों का भी समर्थन करता है, जिससे यह कंप्यूटर दृष्टि अनुप्रयोगों के विकास के लिए एक लचीला और शक्तिशाली उपकरण बन जाता है।

"टॉर्चविजन डेटासेट" क्या हैं?

Torchvision डेटासेट मशीन लर्निंग मॉडल के विकास और परीक्षण के लिए आमतौर पर कंप्यूटर विज़न में उपयोग किए जाने वाले लोकप्रिय डेटासेट का संग्रह है। टार्चविज़न डेटासेट के साथ, डेवलपर्स अपने मशीन लर्निंग मॉडल को कई प्रकार के कार्यों पर प्रशिक्षित और परीक्षण कर सकते हैं, जैसे कि छवि वर्गीकरण, वस्तु का पता लगाना और विभाजन।

डेटासेट भी पूर्व-संसाधित, लेबल और स्वरूपों में व्यवस्थित होते हैं जिन्हें आसानी से लोड और उपयोग किया जा सकता है।

टॉर्चविजन डेटासेट की सूची

  1. Mnist
  2. सीआईएफएआर-10
  3. सीआईएफएआर-100
  4. इमेजनेट
  5. कोको
  6. फैशन-MNIST
  7. एसवीएचएन
  8. एसटीएल-10
  9. सेलेब
  10. पास्कल वीओसी
  11. स्थान365

1. Mnist

यह टॉर्चविजन डेटासेट मशीन लर्निंग और कंप्यूटर विजन के क्षेत्र में लोकप्रिय और व्यापक रूप से उपयोग किया जाता है। इसमें हस्तलिखित अंकों की 70,000 ग्रेस्केल छवियां 0–9 हैं, जिसमें प्रशिक्षण के लिए 60,000 चित्र और परीक्षण के लिए 10,000 चित्र हैं। प्रत्येक छवि आकार में 28x28 पिक्सेल है और इसमें एक संबंधित लेबल है जो दर्शाता है कि यह किस अंक का प्रतिनिधित्व करता है।


इस डेटासेट तक पहुँचने के लिए, आप इसे सीधे से डाउनलोड कर सकते हैं कागल या टार्चविजन का उपयोग करके डेटासेट लोड करें:


 import torchvision.datasets as datasets # Load the training dataset train_dataset = datasets.MNIST(root='data/', train=True, transform=None, download=True) # Load the testing dataset test_dataset = datasets.MNIST(root='data/', train=False, transform=None, download=True)


PyTorch टॉर्चविजन पैकेज का उपयोग करके MNIST डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.MNIST.html#torchvision.datasets.MNIST से 20/3/2023 को लिया गया।


MNIST डेटासेट का प्रतिनिधित्व

2. सीआईएफएआर-10

CIFAR-10 डेटासेट में 10 वर्गों में 60,000 32x32 रंगीन चित्र होते हैं, जिसमें प्रति वर्ग 6,000 चित्र होते हैं। इसमें कुल 50,000 प्रशिक्षण चित्र और 10,000 परीक्षण चित्र हैं, जिन्हें आगे पाँच प्रशिक्षण बैचों और एक परीक्षण बैच में विभाजित किया गया है, प्रत्येक में 10,000 चित्र हैं।


इस डेटासेट से डाउनलोड किया जा सकता है कागल , या यहां टॉर्चविजन का उपयोग करके लोड किया गया है:


 import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)


ध्यान दें कि आप आवश्यकतानुसार डेटा लोडर के लिए बैच आकार और कार्यकर्ता प्रक्रियाओं की संख्या समायोजित कर सकते हैं।


PyTorch टॉर्चविजन पैकेज का उपयोग करके CIFAR-10 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR10.html#torchvision.datasets.CIFAR10 से 20/3/2023 को लिया गया।

3. सीआईएफएआर-100

CIFAR-100 डेटासेट में 100 वर्गों में 60,000 (50,000 प्रशिक्षण चित्र और 10,000 परीक्षण चित्र) 32x32 रंगीन चित्र हैं, जिसमें प्रति वर्ग 600 चित्र हैं। 100 वर्गों को 20 सुपर-क्लास में बांटा गया है, इसके वर्ग को निरूपित करने के लिए एक बढ़िया लेबल और सुपर-क्लास का प्रतिनिधित्व करने के लिए एक मोटे लेबल के साथ।


कागल से टॉर्चविजन डेटासेट डाउनलोड करने के लिए, कृपया कागल पर जाएं वेबसाइट और वहां दिए गए निर्देशों का पालन करें। वैकल्पिक रूप से, यदि आप टार्चविजन लाइब्रेरी का उपयोग करके डेटासेट को लोड करना पसंद करते हैं, तो आप यह कर सकते हैं:


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define transform to normalize data transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ]) # Load CIFAR-100 train and test datasets trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform) # Create data loaders for train and test datasets trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)


PyTorch टॉर्चविजन पैकेज का उपयोग करके CIFAR-100 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR100.html#torchvision.datasets.CIFAR100 से 20/3/2023 को लिया गया।

4. इमेजनेट

टॉर्चविजन में इमेजनेट डेटासेट में लगभग 1.2 मिलियन प्रशिक्षण चित्र, 50,000 सत्यापन चित्र और 100,000 परीक्षण चित्र शामिल हैं। डेटासेट में प्रत्येक छवि को 1,000 श्रेणियों में से एक के साथ लेबल किया गया है जैसे "बिल्ली," "कुत्ता," "कार,", "हवाई जहाज" आदि।


इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए आपको यहां जाना होगा वेबसाइट या टार्चविजन में लोड करें:


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Set the path to the ImageNet dataset on your machine data_path = "/path/to/imagenet" # Create the ImageNet dataset object with custom options imagenet_train = datasets.ImageNet( root=data_path, split='train', transform=transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) imagenet_val = datasets.ImageNet( root=data_path, split='val', transform=transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) # Print the number of images in the training and validation sets print("Number of images in the training set:", len(imagenet_train)) print("Number of images in the validation set:", len(imagenet_val))


PyTorch टॉर्चविजन पैकेज का उपयोग करके इमेजनेट डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.ImageNet.html#torchvision.datasets.ImageNet से 21/3/2023 को लिया गया।


ImageNet डेटासेट का प्रतिनिधित्व

5. एमएस कोको

Microsoft कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट (MS Coco) डेटासेट में रोजमर्रा की वस्तुओं और मनुष्यों की 328,000 उच्च-गुणवत्ता वाली दृश्य छवियां होती हैं, जिन्हें अक्सर रीयल-टाइम ऑब्जेक्ट डिटेक्शन में एल्गोरिदम के प्रदर्शन की तुलना करने के लिए एक मानक के रूप में उपयोग किया जाता है।


इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए कृपया यहां जाएं वेबसाइट या टार्चविजन में लोड करें:


 import torch from torchvision import datasets, transforms # Define transformation transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load training dataset train_dataset = datasets.CocoDetection(root='/path/to/dataset/train2017', annFile='/path/to/dataset/annotations/instances_train2017.json', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # Load validation dataset val_dataset = datasets.CocoDetection(root='/path/to/dataset/val2017', annFile='/path/to/dataset/annotations/instances_val2017.json', transform=transform) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


/path/to/dataset प्लेसहोल्डर को अपनी डेटासेट निर्देशिका के वास्तविक पथ से बदलना सुनिश्चित करें। साथ ही, अपनी आवश्यकताओं के अनुरूप बैच_साइज़ पैरामीटर समायोजित करें।


PyTorch टॉर्चविजन पैकेज का उपयोग करके एमएस कोको डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CocoDetection.html#torchvision.datasets.CocoDetection से 21/3/2023 को लिया गया।

6. फैशन-MNIST

फ़ैशन MNIST डेटासेट Zalando Research द्वारा मूल MNIST डेटासेट के प्रतिस्थापन के रूप में बनाया गया था। फैशन MNIST डेटासेट में 70,000 ग्रेस्केल चित्र (60,000 का प्रशिक्षण सेट और 10,000 का परीक्षण सेट) शामिल हैं।


छवियां आकार में 28x28 पिक्सेल हैं और टी-शर्ट/टॉप, पतलून, स्वेटर, कपड़े, कोट, सैंडल, शर्ट, स्नीकर्स, बैग और टखने के जूते सहित कपड़ों के 10 विभिन्न वर्गों का प्रतिनिधित्व करती हैं। यह मूल MNIST डेटासेट के समान है, लेकिन कपड़ों की वस्तुओं की अधिक जटिलता और विविधता के कारण अधिक चुनौतीपूर्ण वर्गीकरण कार्यों के साथ।


यह टॉर्चविजन डेटासेट से डाउनलोड किया जा सकता है कागल , या इस कोड का उपयोग करके लोड किया गया:


 import torch import torchvision import torchvision.transforms as transforms # Define transformations transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # Load the dataset trainset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform) # Create data loaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)


PyTorch टॉर्चविजन पैकेज का उपयोग करके फैशन-एमएनआईएसटी डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.FashionMNIST.html#torchvision.datasets.FashionMNIST से 21/3/2023 को लिया गया।

7. एसवीएचएन

SVHN (स्ट्रीट व्यू हाउस नंबर) डेटासेट Google के स्ट्रीट व्यू इमेजरी से प्राप्त एक इमेज डेटासेट है, जिसमें स्ट्रीट-लेवल इमेज से ली गई हाउस नंबर की क्रॉप्ड इमेज शामिल हैं। यह सभी घरों के नंबरों और उनके बाउंडिंग बॉक्सों के साथ एक पूर्ण प्रारूप में उपलब्ध है और केवल घरों के नंबरों के साथ एक फसली प्रारूप में उपलब्ध है। पूर्ण स्वरूप का उपयोग अक्सर ऑब्जेक्ट डिटेक्शन कार्यों के लिए किया जाता है, जबकि क्रॉप्ड प्रारूप का उपयोग आमतौर पर वर्गीकरण कार्यों के लिए किया जाता है।


एसवीएचएन डेटासेट भी टॉर्चविजन पैकेज में शामिल है और इसमें प्रशिक्षण के लिए 73,257 इमेज, परीक्षण के लिए 26,032 इमेज और अतिरिक्त प्रशिक्षण डेटा के लिए 531,131 अतिरिक्त इमेज शामिल हैं।


इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए आप यहां जा सकते हैं कागल या आप इसे यहाँ लोड कर सकते हैं:


 import torchvision import torch # Load the train and test sets train_set = torchvision.datasets.SVHN(root='./data', split='train', download=True, transform=torchvision.transforms.ToTensor()) test_set = torchvision.datasets.SVHN(root='./data', split='test', download=True, transform=torchvision.transforms.ToTensor()) # Create data loaders train_loader = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_set, batch_size=64, shuffle=False)


PyTorch टॉर्चविजन पैकेज का उपयोग करके SVHN डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.SVHN.html#torchvision.datasets.SVHN से 22/3/2023 को लिया गया।

8. एसटीएल-10

STL-10 डेटासेट एक छवि पहचान डेटासेट है जिसमें कुल 6,000+ छवियों के साथ 10 वर्ग होते हैं। STL-10 का अर्थ है "इमेज रिकग्निशन-10 क्लासेस के लिए स्टैंडर्ड ट्रेनिंग एंड टेस्ट सेट" और डेटासेट में 10 क्लास हैं:


  • विमान
  • चिड़िया
  • कार
  • बिल्ली
  • हिरन
  • कुत्ता
  • घोड़ा
  • बंदर
  • जहाज
  • ट्रक


इस डेटासेट तक पहुँचने के लिए, आप इसे सीधे से डाउनलोड कर सकते हैं कागल या टार्चविजन का उपयोग करके डेटासेट लोड करें:


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define the transformation to apply to the data transform = transforms.Compose([ transforms.ToTensor(), # Convert PIL image to PyTorch tensor transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalize the data ]) # Load the STL-10 dataset train_dataset = datasets.STL10(root='./data', split='train', download=True, transform=transform) test_dataset = datasets.STL10(root='./data', split='test', download=True, transform=transform)


PyTorch टॉर्चविजन पैकेज का उपयोग करके STL-10 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.STL10.html#torchvision.datasets.STL10 से 22/3/2023 को लिया गया।

9. सेलेब

यह टॉर्चविजन डेटासेट एक लोकप्रिय बड़े पैमाने का फेस एट्रिब्यूट डेटासेट है जिसमें 200,000 से अधिक सेलिब्रिटी इमेज शामिल हैं। यह पहली बार 2015 में चीनी विश्वविद्यालय हांगकांग के शोधकर्ताओं द्वारा जारी किया गया था। CelebA में एक छवि में उम्र, बालों का रंग, चेहरे की अभिव्यक्ति और लिंग जैसी 40 चेहरे की विशेषताएं शामिल हैं। इसके अलावा, इन छवियों को इंटरनेट से पुनर्प्राप्त किया गया था और विभिन्न नस्लों, उम्र और लिंग सहित चेहरे की उपस्थिति की एक विस्तृत श्रृंखला को कवर किया गया था। प्रत्येक छवि में चेहरे के स्थान के लिए बाउंडिंग बॉक्स एनोटेशन, साथ ही आंखों, नाक और मुंह के लिए 5 लैंडमार्क बिंदु।


आप इस डेटासेट को डाउनलोड कर सकते हैं कागल या इस कोड का उपयोग करके इसे लोड करें:


 import torchvision.datasets as datasets import torchvision.transforms as transforms transform = transforms.Compose([ transforms.CenterCrop(178), transforms.Resize(128), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) celeba_dataset = datasets.CelebA(root='./data', split='train', transform=transform, download=True)


PyTorch टॉर्चविजन पैकेज का उपयोग करके CelebA डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CelebA.html#torchvision.datasets.CelebA से 22/3/2023 को लिया गया।

10. पास्कल वीओसी

VOC डेटासेट (विज़ुअल ऑब्जेक्ट क्लासेस) को पहली बार 2005 में PASCAL VOC चैलेंज के हिस्से के रूप में पेश किया गया था, जिसका उद्देश्य दृश्य पहचान में कला की स्थिति को आगे बढ़ाना था। इसमें जानवरों, वाहनों और सामान्य घरेलू वस्तुओं सहित 20 विभिन्न वस्तु श्रेणियों की छवियां शामिल हैं। इन छवियों में से प्रत्येक को छवि के भीतर वस्तुओं के स्थान और वर्गीकरण के साथ एनोटेट किया गया है। एनोटेशन में बाउंडिंग बॉक्स और पिक्सेल-स्तरीय विभाजन मास्क दोनों शामिल हैं।


डेटासेट को दो मुख्य सेटों में विभाजित किया गया है: प्रशिक्षण और सत्यापन सेट। प्रशिक्षण सेट में एनोटेशन के साथ लगभग 5,000 चित्र होते हैं, जबकि सत्यापन सेट में एनोटेशन के बिना लगभग 5,000 चित्र होते हैं। इसके अलावा, डेटासेट में लगभग 10,000 छवियों के साथ एक परीक्षण सेट भी शामिल है, लेकिन इस सेट के एनोटेशन सार्वजनिक रूप से उपलब्ध नहीं हैं।


हाल के डेटासेट तक पहुँचने के लिए, आप से डाउनलोड कर सकते हैं वेबसाइट , कागल या इसे टार्चविजन में लोड करें:


 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='train', transform=transform) val_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


PyTorch टॉर्चविजन पैकेज का उपयोग करके PASCAL VOC डेटासेट लोड करने के लिए कोड। 22/3/2023 को https://pytorch.org/vision/stable/generated/torchvision.datasets.VOOCDetection.html#torchvision.datasets.VOCDetection से लिया गया।

11। स्थान365

Places365 डेटासेट 365 दृश्य श्रेणियों को कवर करने वाली 1.8 मिलियन से अधिक छवियों वाला एक बड़े पैमाने का दृश्य पहचान डेटासेट है। Places365 मानक डेटासेट में लगभग 1.8 मिलियन छवियां हैं, जबकि Places365-Challenge डेटासेट में 50,000 अतिरिक्त सत्यापन छवियां हैं जो पहचान मॉडल के लिए अधिक चुनौतीपूर्ण हैं।


इस डेटासेट तक पहुँचने के लिए, आप उपयोग कर सकते हैं कागल या यहां टॉर्चविजन में लोड करें:


 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.Places365(root='./data', split='train-standard', transform=transform) val_dataset = torchvision.datasets.Places365(root='./data', split='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


PyTorch टॉर्चविजन पैकेज का उपयोग करके Places365 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.Places365.html#torchvision.datasets.Places365 से 22/3/2023 को लिया गया।


Places365 डेटासेट का प्रतिनिधित्व

टॉर्चविजन डेटासेट के लिए सामान्य उपयोग के मामले

Mnist - यह डेटासेट आमतौर पर छवि वर्गीकरण कार्यों के लिए उपयोग किया जाता है, विशेष रूप से हस्तलिखित अंकों की पहचान के लिए।


सीआईएफएआर-10 और सीआईएफएआर-100 - ये डेटासेट आमतौर पर छवि वर्गीकरण कार्यों के लिए उपयोग किए जाते हैं, विशेष रूप से वस्तु पहचान के लिए।


इमेजनेट - इस टॉर्चविजन डेटासेट में विभिन्न वस्तुओं और जानवरों की लाखों छवियां हैं और आमतौर पर वस्तु पहचान कार्यों के लिए उपयोग की जाती हैं।


एमएस कोको - यह डेटासेट आमतौर पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग कार्यों के लिए उपयोग किया जाता है।


फैशन-MNIST - MNIST के समान, यह डेटासेट आमतौर पर छवि वर्गीकरण कार्यों के लिए उपयोग किया जाता है, विशेष रूप से फैशन आइटम पहचान के लिए।


एसवीएचएन - यह डेटासेट आमतौर पर अंक पहचान कार्यों के लिए उपयोग किया जाता है। यह वास्तविक दुनिया की सेटिंग में संख्याओं को पहचानने के लिए एल्गोरिदम के विकास और परीक्षण के लिए विशेष रूप से उपयोगी है।


एसटीएल-10 - यह टॉर्चविजन डेटासेट आमतौर पर छवि वर्गीकरण कार्यों के लिए उपयोग किया जाता है, विशेष रूप से वस्तु पहचान के लिए।


सेलेब - यह डेटासेट आमतौर पर चेहरे की पहचान और विशेषता वर्गीकरण कार्यों के लिए उपयोग किया जाता है। इसमें चेहरे के विभिन्न भावों, मुद्राओं और पृष्ठभूमियों के चित्र शामिल हैं।


पास्कल वीओसी - यह डेटासेट आमतौर पर ऑब्जेक्ट डिटेक्शन और सेगमेंटेशन कार्यों के लिए उपयोग किया जाता है।


स्थान365 - यह डेटासेट आमतौर पर दृश्य पहचान कार्यों के लिए उपयोग किया जाता है। इसमें विभिन्न इनडोर और आउटडोर दृश्यों जैसे बेडरूम, समुद्र तट और कार्यालयों की छवियां शामिल हैं।

अंतिम विचार

Torchvision डेटासेट का उपयोग अक्सर मशीन लर्निंग मॉडल जैसे कनवल्शनल न्यूरल नेटवर्क (CNN) के प्रशिक्षण और मूल्यांकन के लिए किया जाता है, जो आमतौर पर कंप्यूटर विज़न एप्लिकेशन में उपयोग किया जाता है।


वे किसी के लिए भी मुफ्त में डाउनलोड करने और उपयोग करने के लिए उपलब्ध हैं।


इस लेख की मुख्य छवि हैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से 'छोटे फ्रेम में एक साथ व्यवस्थित हजारों छवियों' का उपयोग करके तैयार की गई थी।


अधिक डेटासेट सूची:

  1. एक्सेल डेटासेट
  2. केरस डेटासेट
  3. आर डेटासेट
  4. PyTorch डेटासेट
  5. डेटासेट को गले लगाना