कंप्यूटर दृष्टि महत्वपूर्ण विकास का अनुभव करने वाला क्षेत्र है और इसके कई व्यावहारिक अनुप्रयोग हैं, जिनमें स्व-ड्राइविंग कारों से लेकर चेहरे की पहचान प्रणाली शामिल हैं। हालांकि, इस क्षेत्र में प्रमुख चुनौतियों में से एक मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए उच्च गुणवत्ता वाले डेटासेट प्राप्त करना है।
इस चुनौती का समाधान करने के लिए, टॉर्चविजन पूर्व-निर्मित डेटासेट, मॉडल तक पहुंच प्रदान करता है और विशेष रूप से कंप्यूटर विजन कार्यों के लिए डिज़ाइन किया गया है। टॉर्चविजन सीपीयू और जीपीयू त्वरण दोनों का भी समर्थन करता है, जिससे यह कंप्यूटर दृष्टि अनुप्रयोगों के विकास के लिए एक लचीला और शक्तिशाली उपकरण बन जाता है।
Torchvision डेटासेट मशीन लर्निंग मॉडल के विकास और परीक्षण के लिए आमतौर पर कंप्यूटर विज़न में उपयोग किए जाने वाले लोकप्रिय डेटासेट का संग्रह है। टार्चविज़न डेटासेट के साथ, डेवलपर्स अपने मशीन लर्निंग मॉडल को कई प्रकार के कार्यों पर प्रशिक्षित और परीक्षण कर सकते हैं, जैसे कि छवि वर्गीकरण, वस्तु का पता लगाना और विभाजन।
डेटासेट भी पूर्व-संसाधित, लेबल और स्वरूपों में व्यवस्थित होते हैं जिन्हें आसानी से लोड और उपयोग किया जा सकता है।
यह टॉर्चविजन डेटासेट मशीन लर्निंग और कंप्यूटर विजन के क्षेत्र में लोकप्रिय और व्यापक रूप से उपयोग किया जाता है। इसमें हस्तलिखित अंकों की 70,000 ग्रेस्केल छवियां 0–9 हैं, जिसमें प्रशिक्षण के लिए 60,000 चित्र और परीक्षण के लिए 10,000 चित्र हैं। प्रत्येक छवि आकार में 28x28 पिक्सेल है और इसमें एक संबंधित लेबल है जो दर्शाता है कि यह किस अंक का प्रतिनिधित्व करता है।
इस डेटासेट तक पहुँचने के लिए, आप इसे सीधे से डाउनलोड कर सकते हैं
import torchvision.datasets as datasets # Load the training dataset train_dataset = datasets.MNIST(root='data/', train=True, transform=None, download=True) # Load the testing dataset test_dataset = datasets.MNIST(root='data/', train=False, transform=None, download=True)
PyTorch टॉर्चविजन पैकेज का उपयोग करके MNIST डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.MNIST.html#torchvision.datasets.MNIST से 20/3/2023 को लिया गया।
CIFAR-10 डेटासेट में 10 वर्गों में 60,000 32x32 रंगीन चित्र होते हैं, जिसमें प्रति वर्ग 6,000 चित्र होते हैं। इसमें कुल 50,000 प्रशिक्षण चित्र और 10,000 परीक्षण चित्र हैं, जिन्हें आगे पाँच प्रशिक्षण बैचों और एक परीक्षण बैच में विभाजित किया गया है, प्रत्येक में 10,000 चित्र हैं।
इस डेटासेट से डाउनलोड किया जा सकता है
import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
ध्यान दें कि आप आवश्यकतानुसार डेटा लोडर के लिए बैच आकार और कार्यकर्ता प्रक्रियाओं की संख्या समायोजित कर सकते हैं।
PyTorch टॉर्चविजन पैकेज का उपयोग करके CIFAR-10 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR10.html#torchvision.datasets.CIFAR10 से 20/3/2023 को लिया गया।
CIFAR-100 डेटासेट में 100 वर्गों में 60,000 (50,000 प्रशिक्षण चित्र और 10,000 परीक्षण चित्र) 32x32 रंगीन चित्र हैं, जिसमें प्रति वर्ग 600 चित्र हैं। 100 वर्गों को 20 सुपर-क्लास में बांटा गया है, इसके वर्ग को निरूपित करने के लिए एक बढ़िया लेबल और सुपर-क्लास का प्रतिनिधित्व करने के लिए एक मोटे लेबल के साथ।
कागल से टॉर्चविजन डेटासेट डाउनलोड करने के लिए, कृपया कागल पर जाएं
import torchvision.datasets as datasets import torchvision.transforms as transforms # Define transform to normalize data transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ]) # Load CIFAR-100 train and test datasets trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform) # Create data loaders for train and test datasets trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)
PyTorch टॉर्चविजन पैकेज का उपयोग करके CIFAR-100 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR100.html#torchvision.datasets.CIFAR100 से 20/3/2023 को लिया गया।
टॉर्चविजन में इमेजनेट डेटासेट में लगभग 1.2 मिलियन प्रशिक्षण चित्र, 50,000 सत्यापन चित्र और 100,000 परीक्षण चित्र शामिल हैं। डेटासेट में प्रत्येक छवि को 1,000 श्रेणियों में से एक के साथ लेबल किया गया है जैसे "बिल्ली," "कुत्ता," "कार,", "हवाई जहाज" आदि।
इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए आपको यहां जाना होगा
import torchvision.datasets as datasets import torchvision.transforms as transforms # Set the path to the ImageNet dataset on your machine data_path = "/path/to/imagenet" # Create the ImageNet dataset object with custom options imagenet_train = datasets.ImageNet( root=data_path, split='train', transform=transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) imagenet_val = datasets.ImageNet( root=data_path, split='val', transform=transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) # Print the number of images in the training and validation sets print("Number of images in the training set:", len(imagenet_train)) print("Number of images in the validation set:", len(imagenet_val))
PyTorch टॉर्चविजन पैकेज का उपयोग करके इमेजनेट डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.ImageNet.html#torchvision.datasets.ImageNet से 21/3/2023 को लिया गया।
Microsoft कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट (MS Coco) डेटासेट में रोजमर्रा की वस्तुओं और मनुष्यों की 328,000 उच्च-गुणवत्ता वाली दृश्य छवियां होती हैं, जिन्हें अक्सर रीयल-टाइम ऑब्जेक्ट डिटेक्शन में एल्गोरिदम के प्रदर्शन की तुलना करने के लिए एक मानक के रूप में उपयोग किया जाता है।
इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए कृपया यहां जाएं
import torch from torchvision import datasets, transforms # Define transformation transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load training dataset train_dataset = datasets.CocoDetection(root='/path/to/dataset/train2017', annFile='/path/to/dataset/annotations/instances_train2017.json', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # Load validation dataset val_dataset = datasets.CocoDetection(root='/path/to/dataset/val2017', annFile='/path/to/dataset/annotations/instances_val2017.json', transform=transform) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
/path/to/dataset प्लेसहोल्डर को अपनी डेटासेट निर्देशिका के वास्तविक पथ से बदलना सुनिश्चित करें। साथ ही, अपनी आवश्यकताओं के अनुरूप बैच_साइज़ पैरामीटर समायोजित करें।
PyTorch टॉर्चविजन पैकेज का उपयोग करके एमएस कोको डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CocoDetection.html#torchvision.datasets.CocoDetection से 21/3/2023 को लिया गया।
फ़ैशन MNIST डेटासेट Zalando Research द्वारा मूल MNIST डेटासेट के प्रतिस्थापन के रूप में बनाया गया था। फैशन MNIST डेटासेट में 70,000 ग्रेस्केल चित्र (60,000 का प्रशिक्षण सेट और 10,000 का परीक्षण सेट) शामिल हैं।
छवियां आकार में 28x28 पिक्सेल हैं और टी-शर्ट/टॉप, पतलून, स्वेटर, कपड़े, कोट, सैंडल, शर्ट, स्नीकर्स, बैग और टखने के जूते सहित कपड़ों के 10 विभिन्न वर्गों का प्रतिनिधित्व करती हैं। यह मूल MNIST डेटासेट के समान है, लेकिन कपड़ों की वस्तुओं की अधिक जटिलता और विविधता के कारण अधिक चुनौतीपूर्ण वर्गीकरण कार्यों के साथ।
यह टॉर्चविजन डेटासेट से डाउनलोड किया जा सकता है
import torch import torchvision import torchvision.transforms as transforms # Define transformations transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # Load the dataset trainset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform) # Create data loaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
PyTorch टॉर्चविजन पैकेज का उपयोग करके फैशन-एमएनआईएसटी डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.FashionMNIST.html#torchvision.datasets.FashionMNIST से 21/3/2023 को लिया गया।
SVHN (स्ट्रीट व्यू हाउस नंबर) डेटासेट Google के स्ट्रीट व्यू इमेजरी से प्राप्त एक इमेज डेटासेट है, जिसमें स्ट्रीट-लेवल इमेज से ली गई हाउस नंबर की क्रॉप्ड इमेज शामिल हैं। यह सभी घरों के नंबरों और उनके बाउंडिंग बॉक्सों के साथ एक पूर्ण प्रारूप में उपलब्ध है और केवल घरों के नंबरों के साथ एक फसली प्रारूप में उपलब्ध है। पूर्ण स्वरूप का उपयोग अक्सर ऑब्जेक्ट डिटेक्शन कार्यों के लिए किया जाता है, जबकि क्रॉप्ड प्रारूप का उपयोग आमतौर पर वर्गीकरण कार्यों के लिए किया जाता है।
एसवीएचएन डेटासेट भी टॉर्चविजन पैकेज में शामिल है और इसमें प्रशिक्षण के लिए 73,257 इमेज, परीक्षण के लिए 26,032 इमेज और अतिरिक्त प्रशिक्षण डेटा के लिए 531,131 अतिरिक्त इमेज शामिल हैं।
इस टॉर्चविजन डाटासेट को डाउनलोड करने के लिए आप यहां जा सकते हैं
import torchvision import torch # Load the train and test sets train_set = torchvision.datasets.SVHN(root='./data', split='train', download=True, transform=torchvision.transforms.ToTensor()) test_set = torchvision.datasets.SVHN(root='./data', split='test', download=True, transform=torchvision.transforms.ToTensor()) # Create data loaders train_loader = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_set, batch_size=64, shuffle=False)
PyTorch टॉर्चविजन पैकेज का उपयोग करके SVHN डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.SVHN.html#torchvision.datasets.SVHN से 22/3/2023 को लिया गया।
STL-10 डेटासेट एक छवि पहचान डेटासेट है जिसमें कुल 6,000+ छवियों के साथ 10 वर्ग होते हैं। STL-10 का अर्थ है "इमेज रिकग्निशन-10 क्लासेस के लिए स्टैंडर्ड ट्रेनिंग एंड टेस्ट सेट" और डेटासेट में 10 क्लास हैं:
इस डेटासेट तक पहुँचने के लिए, आप इसे सीधे से डाउनलोड कर सकते हैं
import torchvision.datasets as datasets import torchvision.transforms as transforms # Define the transformation to apply to the data transform = transforms.Compose([ transforms.ToTensor(), # Convert PIL image to PyTorch tensor transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalize the data ]) # Load the STL-10 dataset train_dataset = datasets.STL10(root='./data', split='train', download=True, transform=transform) test_dataset = datasets.STL10(root='./data', split='test', download=True, transform=transform)
PyTorch टॉर्चविजन पैकेज का उपयोग करके STL-10 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.STL10.html#torchvision.datasets.STL10 से 22/3/2023 को लिया गया।
यह टॉर्चविजन डेटासेट एक लोकप्रिय बड़े पैमाने का फेस एट्रिब्यूट डेटासेट है जिसमें 200,000 से अधिक सेलिब्रिटी इमेज शामिल हैं। यह पहली बार 2015 में चीनी विश्वविद्यालय हांगकांग के शोधकर्ताओं द्वारा जारी किया गया था। CelebA में एक छवि में उम्र, बालों का रंग, चेहरे की अभिव्यक्ति और लिंग जैसी 40 चेहरे की विशेषताएं शामिल हैं। इसके अलावा, इन छवियों को इंटरनेट से पुनर्प्राप्त किया गया था और विभिन्न नस्लों, उम्र और लिंग सहित चेहरे की उपस्थिति की एक विस्तृत श्रृंखला को कवर किया गया था। प्रत्येक छवि में चेहरे के स्थान के लिए बाउंडिंग बॉक्स एनोटेशन, साथ ही आंखों, नाक और मुंह के लिए 5 लैंडमार्क बिंदु।
आप इस डेटासेट को डाउनलोड कर सकते हैं
import torchvision.datasets as datasets import torchvision.transforms as transforms transform = transforms.Compose([ transforms.CenterCrop(178), transforms.Resize(128), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) celeba_dataset = datasets.CelebA(root='./data', split='train', transform=transform, download=True)
PyTorch टॉर्चविजन पैकेज का उपयोग करके CelebA डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.CelebA.html#torchvision.datasets.CelebA से 22/3/2023 को लिया गया।
VOC डेटासेट (विज़ुअल ऑब्जेक्ट क्लासेस) को पहली बार 2005 में PASCAL VOC चैलेंज के हिस्से के रूप में पेश किया गया था, जिसका उद्देश्य दृश्य पहचान में कला की स्थिति को आगे बढ़ाना था। इसमें जानवरों, वाहनों और सामान्य घरेलू वस्तुओं सहित 20 विभिन्न वस्तु श्रेणियों की छवियां शामिल हैं। इन छवियों में से प्रत्येक को छवि के भीतर वस्तुओं के स्थान और वर्गीकरण के साथ एनोटेट किया गया है। एनोटेशन में बाउंडिंग बॉक्स और पिक्सेल-स्तरीय विभाजन मास्क दोनों शामिल हैं।
डेटासेट को दो मुख्य सेटों में विभाजित किया गया है: प्रशिक्षण और सत्यापन सेट। प्रशिक्षण सेट में एनोटेशन के साथ लगभग 5,000 चित्र होते हैं, जबकि सत्यापन सेट में एनोटेशन के बिना लगभग 5,000 चित्र होते हैं। इसके अलावा, डेटासेट में लगभग 10,000 छवियों के साथ एक परीक्षण सेट भी शामिल है, लेकिन इस सेट के एनोटेशन सार्वजनिक रूप से उपलब्ध नहीं हैं।
हाल के डेटासेट तक पहुँचने के लिए, आप से डाउनलोड कर सकते हैं
import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='train', transform=transform) val_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
PyTorch टॉर्चविजन पैकेज का उपयोग करके PASCAL VOC डेटासेट लोड करने के लिए कोड। 22/3/2023 को https://pytorch.org/vision/stable/generated/torchvision.datasets.VOOCDetection.html#torchvision.datasets.VOCDetection से लिया गया।
Places365 डेटासेट 365 दृश्य श्रेणियों को कवर करने वाली 1.8 मिलियन से अधिक छवियों वाला एक बड़े पैमाने का दृश्य पहचान डेटासेट है। Places365 मानक डेटासेट में लगभग 1.8 मिलियन छवियां हैं, जबकि Places365-Challenge डेटासेट में 50,000 अतिरिक्त सत्यापन छवियां हैं जो पहचान मॉडल के लिए अधिक चुनौतीपूर्ण हैं।
इस डेटासेट तक पहुँचने के लिए, आप उपयोग कर सकते हैं
import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.Places365(root='./data', split='train-standard', transform=transform) val_dataset = torchvision.datasets.Places365(root='./data', split='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
PyTorch टॉर्चविजन पैकेज का उपयोग करके Places365 डेटासेट लोड करने के लिए कोड। https://pytorch.org/vision/stable/generated/torchvision.datasets.Places365.html#torchvision.datasets.Places365 से 22/3/2023 को लिया गया।
Torchvision डेटासेट का उपयोग अक्सर मशीन लर्निंग मॉडल जैसे कनवल्शनल न्यूरल नेटवर्क (CNN) के प्रशिक्षण और मूल्यांकन के लिए किया जाता है, जो आमतौर पर कंप्यूटर विज़न एप्लिकेशन में उपयोग किया जाता है।
वे किसी के लिए भी मुफ्त में डाउनलोड करने और उपयोग करने के लिए उपलब्ध हैं।
इस लेख की मुख्य छवि हैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से 'छोटे फ्रेम में एक साथ व्यवस्थित हजारों छवियों' का उपयोग करके तैयार की गई थी।
अधिक डेटासेट सूची: