paint-brush
당신이 알아야 할 11가지 컴퓨터 비전용 Torchvision 데이터 세트~에 의해@datasets
7,830 판독값
7,830 판독값

당신이 알아야 할 11가지 컴퓨터 비전용 Torchvision 데이터 세트

~에 의해 Open Datasets Compiled by HackerNoon13m2023/03/26
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

Torchvision은 컴퓨터 비전 작업을 위해 특별히 설계된 사전 구축된 데이터 세트, 모델 및 변환에 대한 액세스를 제공합니다. 데이터 세트는 쉽게 로드하고 사용할 수 있는 형식으로 전처리, 레이블 지정 및 구성됩니다. Torchvision은 또한 CPU 및 GPU 가속을 모두 지원하므로 컴퓨터 비전 애플리케이션 개발을 위한 유연하고 강력한 도구입니다.
featured image - 당신이 알아야 할 11가지 컴퓨터 비전용 Torchvision 데이터 세트
Open Datasets Compiled by HackerNoon HackerNoon profile picture

컴퓨터 비전은 크게 성장하고 있는 분야이며 자율주행차부터 안면 인식 시스템에 이르기까지 수많은 실제 응용 분야를 보유하고 있습니다. 그러나 이 분야의 주요 과제 중 하나는 기계 학습 모델을 교육하기 위한 고품질 데이터 세트를 얻는 것입니다.


이러한 문제를 해결하기 위해 토치비전은 컴퓨터 비전 작업을 위해 특별히 설계된 사전 구축된 데이터 세트, 모델 및 변환에 대한 액세스를 제공합니다. Torchvision은 또한 CPU 및 GPU 가속을 모두 지원하므로 컴퓨터 비전 애플리케이션 개발을 위한 유연하고 강력한 도구입니다.

"Torchvision 데이터세트"란 무엇입니까?

Torchvision 데이터 세트는 기계 학습 모델을 개발하고 테스트하기 위해 컴퓨터 비전에서 일반적으로 사용되는 인기 있는 데이터 세트 모음입니다. 개발자는 토치비전 데이터세트를 사용하여 이미지 분류, 객체 감지, 분할과 같은 다양한 작업에 대한 머신 러닝 모델을 훈련하고 테스트할 수 있습니다.

또한 데이터 세트는 쉽게 로드하고 사용할 수 있는 형식으로 전처리, 레이블 지정 및 구성됩니다.

Torchvision 데이터 세트 목록

  1. MNIST
  2. CIFAR-10
  3. CIFAR-100
  4. 이미지넷
  5. 머리
  6. 패션-MNIST
  7. SVHN
  8. STL-10
  9. 셀레바
  10. 파스칼 VOC
  11. 장소365

1. MNIST

이 torchvision 데이터세트는 머신러닝과 컴퓨터 비전 분야에서 널리 사용되고 널리 사용됩니다. 이는 손으로 쓴 숫자 0~9의 회색조 이미지 70,000개로 구성되며, 훈련용 이미지 60,000개, 테스트용 이미지 10,000개입니다. 각 이미지의 크기는 28x28픽셀이며 해당 이미지가 나타내는 숫자를 나타내는 해당 라벨이 있습니다.


이 데이터 세트에 액세스하려면 다음에서 직접 다운로드할 수 있습니다. 캐글 또는 torchvision을 사용하여 데이터세트를 로드하세요:


 import torchvision.datasets as datasets # Load the training dataset train_dataset = datasets.MNIST(root='data/', train=True, transform=None, download=True) # Load the testing dataset test_dataset = datasets.MNIST(root='data/', train=False, transform=None, download=True)


PyTorch torchvision 패키지를 사용하여 MNIST 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 https://pytorch.org/vision/stable/generated/torchvision.datasets.MNIST.html#torchvision.datasets.MNIST 에서 검색됨.


MNIST 데이터세트의 표현

2. CIFAR-10

CIFAR-10 데이터 세트는 10개 클래스의 60,000개의 32x32 컬러 이미지로 구성되며 클래스당 이미지는 6,000개입니다. 여기에는 총 50,000개의 훈련 이미지와 10,000개의 테스트 이미지가 있으며, 각각 10,000개의 이미지가 포함된 5개의 훈련 배치와 1개의 테스트 배치로 다시 나뉩니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 , 또는 torchvision을 사용하여 여기에 로드:


 import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)


필요에 따라 데이터 로더에 대한 작업자 프로세스의 배치 크기와 수를 조정할 수 있습니다.


PyTorch torchvision 패키지를 사용하여 CIFAR-10 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR10.html#torchvision.datasets.CIFAR10 에서 검색함.

삼. CIFAR-100

CIFAR-100 데이터세트에는 100개의 클래스에 60,000개(50,000개의 훈련 이미지와 10,000개의 테스트 이미지)의 32x32 컬러 이미지가 있으며, 클래스당 600개의 이미지가 있습니다. 100개의 클래스는 20개의 슈퍼클래스로 그룹화되며, 해당 클래스를 나타내는 미세한 레이블과 해당 클래스가 속한 슈퍼클래스를 나타내는 대략적인 레이블이 있습니다.


Kaggle에서 torchvision 데이터세트를 다운로드하려면 Kaggle을 방문하세요. 웹사이트 거기에 제공된 지침을 따르십시오. 또는 torchvision 라이브러리를 사용하여 데이터 세트를 로드하려는 경우 다음을 수행할 수 있습니다.


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define transform to normalize data transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ]) # Load CIFAR-100 train and test datasets trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform) # Create data loaders for train and test datasets trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)


PyTorch torchvision 패키지를 사용하여 CIFAR-100 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR100.html#torchvision.datasets.CIFAR100 에서 검색함.

4. 이미지넷

토치비전의 ImageNet 데이터세트에는 약 120만 개의 훈련 이미지, 50,000개의 검증 이미지, 100,000개의 테스트 이미지가 포함되어 있습니다. 데이터 세트의 각 이미지에는 "고양이", "개", "자동차", "비행기" 등과 같은 1,000개 카테고리 중 하나로 라벨이 지정되어 있습니다.


이 토치비전 데이터세트를 다운로드하려면 다음 사이트를 방문해야 합니다. 웹사이트 또는 토치비전에서 로드하세요:


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Set the path to the ImageNet dataset on your machine data_path = "/path/to/imagenet" # Create the ImageNet dataset object with custom options imagenet_train = datasets.ImageNet( root=data_path, split='train', transform=transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) imagenet_val = datasets.ImageNet( root=data_path, split='val', transform=transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) # Print the number of images in the training and validation sets print("Number of images in the training set:", len(imagenet_train)) print("Number of images in the validation set:", len(imagenet_val))


PyTorch torchvision 패키지를 사용하여 ImageNet 데이터세트를 로드하는 코드입니다. 2023년 3월 21일 https://pytorch.org/vision/stable/generated/torchvision.datasets.ImageNet.html#torchvision.datasets.ImageNet 에서 검색함.


ImageNet 데이터 세트의 표현

5. MS 코코

Microsoft Common Objects in Context(MS Coco) 데이터 세트에는 일상적인 물체와 인간에 대한 328,000개의 고품질 시각적 이미지가 포함되어 있으며 실시간 개체 감지에서 알고리즘 성능을 비교하기 위한 표준으로 자주 사용됩니다.


이 토치비전 데이터세트를 다운로드하려면 다음을 방문하세요. 웹사이트 또는 토치비전에서 로드하세요:


 import torch from torchvision import datasets, transforms # Define transformation transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load training dataset train_dataset = datasets.CocoDetection(root='/path/to/dataset/train2017', annFile='/path/to/dataset/annotations/instances_train2017.json', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # Load validation dataset val_dataset = datasets.CocoDetection(root='/path/to/dataset/val2017', annFile='/path/to/dataset/annotations/instances_val2017.json', transform=transform) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


/path/to/dataset 자리 표시자를 데이터세트 디렉터리의 실제 경로로 바꾸세요. 또한 필요에 맞게 배치_크기 매개변수를 조정하십시오.


PyTorch torchvision 패키지를 사용하여 MS Coco 데이터세트를 로드하는 코드입니다. 2023년 3월 21일 https://pytorch.org/vision/stable/generated/torchvision.datasets.CocoDetection.html#torchvision.datasets.CocoDetection 에서 검색함.

6. 패션-MNIST

Fashion MNIST 데이터세트는 원래 MNIST 데이터세트를 대체하기 위해 Zalando Research에서 생성되었습니다. Fashion MNIST 데이터세트는 의류 품목에 대한 70,000개의 회색조 이미지(60,000개의 훈련 세트와 10,000개의 테스트 세트)로 구성됩니다.


이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.


이 토치비전 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 , 또는 다음 코드를 사용하여 로드합니다.


 import torch import torchvision import torchvision.transforms as transforms # Define transformations transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # Load the dataset trainset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform) # Create data loaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)


PyTorch torchvision 패키지를 사용하여 Fashion-MNIST 데이터 세트를 로드하는 코드입니다. 2023년 3월 21일 https://pytorch.org/vision/stable/generated/torchvision.datasets.FashionMNIST.html#torchvision.datasets.FashionMNIST 에서 검색함.

7. SVHN

SVHN(스트리트 뷰 집 번호) 데이터 세트는 Google의 스트리트 뷰 이미지에서 파생된 이미지 데이터 세트로, 거리 수준 이미지에서 가져온 집 번호의 잘린 이미지로 구성됩니다. 모든 집 번호와 경계 상자가 포함된 전체 형식과 집 번호만 포함된 잘린 형식으로 제공됩니다. 전체 형식은 객체 감지 작업에 자주 사용되는 반면, 잘린 형식은 분류 작업에 일반적으로 사용됩니다.


SVHN 데이터 세트는 torchvision 패키지에도 포함되어 있으며 훈련용 이미지 73,257개, 테스트용 이미지 26,032개, 추가 훈련 데이터용 추가 이미지 531,131개가 포함되어 있습니다.


이 torchvision 데이터 세트를 다운로드하려면 다음으로 이동하세요. 캐글 또는 여기에서 로드할 수 있습니다.


 import torchvision import torch # Load the train and test sets train_set = torchvision.datasets.SVHN(root='./data', split='train', download=True, transform=torchvision.transforms.ToTensor()) test_set = torchvision.datasets.SVHN(root='./data', split='test', download=True, transform=torchvision.transforms.ToTensor()) # Create data loaders train_loader = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_set, batch_size=64, shuffle=False)


PyTorch torchvision 패키지를 사용하여 SVHN 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 https://pytorch.org/vision/stable/generated/torchvision.datasets.SVHN.html#torchvision.datasets.SVHN 에서 검색됨.

8. STL-10

STL-10 데이터세트는 10개 클래스로 구성된 이미지 인식 데이터세트로, 총 약 6,000개 이상의 이미지가 포함되어 있습니다. STL-10은 "Standard Training and Test Set for Image Recognition-10 클래스"를 나타내며 데이터 세트의 10개 클래스는 다음과 같습니다.


  • 비행기
  • 자동차
  • 고양이
  • 사슴
  • 원숭이
  • 트럭


이 데이터 세트에 액세스하려면 다음에서 직접 다운로드할 수 있습니다. 캐글 또는 torchvision을 사용하여 데이터세트를 로드하세요:


 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define the transformation to apply to the data transform = transforms.Compose([ transforms.ToTensor(), # Convert PIL image to PyTorch tensor transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalize the data ]) # Load the STL-10 dataset train_dataset = datasets.STL10(root='./data', split='train', download=True, transform=transform) test_dataset = datasets.STL10(root='./data', split='test', download=True, transform=transform)


PyTorch torchvision 패키지를 사용하여 STL-10 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 https://pytorch.org/vision/stable/generated/torchvision.datasets.STL10.html#torchvision.datasets.STL10 에서 검색함.

9. 셀레바

이 토치비전 데이터세트는 200,000개 이상의 유명인 이미지로 구성된 인기 있는 대규모 얼굴 속성 데이터세트입니다. 2015년 홍콩 중문대학교 연구진이 처음 발표했습니다. CelebA의 이미지는 나이, 머리 색깔, 얼굴 표정, 성별 등 40가지 얼굴 속성으로 구성됩니다. 또한 이러한 이미지는 인터넷에서 검색한 것이며 다양한 인종, 연령, 성별을 포함하여 다양한 얼굴 모습을 담고 있습니다. 각 이미지의 얼굴 위치에 대한 경계 상자 주석과 눈, 코, 입에 대한 5개의 랜드마크 포인트.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음 코드를 사용하여 로드하세요.


 import torchvision.datasets as datasets import torchvision.transforms as transforms transform = transforms.Compose([ transforms.CenterCrop(178), transforms.Resize(128), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) celeba_dataset = datasets.CelebA(root='./data', split='train', transform=transform, download=True)


PyTorch torchvision 패키지를 사용하여 CelebA 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 https://pytorch.org/vision/stable/generated/torchvision.datasets.CelebA.html#torchvision.datasets.CelebA 에서 검색됨.

10. 파스칼 VOC

VOC 데이터 세트(Visual Object Classes)는 시각적 인식 분야의 최첨단 기술 발전을 목표로 하는 PASCAL VOC Challenge의 일부로 2005년에 처음 소개되었습니다. 동물, 차량, 일반 가정용품 등 20가지 다양한 개체 카테고리의 이미지로 구성되어 있습니다. 이러한 각 이미지에는 이미지 내 개체의 위치와 분류에 대한 주석이 추가됩니다. 주석에는 경계 상자와 픽셀 수준 분할 마스크가 모두 포함됩니다.


데이터 세트는 훈련 세트와 검증 세트라는 두 가지 주요 세트로 나뉩니다. 훈련 세트에는 주석이 있는 약 5,000개의 이미지가 포함되어 있고, 검증 세트에는 주석이 없는 약 5,000개의 이미지가 포함되어 있습니다. 또한 데이터 세트에는 약 10,000개의 이미지가 포함된 테스트 세트도 포함되어 있지만 이 세트의 주석은 공개적으로 사용할 수 없습니다.


최근 데이터 세트에 액세스하려면 다음에서 다운로드할 수 있습니다. 웹사이트 , 캐글 또는 토치비전에서 로드하세요:


 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='train', transform=transform) val_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


PyTorch torchvision 패키지를 사용하여 PASCAL VOC 데이터 세트를 로드하는 코드입니다. 2023년 3월 22일 https://pytorch.org/vision/stable/generated/torchvision.datasets.VOCDetection.html#torchvision.datasets.VOCDetection 에서 검색됨.

11. 장소365

Places365 데이터세트는 365개 장면 카테고리를 포괄하는 180만개 이상의 이미지를 포함하는 대규모 장면 인식 데이터세트입니다. Places365 Standard 데이터세트는 약 180만 개의 이미지로 구성되어 있는 반면, Places365-Challenge 데이터세트에는 인식 모델에 더 까다로운 50,000개의 추가 검증 이미지가 포함되어 있습니다.


이 데이터 세트에 액세스하려면 다음을 사용할 수 있습니다. 캐글 또는 여기에서 torchvision을 로드하세요:


 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.Places365(root='./data', split='train-standard', transform=transform) val_dataset = torchvision.datasets.Places365(root='./data', split='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)


PyTorch torchvision 패키지를 사용하여 Places365 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 https://pytorch.org/vision/stable/generated/torchvision.datasets.Places365.html#torchvision.datasets.Places365 에서 검색함.


Places365 데이터 세트의 표현

Torchvision 데이터 세트의 일반적인 사용 사례

MNIST - 이 데이터 세트는 이미지 분류 작업, 특히 필기 숫자 인식에 일반적으로 사용됩니다.


CIFAR-10 그리고 CIFAR-100 - 이러한 데이터 세트는 이미지 분류 작업, 특히 객체 인식에 일반적으로 사용됩니다.


이미지넷 - 이 토치비전 데이터세트에는 다양한 물체와 동물의 이미지 수백만 개가 포함되어 있으며 물체 인식 작업에 일반적으로 사용됩니다.


MS 코코 - 이 데이터세트는 객체 감지, 분할, 캡션 작업에 일반적으로 사용됩니다.


패션-MNIST - MNIST와 유사하게 이 데이터세트는 이미지 분류 작업, 특히 패션 아이템 인식에 일반적으로 사용됩니다.


SVHN - 이 데이터세트는 숫자 인식 작업에 일반적으로 사용됩니다. 실제 환경에서 숫자를 인식하기 위한 알고리즘을 개발하고 테스트하는 데 특히 유용합니다.


STL-10 - 이 torchvision 데이터세트는 이미지 분류 작업, 특히 객체 인식에 일반적으로 사용됩니다.


셀레바 - 이 데이터세트는 얼굴 인식 및 속성 분류 작업에 일반적으로 사용됩니다. 다양한 표정과 포즈, 배경의 이미지로 구성되어 있습니다.


파스칼 VOC - 이 데이터세트는 객체 감지 및 분할 작업에 일반적으로 사용됩니다.


장소365 - 이 데이터세트는 장면 인식 작업에 일반적으로 사용됩니다. 침실, 해변, 사무실 등 다양한 실내외 장면의 이미지로 구성되어 있습니다.

마지막 생각들

Torchvision 데이터 세트는 컴퓨터 비전 애플리케이션에 일반적으로 사용되는 CNN(컨볼루션 신경망)과 같은 기계 학습 모델을 훈련하고 평가하는 데 자주 사용됩니다.


또한 누구나 자유롭게 다운로드하여 사용할 수 있습니다.


이 기사의 리드 이미지는 '작은 프레임으로 구성된 수천 개의 이미지'라는 프롬프트를 사용하여 HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.


더 많은 데이터 세트 목록:

  1. Excel 데이터세트
  2. 케라스 데이터세트
  3. R 데이터세트
  4. PyTorch 데이터세트
  5. 포옹 데이터 세트