paint-brush
딥 러닝 모델 구축을 위한 20가지 최고의 PyTorch 데이터 세트~에 의해@datasets
4,764 판독값
4,764 판독값

딥 러닝 모델 구축을 위한 20가지 최고의 PyTorch 데이터 세트

~에 의해 Open Datasets Compiled by HackerNoon10m2023/02/26
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

딥 러닝 모델을 훈련하고 구축하기 위해 가장 널리 사용되는 두 가지 오픈 소스 머신 러닝 프레임워크는 TensorFlow와 PyTorch입니다. 이러한 프레임워크는 모델 구축 및 교육에 대한 접근 방식에서 고유한 차이점을 가지고 있습니다. 프레임워크 선택은 사용자의 특정 요구와 선호도에 따라 달라집니다. 이 기사에서는 딥 러닝 모델 구축을 위한 최고의 PyTorch 데이터 세트를 살펴봅니다.

People Mentioned

Mention Thumbnail
featured image - 딥 러닝 모델 구축을 위한 20가지 최고의 PyTorch 데이터 세트
Open Datasets Compiled by HackerNoon HackerNoon profile picture

딥 러닝 모델을 훈련하고 구축하기 위해 가장 널리 사용되는 두 가지 오픈 소스 머신 러닝 프레임워크는 TensorFlow와 PyTorch입니다.


이러한 프레임워크는 모델 구축 및 교육에 대한 접근 방식에서 고유한 차이점을 가지고 있습니다. TensorFlow는 더 나은 최적화 기회를 제공하고 분산 교육을 허용하는 정적 그래프와 선언적 프로그래밍을 사용하는 반면, PyTorch는 보다 유연하고 쉬운 디버깅 프로세스를 허용하는 동적 계산 그래프와 명령형 프로그래밍을 사용합니다. 프레임워크 선택은 사용자의 특정 요구 사항과 선호도에 따라 달라집니다.


이 기사에서는 현재 이용 가능한 딥 러닝 모델 구축을 위한 최고의 PyTorch 데이터 세트를 살펴봅니다.

공개 PyTorch 데이터 세트의 최종 목록


1. 펜 트리뱅크

Penn Treebank는 자연어 처리(NLP) 연구 커뮤니티에서 광범위하게 연구된 주석이 달린 영어 텍스트 모음입니다. 잡지, 뉴스 기사, 소설 등 다양한 장르의 450만 단어 이상의 텍스트로 구성됩니다. 또한 데이터 세트는 언어 모델, 파서 및 기계 번역 시스템을 포함한 광범위한 NLP 모델을 훈련하고 평가하는 데 사용되는 이름 자격, 품사 태그 및 구문 구조에 대한 수동으로 주석이 달린 정보로 구성됩니다.


이 데이터세트를 다운로드하려면 다음을 클릭하세요. 여기 .

2. SQuAD(스탠포드 질문 응답 데이터 세트)

SQuAD(Stanford Question Answering Dataset)는 Wikipedia 기사 세트에서 추출된 100,000개 이상의 질문-답변 쌍으로 구성된 자연어 처리(NLP)의 인기 있는 벤치마크 데이터 세트입니다. PyTorch 또는 기타 딥 러닝 프레임워크를 사용하여 구축된 다양한 NLP 모델의 성능을 평가하는 데 사용됩니다. 정답 범위의 평균 길이는 3.6단어이며, 해당 지문의 평균 길이는 11.0단어입니다.


SQuAD에 대한 추가 세부정보는 다음과 같습니다.


스쿼드 1.0 - 영어 위키피디아의 536개 기사에 대한 100,000개 이상의 질문-답변 쌍이 포함되어 있습니다.


스쿼드 2.0 - 여기에는 100,000개 이상의 Wikipedia 기사에 대한 150,000개 이상의 질문-답변 쌍이 포함되어 있으며, 답변을 자제하는 모델의 능력을 테스트하기 위한 답변할 수 없는 추가 질문이 포함되어 있습니다.


데이터 세트의 목표는 기계 학습 모델이 주어진 텍스트 구절에 대한 질문에 대답하기 위한 어려운 작업을 제공하는 것입니다. 다운로드하려면 여기를 클릭하세요. 최신 버전(SQuAD 2.0) .

3. 폐 영상 데이터베이스 컨소시엄 및 영상 데이터베이스 리소스 이니셔티브(LIDC-IDRI)

이 PyTorch 데이터 세트는 여러 방사선 전문의가 폐 결절에 대해 주석을 추가한 흉부 컴퓨터 단층 촬영 이미지의 공개 데이터 세트입니다. 이는 다양한 기관에서 수집된 1,018개의 CT 스캔으로 구성되며 주석이 달린 결절이 23,000개 이상 포함되어 있습니다.

데이터 세트의 각 스캔에는 모양, 크기, 결절 위치 및 질감에 대한 정보를 제공하는 숙련된 방사선 전문의 4명의 주석이 함께 제공됩니다. 이 데이터 세트는 폐암 선별 및 진단을 위한 컴퓨터 보조 진단(CAD) 시스템 개발에 대한 연구를 지원하기 위해 만들어졌습니다.


참고: 데이터 세트는 공개적으로 사용 가능하지만 사용에 대한 특정 제한 사항 및 요구 사항이 적용됩니다.


딸깍 하는 소리 여기 다운로드.

4. 패션-MNIST

PyTorch Fashion MNIST 데이터 세트는 Zalando Research에서 원래 MNIST 데이터 세트를 대체하기 위해 생성되었으며 PyTorch 호환 형식으로 제공됩니다. PyTorch Fashion MNIST 데이터 세트는 60,000개의 훈련 이미지와 10,000개의 테스트 이미지를 포함하여 의류 항목의 70,000개의 회색조 이미지로 구성됩니다.


이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.


데이터 세트를 다운로드할 수 있습니다. 여기 .

5. 옐프 리뷰

Yelp 리뷰 데이터 세트는 미국 11개 대도시 지역의 지역 업체에 대한 500만 개 이상의 리뷰로 구성된 광범위한 컬렉션입니다. 데이터세트의 각 리뷰에는 별점, 비즈니스 카테고리, 리뷰 텍스트, 날짜, 위치 등의 정보가 포함되어 있습니다. PyTorch를 사용하여 딥 러닝 모델을 구축하는 데 관심이 있는 귀중한 리소스입니다.


데이터세트를 다운로드하려면 가입하고 여기를 클릭하세요.

6. 스탠포드 개

이 PyTorch 데이터 세트는 120종의 다양한 개 품종에 대한 20,580개의 고품질 이미지 컬렉션으로 구성되어 있으며, 각 이미지에는 이미지의 개 품종에 대한 정보가 표시되어 있습니다. 이미지 분류 및 객체 인식에 사용할 수 있습니다. JPEG 형식으로 제공되는 데이터세트와 텍스트 파일의 주석을 사용하면 이미지 크기는 224x224픽셀입니다. 데이터 세트의 품종은 골든 리트리버 및 래브라도와 같은 일반적인 품종부터 Otterhound 및 Sussex Spaniel과 같은 더 모호한 품종까지 다양합니다.


당신은 다운로드 할 수 있습니다 데이터 세트 여기.


7. 칼텍 101

카테고리당 제한된 수의 이미지가 어려울 수 있지만, 상세한 주석을 통해 PyTorch Caltech 101 데이터 세트는 딥 러닝 모델을 평가하는 데 유용한 리소스가 됩니다. 데이터 세트는 101개 카테고리에 걸쳐 9,144개의 고품질 개체 이미지가 포함된 레이블이 지정된 컴퓨터 비전 데이터 세트입니다. 또한 광범위한 개체 범주를 다루며 이미지는 다양한 소스에서 얻었습니다. 각 이미지에는 객체 및 이미지 카테고리로 라벨이 지정되어 있어 다양한 딥러닝 프레임워크와 함께 사용하기가 더 간편합니다.


여기를 클릭하세요 다운로드 .

8. STS-B(의미론적 텍스트 유사성 벤치마크)

STS-B(의미적 텍스트 유사성 벤치마크) 데이터 세트는 2012년부터 2017년까지 SemEval의 맥락에서 구성된 STS 작업에 사용된 영어 데이터 세트입니다. 이 데이터 세트는 1~5의 척도에서 인간이 할당한 유사성 점수가 있는 8628개의 문장 쌍으로 구성됩니다. 뉴스 기사, 포럼 게시물, 캡션이 포함된 이미지와 광범위한 주제를 다루는 다양한 소스에서 가져온 이 데이터세트는 두 문장 간의 의미론적 유사성을 결정하는 모델의 성능을 평가하기 위해 PyTorch와 함께 사용되는 인기 있는 데이터세트입니다. STS-B 데이터 세트는 PyTorch 호환 형식을 포함한 다양한 형식으로 제공됩니다. PyTorch는 이 데이터 세트에서 모델을 훈련하고 평가하기 위한 딥 러닝 프레임워크이기 때문입니다.

\이 데이터세트를 다운로드하려면 다음을 클릭하세요. 여기 .


9. WMT'14 영어-독일어

이 PyTorch 데이터 세트는 2015년 Stanford에서 만든 영어와 독일어 간 기계 번역을 위한 벤치마크 데이터 세트입니다. 이 데이터 세트는 딥 러닝 모델을 구축하고 평가하는 데 사용되는 영어와 독일어로 된 문장 정렬 텍스트의 병렬 코퍼스로 구성됩니다. 테스트 세트에는 각각 3,000개의 문장 쌍이 포함되어 있지만 훈련 세트는 약 450만 개의 문장 쌍으로 구성되어 있으며 평균 문장 길이는 영어의 경우 26단어, 독일어의 경우 30단어입니다. 어휘 크기는 영어의 경우 약 160,000단어, 독일어의 경우 약 220,000단어입니다. 독일 사람.


스크롤을 내려서 다운받으시면 됩니다 여기 .

10. 셀레바

이 데이터 세트는 200,000개 이상의 유명인 이미지로 구성된 인기 있는 대규모 얼굴 속성 데이터 세트입니다. 2015년 홍콩 중문대학교 연구진이 처음 발표했습니다. CelebA의 이미지는 나이, 머리 색깔, 얼굴 표정, 성별 등 40가지 얼굴 속성으로 구성됩니다. 또한 이러한 이미지는 인터넷에서 검색한 것이며 다양한 인종, 연령, 성별을 포함하여 다양한 얼굴 모습을 담고 있습니다. 각 이미지의 얼굴 위치에 대한 경계 상자 주석과 눈, 코, 입에 대한 5개의 랜드마크 포인트.


참고: CelebA 데이터 세트는 Creative Commons Attribution-Noncommercial-Share 라이선스에 따라 적절한 출처가 제공되는 한 비상업적 연구 목적으로 사용할 수 있습니다.


PyTorch에서 CelebA 데이터세트를 사용하려면 torchvision 모듈의 일부인 torchvision.datasets.CelebA 클래스를 사용할 수 있습니다. 다음에서 데이터 세트를 다운로드할 수 있습니다. 웹사이트 또는 여기 .

11. UCF101

UFC101 데이터 세트는 컴퓨터 비전 분야의 비디오 분류에 널리 사용됩니다. 이는 101개 행동 카테고리의 인간 행동에 대한 13,230개의 비디오로 구성되며 각 범주에는 약 100~300개의 비디오가 포함되어 있습니다. PyTorch UCF101 데이터 세트는 PyTorch에서 사용할 수 있는 원래 UCF101의 사전 처리된 버전입니다. 사전 처리된 데이터 세트는 각 비디오에 해당하는 레이블을 포함하여 정규화되고 크기가 조정된 비디오 프레임으로 구성됩니다. 또한 각각 약 9,500개, 3,500개, 3,000개의 비디오가 포함된 훈련, 검증 및 테스트의 세 세트로 나뉩니다.


데이터세트를 다운로드하려면 여기 .

12.HMDB51

HMDB51 데이터세트는 영화, TV 쇼, 온라인 비디오 등 다양한 소스에서 수집한 비디오 모음으로, 각각 최소 101개의 비디오 클립이 포함된 51개의 액션 클래스로 구성되어 있습니다. 이는 2011년 센트럴 플로리다 대학의 연구원들이 인간 행동 인식에 대한 연구를 위해 만들었습니다. 비디오는 AVI 형식이고 해상도가 320x240픽셀이며, 액션 클래스 레이블과 비디오 내 액션의 시작 및 끝 프레임을 포함하여 각 비디오에 대한 실측 주석이 포함되어 있습니다. 데이터 세트의 각 비디오는 정적 카메라 앞에서 작업을 수행하는 사람을 나타냅니다. 액션에는 점프, 손 흔들기, 술 마시기, 양치질 등 매일 하는 다양한 활동뿐만 아니라 기타 연주, 승마 등의 복잡한 액션도 포함됩니다.


참고: 이 제품은 다음과 함께 사용됩니다. UCF101 더 많은 수의 액션 클래스를 포함하지만 클래스당 더 적은 수의 비디오를 포함하는 데이터세트입니다.


데이터세트를 다운로드할 수 있습니다. 여기 .

13. 액티비티넷

ActivityNet은 요리, 스포츠, 춤 등 다양한 카테고리의 20,000개 이상의 비디오로 구성된 대규모 비디오 이해 데이터 세트입니다. 비디오의 평균 길이는 3분이며 평균 1.41개의 활동 세그먼트로 주석이 추가됩니다. 딥러닝 프레임워크에서 사용하기 쉬운 PyTorch에서 사용할 수 있습니다. PyTorch 버전은 RGB 프레임과 각 비디오의 광학 흐름 필드에서 추출된 사전 처리된 기능뿐만 아니라 활동의 시간적 세그먼트와 레이블에 대한 실측 주석도 제공합니다.


데이터세트를 다운로드할 수 있습니다. 여기 .

14. VOC 데이터세트(시각적 객체 클래스)

VOC 데이터 세트(Visual Object Classes)는 시각적 인식 분야의 최첨단 기술 발전을 목표로 하는 PASCAL VOC Challenge의 일부로 2005년에 처음 소개되었습니다. 동물, 차량, 일반 가정용품 등 20가지 다양한 개체 카테고리의 이미지로 구성되어 있습니다. 이러한 각 이미지에는 이미지 내 개체의 위치와 분류에 대한 주석이 추가됩니다. 주석에는 경계 상자와 픽셀 수준 분할 마스크가 모두 포함됩니다. 데이터 세트는 훈련 세트와 검증 세트라는 두 가지 주요 세트로 나뉩니다. 훈련 세트에는 주석이 있는 약 5,000개의 이미지가 포함되어 있고, 검증 세트에는 주석이 없는 약 5,000개의 이미지가 포함되어 있습니다. 또한 데이터 세트에는 약 10,000개의 이미지가 포함된 테스트 세트도 포함되어 있지만 이 세트의 주석은 공개적으로 사용할 수 없습니다.


최근 데이터 세트를 다운로드하려면 다음에서 다운로드할 수 있습니다. 웹사이트 , 단 한 줄의 코드로 Deep Lake 오픈 소스를 통해 Python에서 로드하거나 다음에서 다운로드하세요. 캐글 .


15. YCB-비디오

이 데이터 세트는 객체 인식 및 포즈 추정 작업을 위해 설계된 3D 객체 모델 및 비디오 시퀀스 모음입니다. 여기에는 21가지 일상 생활용품이 포함되어 있으며, 각 물건은 다양한 조명 조건과 카메라 시점에서 포착되었습니다. 데이터세트는 픽셀 수준의 실측 주석을 제공하며 일반적으로 컴퓨터 비전 알고리즘 및 로봇 시스템을 평가하는 데 사용됩니다.


다운로드하려면 여기를 클릭하세요. 데이터 세트 .

16. 키티

KITTI 데이터세트는 자율주행 연구를 위한 컴퓨터 비전 데이터 모음입니다. 여기에는 4000개 이상의 고해상도 이미지, LIDAR 포인트 클라우드, 다양한 센서가 장착된 자동차의 센서 데이터가 포함되어 있습니다. 데이터세트는 객체 감지, 추적, 분할에 대한 주석은 물론 심도 맵과 보정 매개변수도 제공합니다. KITTI 데이터 세트는 자율 주행 및 로봇 공학을 위한 딥 러닝 모델을 훈련하고 평가하는 데 널리 사용됩니다.


최근 데이터 세트를 다운로드하려면 다음에서 다운로드할 수 있습니다. 웹사이트 , GitHub 또는 다음에서 다운로드하세요. 캐글 .

17. 브라츠

BRATS PyTorch 데이터세트는 뇌종양 분할을 위한 자기공명영상(MRI) 스캔 모음입니다. 이는 200개 이상의 고해상도 3D 뇌 이미지로 구성되며, 각 이미지에는 4가지 양식(T1, T1c, T2 및 FLAIR)과 해당 이진 분할 마스크가 포함되어 있습니다. 데이터 세트는 자동화된 뇌종양 감지 및 세분화를 위한 딥 러닝 모델을 훈련하고 평가하는 데 일반적으로 사용됩니다.


다음을 클릭하면 Kaggle에서 이 데이터세트를 다운로드할 수 있습니다. 여기 .

18. 다중 인간 구문 분석

다중 인간 구문 분석 PyTorch 데이터 세트는 인간 부분 구문 분석을 위한 픽셀 수준 주석이 포함된 대규모 인간 이미지 데이터 세트입니다. 여기에는 26,000개 이상의 인간 이미지가 포함되어 있으며 각 이미지는 18개의 인간 부분 레이블로 분류되어 있습니다. 데이터 세트는 인간의 자세 추정, 분할 및 동작 인식을 위한 딥 러닝 모델을 훈련하고 평가하는 데 사용됩니다.


데이터세트를 다운로드하려면 여기 .

19. 제스처

이 데이터 세트는 동작 인식 및 위치 파악을 위한 대규모 비디오 데이터 세트입니다. 이는 요리, 청소, 사교 활동 등 일상 활동을 담은 9,800개 이상의 동영상으로 구성되며, 동영상당 평균 길이는 30초입니다. 데이터 세트는 동작에 대한 시간적 경계와 원자적 시각적 개념을 포함하여 각 비디오에 대한 자세한 주석을 제공하므로 동작 인식, 감지 및 분할을 위한 딥 러닝 모델을 훈련하고 평가하는 데 적합합니다.


Charades PyTorch 데이터 세트는 컴퓨터 비전 연구 커뮤니티에서 널리 사용되며 무료로 사용할 수 있습니다. 다운로드 그리고 사용합니다.

20. TU 베를린

이 데이터 세트는 객체 감지 및 포즈 추정을 위한 고해상도 이미지와 3D 객체 포즈의 풍부한 컬렉션입니다. 여기에는 2D 및 3D 포즈에 대한 주석과 함께 60개 개체 범주의 11,000개 이상의 이미지가 포함되어 있습니다. 큰 크기와 다양한 객체 카테고리를 갖춘 TU Berlin PyTorch 데이터세트는 강력하고 정확한 객체 감지 및 자세 추정 모델을 개발하기 위한 탁월한 테스트베드를 제공합니다.


클릭하면 웹사이트에서 직접 데이터세트를 가져올 수 있습니다. 여기 .



PyTorch 데이터 세트의 일반적인 사용 사례

자연어 처리

컴퓨터 시각 인식

의료영상분석

인간 활동 인식

마지막 생각들

PyTorch는 딥 러닝 모델을 개발하고 새로운 접근 방식을 탐색하는 데 중점을 두는 연구 및 실험에 유용합니다. 또한 PyTorch는 생태계에 기여하는 개발자 및 연구원 커뮤니티가 성장하면서 연구 중심 프레임워크로 명성을 얻었습니다.

이러한 데이터 세트는 다양한 분야에 적용할 수 있으며 누구나 무료로 다운로드하여 사용할 수 있습니다.



이 기사의 리드 이미지는 'PyTorch 중첩 이미지' 프롬프트를 사용하여 HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.