paint-brush
用于构建深度学习模型的 20 个最佳 PyTorch 数据集经过@datasets
4,817 讀數
4,817 讀數

用于构建深度学习模型的 20 个最佳 PyTorch 数据集

太長; 讀書

用于训练和构建深度学习模型的两个最广泛使用的开源机器学习框架是 TensorFlow 和 PyTorch。这些框架在构建和训练模型的方法上具有独特的差异。框架的选择取决于用户的具体需求和偏好。本文着眼于构建深度学习模型的最佳 PyTorch 数据集。
featured image - 用于构建深度学习模型的 20 个最佳 PyTorch 数据集
Open Datasets Compiled by HackerNoon HackerNoon profile picture

用于训练和构建深度学习模型的两个最广泛使用的开源机器学习框架是 TensorFlow 和 PyTorch。


这些框架在构建和训练模型的方法上具有独特的差异。 TensorFlow 使用静态图和声明式编程,提供更好的优化机会并允许分布式训练,而 PyTorch 使用动态计算图和命令式编程,允许更灵活和轻松的调试过程。框架的选择取决于用户的具体需求和偏好。


本文着眼于当今可用的用于构建深度学习模型的最佳 PyTorch 数据集

开放 PyTorch 数据集的最终列表


1.宾州树库

Penn Treebank 是带注释的英文文本的集合,在自然语言处理 (NLP) 研究社区中得到广泛研究。它包含来自杂志、新闻文章和虚构故事等各种类型的超过 450 万个单词的文本。该数据集还包含有关名称权利、词性标记和句法结构的手动注释信息,用于训练和评估各种 NLP 模型,包括语言模型、解析器和机器翻译系统。


要下载此数据集,请单击在这里

2.斯坦福问答数据集(SQuAD)

SQuAD(斯坦福问答数据集)是自然语言处理 (NLP) 中流行的基准数据集,包含超过 100,000 个问答对,从一组维基百科文章中提取。它用于评估使用 PyTorch 或其他深度学习框架构建的各种 NLP 模型的性能。 answer span 的平均长度为 3.6 个单词,相应段落中平均有 11.0 个单词。


以下是有关 SQuAD 的一些额外详细信息:


小队 1.0 - 它包含来自英语维基百科的 536 篇文章的 100,000 多个问答对。


小队 2.0 - 它包含 100,000 多篇维基百科文章的 150,000 多对问答对,以及额外的无法回答的问题来测试模型的弃权回答能力。


该数据集的目标是为机器学习模型提供一项具有挑战性的任务,以回答有关给定文本段落的问题。点击这里下载最新版本 (SQuAD 2.0) .

3.肺图像数据库联盟和图像数据库资源计划 (LIDC-IDRI)

这个 PyTorch 数据集是胸部计算机断层扫描图像的公共数据集,已被多位放射科医生注释为肺结节。它包括从不同机构收集的 1,018 幅 CT 扫描,包含超过 23,000 个带注释的结节。

数据集中的每一次扫描都附有来自四位经验丰富的放射科医生的注释,这些注释提供了有关形状、大小、结节位置和纹理的信息。创建该数据集是为了支持开发用于肺癌筛查和诊断的计算机辅助诊断 (CAD) 系统的研究。


注意:该数据集是公开可用的,但受到某些限制和使用要求的约束。


点击这里去下载。

4.时尚-MNIST

PyTorch Fashion MNIST 数据集由 Zalando Research 创建,用于替代原始 MNIST 数据集,并以与 PyTorch 兼容的格式提供。 PyTorch Fashion MNIST 数据集包含 70,000 张服装项目的灰度图像,其中包括 60,000 张训练图像和 10,000 张测试图像。


图片大小为 28x28 像素,代表 10 种不同类别的服装,包括 T 恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和踝靴。它类似于原始 MNIST 数据集,但由于服装项目的复杂性和多样性更高,因此分类任务更具挑战性。


可以下载数据集这里.

5. Yelp 评论

Yelp 评论数据集广泛收集了来自美国 11 个大都市地区的超过 500 万条本地企业评论。数据集中的每条评论都包含星级、业务类别、评论文本、日期和位置等信息。它是对使用 PyTorch 构建深度学习模型感兴趣的宝贵资源。


请注册并单击此处下载数据集

6.斯坦福犬

这个 PyTorch 数据集包含 120 个不同品种的狗的 20,580 张高质量图像的集合,每张图像都标有关于图像中狗的品种的信息。可用于图像分类和物体识别。使用以 JPEG 格式提供的数据集和文本文件中的注释,图像的大小为 224x224 像素。数据集中的品种范围从金毛猎犬和拉布拉多犬等常见品种到奥特猎犬和苏塞克斯猎犬等更鲜为人知的品种。


您可以下载数据集这里。


7.加州理工学院 101

虽然每个类别的图像数量有限可能是一个挑战,但详细的注释使 PyTorch Caltech 101 数据集成为评估深度学习模型的宝贵资源。该数据集是一个带标签的计算机视觉数据集,包含 101 个类别的 9,144 张高质量物体图像。它还涵盖了广泛的对象类别,并且图像是从各种来源获得的。每个图像都标有对象和图像的类别,这使得它更容易与各种深度学习框架一起使用。


点击这里下载.

8. STS-B(语义文本相似度基准)

STS-B(语义文本相似性基准)数据集是 2012 年至 2017 年间在 SemEval 上下文中组织的 STS 任务中使用的英语数据集。它包含 8628 个句子对,具有 1 到 5 的人类分配相似性分数。它取自各种来源,如新闻文章、论坛帖子、带标题的图像并涵盖广泛的主题,是与 PyTorch 一起使用的流行数据集,用于评估模型在确定两个句子之间的语义相似性方面的性能。 STS-B 数据集有多种格式,包括 PyTorch 兼容格式,因为 PyTorch 是一个深度学习框架,用于在此数据集上训练和评估模型。

\要下载此数据集,请单击这里.


9. WMT'14 英语-德语

该 PyTorch 数据集是斯坦福大学于 2015 年创建的英德机器翻译基准数据集。它包含英语和德语句子对齐文本的平行语料库,用于构建和评估深度学习模型。虽然每个测试集包含 3,000 个句子对,但训练集包含大约 450 万个句子对,平均句子长度为英语 26 个单词和德语 30 个单词,词汇量约为英语 160,000 个单词和 220,000 个单词德语。


您可以向下滚动并下载它这里.

10.名人A

该数据集是一个流行的大规模人脸属性数据集,包含超过 200,000 张名人图像。它于 2015 年由香港中文大学的研究人员首次发布。CelebA 中的图像包含 40 种面部属性,例如年龄、头发颜色、面部表情和性别。此外,这些图像是从互联网上检索到的,涵盖了广泛的面部外观,包括不同的种族、年龄和性别。每个图像中面部位置的边界框注释,以及眼睛、鼻子和嘴巴的 5 个标志点。


注意:CelebA 数据集已获得 Creative Commons Attribution-Noncommercial-Share 的许可,只要给予适当的信用,就可以将其用于非商业研究目的。


要在 PyTorch 中使用 CelebA 数据集,您可以使用torchvision.datasets.CelebA类,它是torchvision模块的一部分。您可以从以下位置下载数据集网站或者这里.

11.UCF101

UFC101 数据集广泛用于计算机视觉领域的视频分类。它包含来自 101 个动作类别的 13,230 个人类动作视频,每个包含大约 100 到 300 个视频。 PyTorch UCF101 数据集是原始 UCF101 的预处理版本,可以在 PyTorch 中使用。预处理后的数据集包含经过标准化和调整大小的视频帧,包括每个视频的相应标签。它还分为三组:训练、验证和测试,分别包含大约 9,500、3,500 和 3,000 个视频。


要下载数据集,请单击这里.

12.HMDB51

HMDB51 数据集是从各种来源收集的视频的集合,包括电影、电视节目和在线视频,包括 51 个动作类,每个动作类至少有 101 个视频片段。它由中佛罗里达大学的研究人员于 2011 年创建,用于研究人类动作识别。视频为 AVI 格式,分辨率为 320x240 像素,每个视频都有真实标注,包括动作类标签以及视频中动作的开始和结束帧。数据集中的每个视频代表一个人在静态摄像机前执行一个动作。动作包括每天的范围广泛的活动,例如跳跃、挥手、喝酒和刷牙,以及弹吉他和骑马等复杂动作。


注意:它与UCF101数据集,其中包含更多的动作类,但每个类的视频更少。


您可以下载数据集 这里.

13.活动网

ActivityNet 是一个大型视频理解数据集,包含来自烹饪、运动、舞蹈等不同类别的 20,000 多个视频。这些视频的平均长度为 3 分钟,平均标注了 1.41 个活动片段。它在 PyTorch 中可用,在深度学习框架中很容易使用。 PyTorch 版本提供了从每个视频的 RGB 帧和光流场中提取的预处理特征,以及时间段和活动标签的地面实况注释。


您可以下载数据集这里.

14. VOC 数据集(视觉对象类)

VOC 数据集(视觉对象类)于 2005 年作为 PASCAL VOC 挑战赛的一部分首次推出,旨在推进视觉识别领域的最新技术水平。它由 20 个不同对象类别的图像组成,包括动物、车辆和常见的家居用品。这些图像中的每一个都用图像中对象的位置和分类进行了注释。注释包括边界框和像素级分割掩码。数据集分为两个主要集:训练集和验证集。训练集包含大约 5,000 张带有注释的图像,而验证集包含大约 5,000 张没有注释的图像。此外,该数据集还包括一个包含大约 10,000 张图像的测试集,但该集的注释未公开。


要下载最近的数据集,您可以从网站,只需一行代码,通过我们的Deep Lake开源将其加载到 Python 中,或者从格格.


15. YCB-视频

该数据集是 3D 对象模型和视频序列的集合,专为对象识别和姿态估计任务而设计。它包含 21 件日常家居用品,每件物品都是在不同的光照条件和相机视角下拍摄的。该数据集提供像素级地面实况注释,通常用于评估计算机视觉算法和机器人系统。


点击这里下载数据集.

16.基蒂

KITTI 数据集是用于自动驾驶研究的计算机视觉数据的集合。它包括 4000 多张高分辨率图像、激光雷达点云和来自配备各种传感器的汽车的传感器数据。该数据集提供了对象检测、跟踪和分割的注释,以及深度图和校准参数。 KITTI 数据集广泛用于训练和评估自动驾驶和机器人的深度学习模型。


要下载最近的数据集,您可以从网站, GitHub或从下载格格.

17.胸罩

BRATS PyTorch 数据集是用于脑肿瘤分割的磁共振成像 (MRI) 扫描的集合。它由 200 多幅高分辨率 3D 大脑图像组成,每幅图像都有四种模态(T1、T1c、T2 和 FLAIR)和相应的二元分割掩码。该数据集通常用于训练和评估用于自动脑肿瘤检测和分割的深度学习模型。


您可以通过单击在 Kaggle 上下载此数据集这里.

18.多人解析

Multi-Human Parsing PyTorch 数据集是一个大型人体图像数据集,具有用于人体部位解析的像素级注释。它包含超过 26,000 张人体图像,每张图像都分为 18 个人体部位标签。该数据集用于训练和评估人体姿势估计、分割和动作识别的深度学习模型。


要下载数据集,请单击这里.

19.字谜

该数据集是用于动作识别和定位的大规模视频数据集。它包含 9,800 多个日常活动视频,例如烹饪、清洁和社交,每个视频的平均长度为 30 秒。该数据集为每个视频提供了详细的注释,包括动作的时间边界和原子视觉概念,使其适用于训练和评估用于动作识别、检测和分割的深度学习模型。


Charades PyTorch 数据集广泛用于计算机视觉研究社区,可免费用于下载并使用。

20.柏林工业大学

该数据集是用于对象检测和姿势估计的高分辨率图像和 3D 对象姿势的丰富集合。它包含 60 个对象类别的 11,000 多张图像,以及 2D 和 3D 姿势的注释。 TU Berlin PyTorch 数据集规模庞大且对象类别多样,为开发稳健且准确的对象检测和姿态估计模型提供了一个极好的测试平台。


您可以通过单击直接从网站获取数据集这里.



PyTorch 数据集的常见用例

自然语言处理

计算机视觉

医学图像分析

人类活动识别

最后的想法

PyTorch 对于研究和实验很有用,其重点通常是开发深度学习模型和探索新方法。此外,PyTorch 作为以研究为中心的框架而享有盛誉,越来越多的开发人员和研究人员为生态系统做出贡献。

这些数据集在多个领域都有应用,也可供任何人免费下载和使用。



本文的主图是使用提示“PyTorch 叠加图像”通过 HackerNoon 的 AI 稳定扩散模型生成的。