paint-brush
面向数据分析初学者的 15 个 Excel 数据集经过@datasets
285,960 讀數
285,960 讀數

面向数据分析初学者的 15 个 Excel 数据集

太長; 讀書

Excel 是数据分析不可或缺的工具,使用正确的数据集和技术,初学者可以学习发现见解并做出明智的决策。在本文中,我们为数据分析初学者编制了一份包含 15 个 Excel 数据集的列表。这些 Excel 数据集涵盖财务分析、市场分析和时间序列分析等主题,可用于深入了解现实世界的场景。
featured image - 面向数据分析初学者的 15 个 Excel 数据集
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Excel 是数据分析不可或缺的工具,使用正确的数据集和技术,初学者可以学习发现见解并做出明智的决策。其直观的界面和强大的功能允许用户执行广泛的过程,如数据操作、数据可视化和统计分析。

什么是“Excel 数据集”?

Excel 数据集是在 Excel 电子表格中存储和组织的数据集合,Excel 电子表格是一种常用软件,使用户能够以结构化格式创建、操作和分析数据。这些数据集有两种主要格式:Excel(.xlsx) 和逗号分隔值 (CSV)。 Excel 格式为组织和分析复杂数据提供了更高级的功能,包括使用公式和可视化,而另一方面,CSV 提供了一种更简单的格式,可与广泛的软件应用程序兼容,使其更易于共享不同程序之间的数据。


在本文中,我们为数据分析初学者编制了一份包含 15 个 Excel 数据集的列表。通过这些涵盖财务分析、市场分析和时间序列分析等主题的 Excel 数据集,初学者可以练习数据清理、数据透视表和图表等数据分析技术,同时深入了解真实场景。

数据分析初学者的 Excel 数据集列表

  1. 超市销售
  2. 鸢尾花
  3. 泰坦尼克号
  4. 酒质
  5. 成人人口普查收入
  6. 波士顿住房
  7. 乳腺癌威斯康星数据集
  8. 网购者购买意向
  9. 银行营销
  10. 鳄梨价格
  11. 2009 年至 2019 年亚马逊畅销书 50 强
  12. 世界杯
  13. 纽约市 Airbnb 开放数据
  14. 世界幸福报告
  15. 股票价格

1. 超市销售

Superstore Sales 数据为一家虚构的零售公司提供销售数据,包括有关产品、订单和客户的信息。它通常用于练习数据分析。


此 Excel 数据集包括以下变量:


  • 订单 ID - 每个订单的唯一标识符。
  • 客户 ID - 每个客户的唯一标识符。
  • 订单日期 - 下订单的日期。
  • 发货日期 - 订单发货的日期。
  • 发货模式 - 订单的发货模式(例如标准、当天)。
  • 细分市场 - 客户细分市场(例如消费者、公司、家庭办公室)。
  • 地区 - 客户所在的地区(例如西部、中部、东部)。
  • 类别 - 所购买产品的类别(例如家具、技术、办公用品)。
  • 子类别 - 所购买产品的子类别(例如椅子、台式机、纸张)。
  • 产品名称 - 所购买产品的名称。
  • 销售额 - 所购产品的销售收入。
  • 数量 - 购买的产品的单位数量。
  • 折扣 - 应用于所购产品的折扣。
  • 利润 - 购买的产品产生的利润。


2. 鸢尾花

该数据集包括 150 朵鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值,这些鸢尾花属于 3 个不同的物种:setosa、versicolor 和 virginica。鸢尾花数据集有 150 行和 5 列,存储为一个数据框,其中一列代表每朵花的种类。


其变量的描述包括:


  • Sepal.Length - sepal.length 表示萼片的长度(以厘米为单位)。
  • Sepal.Width - sepal.width 表示萼片的宽度(以厘米为单位)。
  • Petal.Length - petal.length 表示花瓣的长度(以厘米为单位)。
  • Species - species 变量表示鸢尾花的种类,具有三个可能的值:setosa、versicolor 和 virginica。


Iris 数据集在 Excel 中的一个用例是分析鸢尾花不同特征之间的关系,并根据特征值对花种进行分类。这可以使用相关分析、推论统计和预测建模等技术来完成。


您还可以通过单击在 Kaggle 上下载此 Excel 数据集这里.

3. 泰坦尼克号

这个流行的开源数据集提供了 1912 年 4 月 15 日泰坦尼克号沉没时船上乘客的信息。它可供对数据清理和预处理、描述性统计、数据可视化和预测建模感兴趣的数据分析初学者使用。

数据集中包含的一些变量:


  • PassengerId - 每个乘客的唯一标识符。
  • 幸存 - 这显示乘客是否幸存(0 = 否,1 = 是)。
  • Pclass - 乘客的等级(1 = 1st,2 = 2nd,3 = 3rd)。
  • 姓名 - 乘客的姓名。
  • 性别 - 乘客的性别。
  • 年龄 - 乘客的年龄。
  • SibSp - 船上兄弟姐妹/配偶的数量。
  • Parch - 船上父母/孩子的数量。
  • 票 - 票号。
  • 票价 - 为机票支付的票价。
  • 客舱 - 客舱号。
  • Embarked - 登船港(C = 瑟堡,Q = 皇后镇,S = 南安普顿)。

4.酒质

葡萄酒质量数据集包含有关红葡萄酒和白葡萄酒样品的信息。该数据集旨在根据 pH 值、密度、酒精含量和柠檬酸含量等化学特性对葡萄酒的质量进行分类。


此 Excel 数据集中包含的常用变量:


  • 固定酸度——葡萄酒中固定酸的数量,以 g/dm^3 表示。
  • 挥发性酸度——葡萄酒中挥发性酸的数量,以 g/dm^3 表示。
  • 柠檬酸 - 葡萄酒中柠檬酸的含量,以 g/dm^3 表示。
  • 残糖 - 葡萄酒中的残糖量,以 g/dm^3 表示
  • 氯化物——葡萄酒中氯化物的含量,以 g/dm^3 表示。
  • 游离二氧化硫 - 葡萄酒中游离二氧化硫的含量,以 mg/dm^3 表示。
  • 总二氧化硫 - 葡萄酒中二氧化硫的总量,以 mg/dm^3 表示。
  • 密度 - 葡萄酒的密度,以 g/cm^3 表示。
  • pH - 葡萄酒的 pH 值。
  • 硫酸盐 - 葡萄酒中硫酸盐的数量,以 g/dm^3 表示。
  • Alcohol - 葡萄酒的酒精含量,以 % vol 表示。
  • 质量——葡萄酒的质量等级,从 0 到 10 分。

5. 成人人口普查收入

这个 Excel 数据集是关于居住在美国的个人的信息集合,从 1994 年人口普查数据库中提取。它包含每个人的各种人口统计、社会和经济属性。


此数据集中包含的一些属性:


  • 年龄

  • 工人阶级 - 私人、Self-emp-not-inc、Self-emp-inc、Federal-gov、Local-gov、State-gov、Without-pay、Never worked。

  • fnlwgt

  • 教育 - 学士、部分大学、11 年级、HS-grad、Prof-school、Assoc-acdm、Assoc-voc、9 年级、7-8 年级、12 年级、硕士、1-4 年级、10 年级、博士学位、5-6 年级、学前班。

  • 教育编号

  • 婚姻状况 - 已婚公民配偶、离婚、未婚、分居、丧偶、已婚配偶缺席、已婚 AF 配偶。

  • 职业 - 技术支持,工艺维修,其他服务,销售,执行管理,专业教授,处理人员 - 清洁工,机器操作检查,行政文员,农业 - 渔业,运输 - 移动,私人住宅 -服务,保护服务,武装部队。

  • 关系 - 妻子、独生子女、丈夫、非家庭成员、其他亲属、未婚。

  • 种族 - 白人、亚洲太平洋岛民、美洲印第安人爱斯基摩人、其他人、黑人。

  • 性别 - 男性或女性。


“收入”属性是目标变量,数据集对数据分析初学者非常有用。


6. 波士顿住房

波士顿住房数据集包含马萨诸塞州波士顿地区的住房信息。它有大约 506 行和 14 列数据。


数据集中的一些变量包括:


  • CRIM - 城镇人均犯罪率。
  • ZN - 划为超过 25,000 平方英尺地块的住宅用地比例。
  • INDUS - 每个城镇非零售商业英亩的比例。
  • CHAS - 查尔斯河虚拟变量(= 1 如果区域边界河流;否则为 0)。
  • NOX - 一氧化氮浓度(千万分之一)。
  • RM - 每个住宅的平均房间数。
  • AGE - 1940 年之前建造的自住单元的比例。
  • DIS - 到波士顿五个就业中心的加权距离。
  • RAD - 径向高速公路可达性指数。
  • TAX - 每 10,000 美元的全值财产税税率。
  • PTRATIO - 按城镇划分的师生比例。
  • B - 1000(Bk - 0.63)^2 其中 -Bk 是城镇黑人的比例。
  • LSTAT - 人口地位较低的百分比。
  • MEDV - 1000 美元的自住房屋的中值。


该数据集可用于数据分析,分析房价的各种特征与房地产市场之间的关系,进行数据分析并产生洞察力。

7. 乳腺癌威斯康星数据集

此 Excel 数据集包含有关乳腺癌肿瘤的信息,最初由 William H. Wolberg 博士创建。创建该数据集是为了帮助研究人员和机器学习从业者将肿瘤分类为恶性(癌性)或良性(非癌性)。


该数据集中包含的一些变量:


  • 身份证号
  • 诊断(M = 恶性,B = 良性)。
  • 半径(从中心到周长上各点的平均距离)。
  • 纹理(灰度值的标准偏差)。
  • 周长
  • 区域
  • 平滑度(半径长度的局部变化)。
  • 紧凑性(周长 ^2 / 面积 - 1.0)。
  • 凹度(轮廓凹陷部分的严重程度)。
  • 凹点(轮廓凹陷部分的数量)。
  • 对称
  • 分形维数(“海岸线近似”- 1)。

8. 网购者购买意向

在线购物者购买意向数据集是与在线购物背景下的购买模式和消费者行为相关的数据集合。它是通过对在线购物者进行调查并从他们的回答中收集数据而创建的。


该数据集中的一些变量包括:


  • 管理 - 用户出于管理目的访问的网站页面数
  • Administrative_Duration - 用户在网站管理页面上花费的总时间
  • 信息 - 用户出于信息目的访问的网站页面数
  • Informational_Duration - 用户在网站信息页面上花费的总时间
  • ProductRelated - 用户出于与产品相关的目的访问的网站页面数
  • ProductRelated_Duration - 用户在网站的产品相关页面上花费的总时间
  • BounceRates - 进入网站并离开而不查看任何其他页面的访问者的百分比
  • ExitRates - 访问特定页面后退出网站的访问者百分比
  • PageValues - 交易前用户浏览页面的平均值
  • SpecialDay - 访问与特殊日子的接近程度(例如,母亲节、情人节等)


此 Excel 数据集用于与电子商务和在线营销相关的研究和分析。它可以帮助企业了解驱动客户行为的因素,对数据分析初学者也很有用。

9. 银行营销

这个流行的数据集用于研究葡萄牙银行机构的营销活动。它包含有关银行营销活动的信息,以及客户人口统计和经济指标。


该数据集中包含的一些变量:


  • Age - 客户的年龄(数字)
  • 工作 - 工作类型
  • 婚姻 - 婚姻状况
  • 教育 - 教育水平
  • 违约 - 有违约信用吗?
  • 余额 - 年平均余额,以欧元计。
  • 住房 - 有住房贷款吗?
  • 贷款 - 有个人贷款吗?
  • 联系人 - 联系人通信类型。
  • 日 - 联系的月份中的第几天。
  • 输出变量表示客户在与银行联系后是否订阅了定期存款。

10. 鳄梨价格

鳄梨价格数据集包含与美国鳄梨价格相关的数据。数据是从哈斯鳄梨委员会和美国农业部 (USDA) 等各种来源收集的。


该数据集中的一些变量包括:


  • 日期 - 观察日期。
  • AveragePrice - 单个鳄梨的平均价格。
  • 总体积 - 售出的鳄梨总数。
  • PLU(价格查询)代码 - 用于识别特定类型鳄梨的代码。
  • 类型 - 传统或有机
  • 地区 - 观测的城市或地区。


食品行业的企业也可以使用它来制定有关购买和销售鳄梨的战略决策。

11. 2009 - 2019 年亚马逊畅销书 50 强

这个 Excel 数据集是与 2009 年至 2019 年之间每年亚马逊上最畅销的 50 本书相关的数据集合。


数据集包括以下变量:


  • 名称 - 书名。
  • 作者 - 图书作者的姓名。
  • 用户评分——亚马逊用户对图书的平均评分。
  • 评论 - 该书在亚马逊上收到的评论总数。
  • 价格 - 本书的美元价格。
  • 年份 - 图书出版的年份。
  • 流派 - 书籍的流派。


Amazon Top 50 Bestselling Books 可以用来探索亚马逊上十年来图书销售的趋势,对数据分析初学者很有用。


12. 世界杯

FIFA 世界杯数据集是与每四年举行一次的 FIFA 世界杯相关的数据集合。它包含从 1930 年到 2014 年每届世界杯比赛的信息。


该数据集中的一些变量包括:


  • 年 - 比赛的年份。
  • 国家 - 比赛的主办国。
  • 获胜者 - 赢得比赛的球队。
  • 亚军 - 获得亚军的球队。
  • 第三 - 获得第三名的队伍。
  • 第四 - 获得第四名的队伍。
  • GoalsScored - 锦标赛中的总进球数。
  • QualifiedTeams - 有资格参加锦标赛的球队总数。
  • 出勤率——参加比赛的观众总数。


该数据集可用于分析世界杯随时间变化的趋势,例如参赛球队数量或进球数的变化。

13. 纽约市 Airbnb 开放数据

这个 Excel 数据集包含有关纽约市 Airbnb 房源和指标的公共信息。 2019 年纽约市 Airbnb 开放数据包括纽约市约 50,000 个 Airbnb 房源的信息,由纽约市政府向公众开放,以提高透明度和了解租金对城市的影响。


数据集中的一些变量包括:


  • Id - 每个爱彼迎房源的唯一标识符。
  • 名称 - Airbnb 房源的名称。
  • Host_id - Airbnb 房东的唯一标识符。
  • Host_name - Airbnb 房东的名字。
  • Neighbourhood_group - Airbnb 房源所在的行政区。
  • Neighborhood - Airbnb 房源所在的社区。
  • 纬度 - Airbnb 列表的纬度。
  • 经度 - Airbnb 房源的经度。
  • Room_type - 可供出租的房间类型(例如,私人房间、整个家庭/公寓、共享房间)。
  • 价格 - 出租 Airbnb 房源的每晚价格。

14. 世界幸福报告

该数据集包含 150 多个国家的幸福水平信息,例如影响幸福的经济、社会和健康因素。它对数据分析初学者练习数据探索、可视化和回归分析很有用。


该数据集中的一些变量包括:


  • 国家名称 - 国家名称。
  • 年份 - 调查年份。
  • 生活阶梯 - 基于 0-10 等级的平均生活满意度分数。
  • 人均 GDP 对数 - 人均 GDP 的自然对数,根据 2017 年不变国际美元的购买力平价 (PPP) 进行调整。
  • 出生时的健康预期寿命 - 健康状况良好的预期年数,根据健康状况不佳的年数进行调整。

15. 股票价格

该数据集包括苹果、谷歌和亚马逊等多家公司的每日股价。它对于练习时间序列分析和预测未来股票价格很有用。


此数据集中的变量:


  • 日期 - 记录股票价格的日期。
  • Open - 股票的开盘价。
  • High - 股票在交易日内的最高价。
  • Low - 股票在交易日的最低价。
  • 收盘价 - 股票的收盘价。
  • Adj Close - 调整后的股票收盘价。
  • 交易量 - 当天交易的股票数量。


这些 Excel 数据集的常见练习题

超市销售

  • 商店产生的总收入是多少?
  • 哪类产品对销售额的贡献最大?
  • 过去一年的销售趋势如何?
  • 哪个地区的销售额最高,哪个地区的销售额最低?
  • 商店的平均利润率是多少?

鸢尾花

  • 数据集中每种鸢尾的分布情况如何?
  • 花瓣长度和花瓣宽度有什么关系?
  • 每种鸢尾的平均萼片长度是多少?
  • 哪种鸢尾的花瓣面积最大?
  • 每种鸢尾有多少个观测值?

泰坦尼克号

  • 乘客的存活率是多少?
  • 乘客的平均年龄是多少?
  • 男女乘客的比例是多少?
  • 哪一类乘客的存活率最高?
  • 乘客支付的车费分布情况如何?

酒质

  • pH值和酒精含量之间有什么关系?
  • 哪种类型的葡萄酒(红葡萄酒或白葡萄酒)具有更高的中值质量评级?
  • 每种葡萄酒的挥发性酸度中值是多少?
  • 数据集中每种葡萄酒的比例是多少?
  • 每种葡萄酒的柠檬酸分布情况如何?

成人人口普查收入

  • 收入超过 5 万美元的人所占比例是多少?
  • 收入超过 5 万美元的人的平均年龄是多少?
  • 年龄和受教育程度有什么关系?
  • 收入超过 5 万美元的男女比例是多少?
  • 收入超过 5 万美元的人每周工作的中位数是多少?

波士顿住房

  • 房间数量与自住房屋的中值之间有何相关性?
  • 哪个变量与自住房屋的中值相关性最高?
  • 房屋的平均年龄是多少?
  • 各镇的师生比分布情况如何?
  • 哪个城镇的自住房屋中值最高?

乳腺癌威斯康星数据集

  • 良性和恶性肿瘤的比例是多少?
  • 肿瘤半径和周长之间有什么关系?
  • 肿瘤的平均平滑度是多少?
  • 肿瘤的凹面分布是怎样的?
  • 肿瘤的中值面积是多少?

网购者购买意向

  • 进行购买的访问者的比例是多少?
  • 访问者访问的页面数量分布如何?
  • 访问者在网站上花费的平均时间是多少?
  • 跳出率和收入之间有什么关系?
  • 访问者使用的操作系统分布情况如何?

银行营销

  • 订阅定期存款的人数比例是多少?
  • 年龄和平衡之间有什么关系?
  • 客户的工作类型分布如何?
  • 通话的平均持续时间是多少?
  • 每个月拨打电话的比例是多少?

2009 年至 2019 年亚马逊畅销书 50 强

  • 这些书的平均评分是多少?
  • 这些书收到的评论数量分布是怎样的?
  • 哪本书的价格最高?
  • 书的评级和价格之间有什么关系?
  • 书籍类型的分布情况如何?

世界杯

  • 每场比赛的平均进球数是多少?
  • 以平局结束的比赛比例是多少?
  • 哪个国家获得的世界杯冠军最多?
  • 参赛选手的平均年龄是多少?
  • 每场比赛的上座率分布是怎样的?

纽约市 Airbnb 开放数据

  • 上市的平均价格是多少?
  • 房源可供选择的房型分布情况如何?
  • 哪个街区的房源最多?
  • 评论数量和listing价格之间有什么相关性?
  • 房源的取消政策分布情况如何?

世界幸福报告

  • 每个国家的幸福指数分布是怎样的?
  • 哪个国家的幸福指数最高?
  • 人均GDP和幸福指数有什么关系?
  • 影响幸福的因素分布情况如何?
  • 世界上哪个地区的平均幸福指数最高?

股票价格

  • 股票的平均每日回报率是多少?
  • 每日交易量的分布情况如何?鳄梨价格
  • 鳄梨的平均价格是多少?
  • 各地区的平均价格分布情况如何?
  • 哪个地区的平均价格最高和最低?
  • 总成交量和平均价格之间的相关性是什么?
  • 年总量分布情况如何?

最后的想法

Excel 为数据分析初学者提供了范围广泛的工具,您可以通过使用本文中列出的 Excel 数据集来提高您的技能。


您还可以创建各种类型的可视化,例如折线图、条形图、散点图、直方图和饼图来回答上述问题。


本文的主图是使用提示“Excel 数据集”通过HackerNoon 的 AI 稳定扩散模型生成的。


更多数据集列表:

  1. Tableau 数据集
  2. Power BI 数据集
  3. 凯拉斯数据集