Excel 是数据分析不可或缺的工具,使用正确的数据集和技术,初学者可以学习发现见解并做出明智的决策。其直观的界面和强大的功能允许用户执行广泛的过程,如数据操作、数据可视化和统计分析。
Excel 数据集是在 Excel 电子表格中存储和组织的数据集合,Excel 电子表格是一种常用软件,使用户能够以结构化格式创建、操作和分析数据。这些数据集有两种主要格式:Excel(.xlsx) 和逗号分隔值 (CSV)。 Excel 格式为组织和分析复杂数据提供了更高级的功能,包括使用公式和可视化,而另一方面,CSV 提供了一种更简单的格式,可与广泛的软件应用程序兼容,使其更易于共享不同程序之间的数据。
在本文中,我们为数据分析初学者编制了一份包含 15 个 Excel 数据集的列表。通过这些涵盖财务分析、市场分析和时间序列分析等主题的 Excel 数据集,初学者可以练习数据清理、数据透视表和图表等数据分析技术,同时深入了解真实场景。
Superstore Sales 数据为一家虚构的零售公司提供销售数据,包括有关产品、订单和客户的信息。它通常用于练习数据分析。
此 Excel 数据集包括以下变量:
该数据集包括 150 朵鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值,这些鸢尾花属于 3 个不同的物种:setosa、versicolor 和 virginica。鸢尾花数据集有 150 行和 5 列,存储为一个数据框,其中一列代表每朵花的种类。
其变量的描述包括:
Iris 数据集在 Excel 中的一个用例是分析鸢尾花不同特征之间的关系,并根据特征值对花种进行分类。这可以使用相关分析、推论统计和预测建模等技术来完成。
您还可以通过单击在 Kaggle 上下载此 Excel 数据集
这个流行的开源数据集提供了 1912 年 4 月 15 日泰坦尼克号沉没时船上乘客的信息。它可供对数据清理和预处理、描述性统计、数据可视化和预测建模感兴趣的数据分析初学者使用。
数据集中包含的一些变量:
葡萄酒质量数据集包含有关红葡萄酒和白葡萄酒样品的信息。该数据集旨在根据 pH 值、密度、酒精含量和柠檬酸含量等化学特性对葡萄酒的质量进行分类。
此 Excel 数据集中包含的常用变量:
这个 Excel 数据集是关于居住在美国的个人的信息集合,从 1994 年人口普查数据库中提取。它包含每个人的各种人口统计、社会和经济属性。
此数据集中包含的一些属性:
年龄
工人阶级 - 私人、Self-emp-not-inc、Self-emp-inc、Federal-gov、Local-gov、State-gov、Without-pay、Never worked。
fnlwgt
教育 - 学士、部分大学、11 年级、HS-grad、Prof-school、Assoc-acdm、Assoc-voc、9 年级、7-8 年级、12 年级、硕士、1-4 年级、10 年级、博士学位、5-6 年级、学前班。
教育编号
婚姻状况 - 已婚公民配偶、离婚、未婚、分居、丧偶、已婚配偶缺席、已婚 AF 配偶。
职业 - 技术支持,工艺维修,其他服务,销售,执行管理,专业教授,处理人员 - 清洁工,机器操作检查,行政文员,农业 - 渔业,运输 - 移动,私人住宅 -服务,保护服务,武装部队。
关系 - 妻子、独生子女、丈夫、非家庭成员、其他亲属、未婚。
种族 - 白人、亚洲太平洋岛民、美洲印第安人爱斯基摩人、其他人、黑人。
性别 - 男性或女性。
“收入”属性是目标变量,数据集对数据分析初学者非常有用。
波士顿住房数据集包含马萨诸塞州波士顿地区的住房信息。它有大约 506 行和 14 列数据。
数据集中的一些变量包括:
该数据集可用于数据分析,分析房价的各种特征与房地产市场之间的关系,进行数据分析并产生洞察力。
此 Excel 数据集包含有关乳腺癌肿瘤的信息,最初由 William H. Wolberg 博士创建。创建该数据集是为了帮助研究人员和机器学习从业者将肿瘤分类为恶性(癌性)或良性(非癌性)。
该数据集中包含的一些变量:
在线购物者购买意向数据集是与在线购物背景下的购买模式和消费者行为相关的数据集合。它是通过对在线购物者进行调查并从他们的回答中收集数据而创建的。
该数据集中的一些变量包括:
此 Excel 数据集用于与电子商务和在线营销相关的研究和分析。它可以帮助企业了解驱动客户行为的因素,对数据分析初学者也很有用。
这个流行的数据集用于研究葡萄牙银行机构的营销活动。它包含有关银行营销活动的信息,以及客户人口统计和经济指标。
该数据集中包含的一些变量:
鳄梨价格数据集包含与美国鳄梨价格相关的数据。数据是从哈斯鳄梨委员会和美国农业部 (USDA) 等各种来源收集的。
该数据集中的一些变量包括:
食品行业的企业也可以使用它来制定有关购买和销售鳄梨的战略决策。
这个 Excel 数据集是与 2009 年至 2019 年之间每年亚马逊上最畅销的 50 本书相关的数据集合。
数据集包括以下变量:
Amazon Top 50 Bestselling Books 可以用来探索亚马逊上十年来图书销售的趋势,对数据分析初学者很有用。
FIFA 世界杯数据集是与每四年举行一次的 FIFA 世界杯相关的数据集合。它包含从 1930 年到 2014 年每届世界杯比赛的信息。
该数据集中的一些变量包括:
该数据集可用于分析世界杯随时间变化的趋势,例如参赛球队数量或进球数的变化。
这个 Excel 数据集包含有关纽约市 Airbnb 房源和指标的公共信息。 2019 年纽约市 Airbnb 开放数据包括纽约市约 50,000 个 Airbnb 房源的信息,由纽约市政府向公众开放,以提高透明度和了解租金对城市的影响。
数据集中的一些变量包括:
该数据集包含 150 多个国家的幸福水平信息,例如影响幸福的经济、社会和健康因素。它对数据分析初学者练习数据探索、可视化和回归分析很有用。
该数据集中的一些变量包括:
该数据集包括苹果、谷歌和亚马逊等多家公司的每日股价。它对于练习时间序列分析和预测未来股票价格很有用。
此数据集中的变量:
Excel 为数据分析初学者提供了范围广泛的工具,您可以通过使用本文中列出的 Excel 数据集来提高您的技能。
您还可以创建各种类型的可视化,例如折线图、条形图、散点图、直方图和饼图来回答上述问题。
本文的主图是使用提示“Excel 数据集”通过HackerNoon 的 AI 稳定扩散模型生成的。
更多数据集列表: