paint-brush
4 数据转换使电子表格变得简单经过@gigasheet
630 讀數
630 讀數

4 数据转换使电子表格变得简单

经过 Gigasheet5m2023/02/20
Read on Terminal Reader

太長; 讀書

随着数据团队变得越来越复杂,大数据解决方案变得越来越复杂。在没有编码或数据库经验的情况下,许多人会发现这些技术性很强的工具不知所措。 Gigasheet 是一种无代码的大数据电子表格,可用于分析通常需要大量 IT 基础设施和数据团队的数据集。
featured image - 4 数据转换使电子表格变得简单
Gigasheet HackerNoon profile picture
0-item
1-item


近年来,开发人员创建了复杂的工具来简化大数据分析工作。流行的 Python 开源工具包括 Pandas、NumPy,当然还有面向数学的应用程序,如 Matlab 和 R,以及用于数据库和基于云的数据湖的 SQL。随着数据团队变得越来越复杂,大数据解决方案变得越来越复杂,但这让数百万兼职分析师不知所措。


我上面提到的强大工具(以及无数其他工具)允许用户执行各种数据分析操作,但这些应用程序需要高水平的技术技能和培训才能完成最基本的任务。在业务环境中,利益相关者通常不具备自己分析数据所需的技能。这些用户通常依靠中间数据团队,让他们陷入最平庸的任务中。但是,如果您没有数据团队怎么办?


难怪大数据世界的新手会挣扎。在没有编码或数据库经验的情况下,许多人会发现这些技术性很强的工具不知所措。电子表格被商业用户广泛使用,但 Excel 的最大行限制和对将完整数据集加载到机器内存的依赖阻碍了涉及大规模数据分析的项目的工作。


那么,业务分析师在处理大量数据时应该做什么呢?我听到批评者喃喃自语“如果你处理的数据超过 Excel 可以处理的数量,你应该使用数据库。”作为回应,我提醒他们,世界上知道如何使用 SQL 的人相对较少(大约 300 万),而Excel用户有 7.5 亿。


进入千兆表

我们的无代码大数据电子表格可用于分析通常需要大量 IT 基础设施和数据团队的数据集。即使在(免费)社区级别,Gigasheet 也可以轻松探索和分析大数据,以及识别趋势和异常。


在本文中,我将介绍 4 种常见的大数据转换,并向您展示任何具有基本电子表格技能的人如何使用 Gigasheet 只需点击几下即可完成这些转换。


  1. 电子表格中的大数据探索


在某些情况下,数据集可能跨越数 GB 甚至 TB。探索这些数据量需要强大的系统、高效的数据存储和检索方法以及分析数据的先进技术。常用的方法包括文件复制和拆分、数据分片和分布式计算。


但是,当您想在没有所有这些技术火力的情况下探索大数据时会发生什么?如果您甚至不确定文件包含哪些数据怎么办?如果有任何简单的方法可以在线可视化数 GB 的数据文件,那么复杂性可以从视图中隐藏起来,并且可以利用云的力量和规模。


不要害怕,Gigasheet 的众多用例之一是作为免费在线 CSV 文件查看器.数据不是 CSV 格式?不用担心 - 系统会即时转换大多数结构化数据文件。只需上传您的文件即可。



  1. 合并多个大数据文件


大型数据文件通常被分成多个部分,以便于存储、传输和处理。将大文件拆分成较小的部分还可以降低数据损坏的风险,并更容易恢复丢失的数据。然而,当需要分析数据时,拥有全面的视图非常重要,因此必须合并、附加或以其他方式组合这些部分。


可以通过流程自动化、数据集成工具或机器学习算法将来自多个来源的数据组合到一个数据集中的过程。尽管这些方法非常强大且功能强大,但对于普通企业用户而言却遥不可及。


Gigasheet 使它变得简单从 CSV 将多个文件连接在一起或 Excel 工作簿到 JSON。为此,只需将文件作为 Zip 文件上传即可。解压缩后,只需在您的库中选择两个或多个文件。然后,使用库中的合并按钮合并相同结构的文件。


例如,如果您有来自同一台服务器的 28 条每日日志,您可以使用合并功能轻松地将它们合并到一张表中。


  1. 删除重复数据

清理大数据文件中的重复项(也称为重复数据删除)可能很棘手,尤其是当您想要跨多个字段检查重复项时。许多用户都熟悉以下技术基于两列删除excel中的重复行,但很少有人可以用 SQL 或 Python 解决这个任务。


在 Gigasheet 中基于多个值删除重复项很容易,并且与流行的电子表格类似。与典型的电子表格不同,Gigasheet 可扩展到数十亿条记录。


将数据加载到 Gigasheet 后,您会发现各种数据清理工具,包括删除重复项功能。运行删除重复项时只需选择多个列,云应用程序将处理其余部分。


  1. 从 JSON 中提取结构化数据


JSON(JavaScript 对象表示法)是一种流行的数据格式,用于在系统、应用程序和服务之间交换数据。它允许以结构化和高效的方式存储和查询数据。这就是为什么大多数编程语言都支持读写 JSON 数据,并且许多 API 使用 JSON 数据的原因。


但是,如果电子表格是您的首选分析工具,那么使用 JSON 记录分析大型数据集可能会很棘手。您当然可以在工具中打开中等大小的 JSON 文件,例如记事本++ ,但是如果您正在使用大小为数 GB 的高度嵌套的 JSON 结构,您将需要使用数据库……直到现在。


Gigasheet 可以即时转换或“扁平化”巨大的 JSON 文件,并且可以轻松地将它们精简、导出为 CSV,并在典型的电子表格软件中打开。 Gigasheet 接受两种可能的 JSON 文件结构:作为 JSON 对象的整个文件,或每行一个对象的 JSON。在后者的情况下,每个 JSON 对象变成一行。


Gigasheet 通过为各种嵌套和子嵌套对象的每个值创建一列来处理每个 JSON 文件的独特结构。这导致重复键数据的表格表示。公共字段的值在同一列中跨行表示,而唯一字段在其自己的列中显示值。这很可能是将 JSON 转换为 CSV 的最简单方法。


总结一下

众所周知,大数据分析是现代企业的重要组成部分。我希望本文已经介绍了一些最常用的解决方案和技术,用于使用免费的无代码替代方案探索、组合和分析大型数据集。