特征图像是使用 Midjourney Diffusion 生成的,提示为“A python prevails, digital fantasy art”。 关于数据科学 数据科学是统计、编程和通信相交的地方。数据科学家提出一个问题,并通过各种复杂的机制使用数据来回答该问题。他们拥有知识和工具包,可以了解将哪些测试和方法应用于每种数据类型。他们有能力从数据中提取答案,并以一般的日常交流形式传递这些答案。 数据的范围可以从简单到极其复杂。它可以是“干净的”,也可以是“凌乱的”。有时我们有问题,但我们没有数据。数据科学家和/或分析师必须使用专门的工具将杂乱的数据整理成干净的数据。他们还可以开发' ' 设计用于在没有回答问题所需的数据时获取数据的程序。一旦获得数据并处于可用形式,就会通过 Python、RStudio 等程序和工具将其推送到统计测试和模型中。但是哪些工具是最好的呢? 刮 HackerNoon 的读者 HackerNoon 的 (2023 年 10 月 4 日至 2023 年 4 月 16 日)用于评估我们的读者对该主题的看法。 HackerNoon 社区被问及他们的主力数据科学工具是什么,给出了一些最受欢迎的选项,374 人做出了回应。结果如下图所示: 每周民意调查 超过 50% 的 HackerNoon 读者(主要来自技术社区)选择 Python 作为他们的首选数据科学工具。这并不奇怪。 是开源的,这使得所有人都可以访问🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃 [ ] Python 18% 已选择 作为他们的首选数据科学工具。 [ ] Excel 仅被 9% 的受访者选中**。** [ ] Power BI 也是一个开源工具, 只拿了9%的选票。 [ ] RStudio 最后,只有 5% 的人选择了 作为他们数据科学的首选工具 [ ] 画面 工具 为什么有这么多工具可供选择? 随着时间的推移,它变得越来越复杂,因此工具的选择自然也是如此。数据科学的流派如此之多,以至于每个人都必须自己决定哪种工具适合他们。实际上,您将同时使用多种工具。 这个领域 让我们看看投票中每个工具的一些亮点。当然,还有更多的工具在这里没有讨论😆 Excel ❌ 开源。 ✅ 以微软的方式对用户友好! ❌ 对于复杂的数据科学项目来说还不够先进。 ✅ 生成可以轻松导出的时尚图表和图形。 我们都熟悉 Excel。当然,它非常适合日常任务,例如数据操作、清理和可视化,但它并不适合更高级的项目。您可以巧妙地创建仪表板和报告,甚至可以在 Excel 中设置专门的 API。 工作室 ✅ 开源。 ❌具有显着的学习曲线。 ✅ 可以生成整洁且可自定义的图形、表格和输出。 ❌ 可以限制在一些更高级的机器学习工具中。 ✅ 专门解决基于统计的问题。 一个非常适合数据分析和数据科学的多功能开源程序是 ,现在使用闪亮的新名称 . RStudio 断定 ** \ 与 Python 类似,R 编程语言的多功能性非常广泛,允许数据科学家使用多种方法执行复杂的任务。不断开发库和包来承担程序员可以利用的专门任务。如果他们没有您正在寻找的软件包, ! “我们的使命是为数据科学、科学研究和技术交流创建开源软件。我们这样做是为了加强每个人的知识生产和消费,无论其经济手段如何。” -- 正 请自己开发一个 您可以 。如果您正在与 R 和 Python 程序员合作开展项目,请查看此内容。 将 R 和 Python 相互结合使用 电力BI ❌ 开源。 ✅ 创建漂亮的报告。 ❌ 看似简单易用,实则隐藏复杂。 ✅ 非常适合数据整理和操作。 ❌ 复杂数据科学项目的能力有限。 ✅ 可以从各种来源抓取数据。 Power BI 真的很闪耀 而不是数据科学的主力工具。它具有通过定制的编码操作(如正则表达式等)执行专门数据操作的能力。但是,如果您正在从事复杂的数据科学项目,您可能会在项目的最后阶段使用 Power BI,因为更多的演示工具。 数据可视化和报告工具 Python ✅ 开源。 ❌具有显着的学习曲线。 ✅ 可以创建整洁的图形、表格和输出。 ✅ 拥有众多数据科学库,如 TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch 等。 ✅ 是一种多用途编程语言,让您的学习成果更上一层楼。 是一种面向对象的多用途编程语言。它以易于学习和通用的编程语言而闻名。由于它的多功能性,有一个庞大的程序员社区,因此教育资源永无止境。有很多 可以使用了。 Python 数据科学图书馆 要使用 Python,您需要学习如何设置 ,并且您可能需要选择一个计算平台(例如 来执行您的工作。 虚拟环境 Jupyter Notebook) 画面 ❌开源。 ✅ 创建漂亮的仪表板。 ❌ 清洗、整理等数据预处理能力有限。 ✅ 非常适合数据分析。 ❌ 复杂数据科学项目的能力有限。 ✅ 报告和仪表板可轻松与他人共享。 是一款出色的数据分析和可视化软件,由于成本高,经常在大型团队中使用。它可以创建美观直观的演示风格仪表板,突出显示数据的各个方面。然而,它肯定不是一个主力工具,因为它更专注于报告阶段,而不是数据项目的开始和中间阶段。 画面 最后的想法 我们的民意调查显示,Python 在数据科学工具的给定选择中名列前茅。鉴于它在数据科学领域内外的多功能性,这并不奇怪。 Python 被吹捧为一种易于学习的编程语言。老实说,如果您是计算机编码的完全初学者,一开始不会“ ”,但通过练习,它最终会成为您的第二天性。 容易 请在评论中分享您的想法,并留意其他 的参与情况。 HackerNoon 民意调查