paint-brush
Python 盛行:57% 选择 Python 作为他们的首选数据科学工具经过@jessblaq
1,128 讀數
1,128 讀數

Python 盛行:57% 选择 Python 作为他们的首选数据科学工具

经过 Jessica Blaquiere5m2023/04/19
Read on Terminal Reader

太長; 讀書

HackerNoon 社区被问及他们的主力数据科学工具是什么,给出了一些最受欢迎的选项,374 人做出了回应。超过 50% 的读者选择 Python 作为数据科学的首选工具。 RStudio 仅被 9% 的受访者选中。
featured image - Python 盛行:57% 选择 Python 作为他们的首选数据科学工具
Jessica Blaquiere HackerNoon profile picture
0-item
1-item


特征图像是使用 Midjourney Diffusion 生成的,提示为“A python prevails, digital fantasy art”。


关于数据科学

数据科学是统计、编程和通信相交的地方。数据科学家提出一个问题,并通过各种复杂的机制使用数据来回答该问题。他们拥有知识和工具包,可以了解将哪些测试和方法应用于每种数据类型。他们有能力从数据中提取答案,并以一般的日常交流形式传递这些答案。


数据的范围可以从简单到极其复杂。它可以是“干净的”,也可以是“凌乱的”。有时我们有问题,但我们没有数据。数据科学家和/或分析师必须使用专门的工具将杂乱的数据整理成干净的数据。他们还可以开发'' 设计用于在没有回答问题所需的数据时获取数据的程序。一旦获得数据并处于可用形式,就会通过 Python、RStudio 等程序和工具将其推送到统计测试和模型中。但是哪些工具是最好的呢?


HackerNoon 的读者


来源:Giphy


HackerNoon 的每周民意调查(2023 年 10 月 4 日至 2023 年 4 月 16 日)用于评估我们的读者对该主题的看法。 HackerNoon 社区被问及他们的主力数据科学工具是什么,给出了一些最受欢迎的选项,374 人做出了回应。结果如下图所示:



  • [ ]超过 50% 的 HackerNoon 读者(主要来自技术社区)选择 Python 作为他们的首选数据科学工具。这并不奇怪。 Python是开源的,这使得所有人都可以访问🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃


来源:Giphy


  • [ ] 18% 已选择Excel作为他们的首选数据科学工具。
  • [ ] Power BI仅被 9% 的受访者选中**。**
  • [ ]也是一个开源工具, RStudio只拿了9%的选票。
  • [ ]最后,只有 5% 的人选择了画面作为他们数据科学的首选工具



工具

为什么有这么多工具可供选择?这个领域随着时间的推移,它变得越来越复杂,因此工具的选择自然也是如此。数据科学的流派如此之多,以至于每个人都必须自己决定哪种工具适合他们。实际上,您将同时使用多种工具。


让我们看看投票中每个工具的一些亮点。当然,还有更多的工具在这里没有讨论😆


Excel

❌ 开源。

✅ 以微软的方式对用户友好!

❌ 对于复杂的数据科学项目来说还不够先进。

✅ 生成可以轻松导出的时尚图表和图形。


显然,除了这次民意调查!来源:Giphy


我们都熟悉 Excel。当然,它非常适合日常任务,例如数据操作、清理和可视化,但它并不适合更高级的项目。您可以巧妙地创建仪表板和报告,甚至可以在 Excel 中设置专门的 API。


工作室

✅ 开源。

❌具有显着的学习曲线。

✅ 可以生成整洁且可自定义的图形、表格和输出。

❌ 可以限制在一些更高级的机器学习工具中。

✅ 专门解决基于统计的问题。


一个非常适合数据分析和数据科学的多功能开源程序是RStudio ,现在使用闪亮的新名称断定.


** “我们的使命是为数据科学、科学研究和技术交流创建开源软件。我们这样做是为了加强每个人的知识生产和消费,无论其经济手段如何。” -- 正\ 与 Python 类似,R 编程语言的多功能性非常广泛,允许数据科学家使用多种方法执行复杂的任务。不断开发库和包来承担程序员可以利用的专门任务。如果他们没有您正在寻找的软件包, 请自己开发一个


您可以将 R 和 Python 相互结合使用。如果您正在与 R 和 Python 程序员合作开展项目,请查看此内容。


电力BI

❌ 开源。

✅ 创建漂亮的报告。

❌ 看似简单易用,实则隐藏复杂。

✅ 非常适合数据整理和操作。

❌ 复杂数据科学项目的能力有限。

✅ 可以从各种来源抓取数据。


Power BI 真的很闪耀数据可视化和报告工具而不是数据科学的主力工具。它具有通过定制的编码操作(如正则表达式等)执行专门数据操作的能力。但是,如果您正在从事复杂的数据科学项目,您可能会在项目的最后阶段使用 Power BI,因为更多的演示工具。


Python

✅ 开源。

❌具有显着的学习曲线。

✅ 可以创建整洁的图形、表格和输出。

✅ 拥有众多数据科学库,如 TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch 等。

✅ 是一种多用途编程语言,让您的学习成果更上一层楼。


Python是一种面向对象的多用途编程语言。它以易于学习和通用的编程语言而闻名。由于它的多功能性,有一个庞大的程序员社区,因此教育资源永无止境。有很多数据科学图书馆可以使用了。


要使用 Python,您需要学习如何设置虚拟环境,并且您可能需要选择一个计算平台(例如Jupyter Notebook)来执行您的工作。


画面

❌开源。

✅ 创建漂亮的仪表板。

❌ 清洗、整理等数据预处理能力有限。

✅ 非常适合数据分析。

❌ 复杂数据科学项目的能力有限。

✅ 报告和仪表板可轻松与他人共享。


画面是一款出色的数据分析和可视化软件,由于成本高,经常在大型团队中使用。它可以创建美观直观的演示风格仪表板,突出显示数据的各个方面。然而,它肯定不是一个主力工具,因为它更专注于报告阶段,而不是数据项目的开始和中间阶段。



最后的想法

我们的民意调查显示,Python 在数据科学工具的给定选择中名列前茅。鉴于它在数据科学领域内外的多功能性,这并不奇怪。 Python 被吹捧为一种易于学习的编程语言。老实说,如果您是计算机编码的完全初学者,一开始不会“容易”,但通过练习,它最终会成为您的第二天性。



请在评论中分享您的想法,并留意其他HackerNoon 民意调查的参与情况。