特征图像是使用 Midjourney Diffusion 生成的,提示为“A python prevails, digital fantasy art”。
数据科学是统计、编程和通信相交的地方。数据科学家提出一个问题,并通过各种复杂的机制使用数据来回答该问题。他们拥有知识和工具包,可以了解将哪些测试和方法应用于每种数据类型。他们有能力从数据中提取答案,并以一般的日常交流形式传递这些答案。
数据的范围可以从简单到极其复杂。它可以是“干净的”,也可以是“凌乱的”。有时我们有问题,但我们没有数据。数据科学家和/或分析师必须使用专门的工具将杂乱的数据整理成干净的数据。他们还可以开发'
HackerNoon 的每周民意调查(2023 年 10 月 4 日至 2023 年 4 月 16 日)用于评估我们的读者对该主题的看法。 HackerNoon 社区被问及他们的主力数据科学工具是什么,给出了一些最受欢迎的选项,374 人做出了回应。结果如下图所示:
为什么有这么多工具可供选择?
让我们看看投票中每个工具的一些亮点。当然,还有更多的工具在这里没有讨论😆
❌ 开源。
✅ 以微软的方式对用户友好!
❌ 对于复杂的数据科学项目来说还不够先进。
✅ 生成可以轻松导出的时尚图表和图形。
我们都熟悉 Excel。当然,它非常适合日常任务,例如数据操作、清理和可视化,但它并不适合更高级的项目。您可以巧妙地创建仪表板和报告,甚至可以在 Excel 中设置专门的 API。
✅ 开源。
❌具有显着的学习曲线。
✅ 可以生成整洁且可自定义的图形、表格和输出。
❌ 可以限制在一些更高级的机器学习工具中。
✅ 专门解决基于统计的问题。
一个非常适合数据分析和数据科学的多功能开源程序是
** “我们的使命是为数据科学、科学研究和技术交流创建开源软件。我们这样做是为了加强每个人的知识生产和消费,无论其经济手段如何。” -- 正\ 与 Python 类似,R 编程语言的多功能性非常广泛,允许数据科学家使用多种方法执行复杂的任务。不断开发库和包来承担程序员可以利用的专门任务。如果他们没有您正在寻找的软件包, 请自己开发一个!
您可以将 R 和 Python 相互结合使用。如果您正在与 R 和 Python 程序员合作开展项目,请查看此内容。
❌ 开源。
✅ 创建漂亮的报告。
❌ 看似简单易用,实则隐藏复杂。
✅ 非常适合数据整理和操作。
❌ 复杂数据科学项目的能力有限。
✅ 可以从各种来源抓取数据。
Power BI 真的很闪耀
✅ 开源。
❌具有显着的学习曲线。
✅ 可以创建整洁的图形、表格和输出。
✅ 拥有众多数据科学库,如 TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch 等。
✅ 是一种多用途编程语言,让您的学习成果更上一层楼。
要使用 Python,您需要学习如何设置虚拟环境,并且您可能需要选择一个计算平台(例如Jupyter Notebook)来执行您的工作。
❌开源。
✅ 创建漂亮的仪表板。
❌ 清洗、整理等数据预处理能力有限。
✅ 非常适合数据分析。
❌ 复杂数据科学项目的能力有限。
✅ 报告和仪表板可轻松与他人共享。
我们的民意调查显示,Python 在数据科学工具的给定选择中名列前茅。鉴于它在数据科学领域内外的多功能性,这并不奇怪。 Python 被吹捧为一种易于学习的编程语言。老实说,如果您是计算机编码的完全初学者,一开始不会“容易”,但通过练习,它最终会成为您的第二天性。
请在评论中分享您的想法,并留意其他HackerNoon 民意调查的参与情况。