paint-brush
为什么许多数据科学工作实际上是数据工程经过@docligot
1,474 讀數
1,474 讀數

为什么许多数据科学工作实际上是数据工程

经过 Dominic Ligot4m2024/11/04
Read on Terminal Reader

太長; 讀書

大多数数据科学职位描述实际上是针对数据工程师的。
featured image - 为什么许多数据科学工作实际上是数据工程
Dominic Ligot HackerNoon profile picture
0-item

如今,每家公司似乎都渴望招聘“数据科学家”一职,并承诺提供使用机器学习算法、预测模型和深度学习框架的激动人心的机会。然而,对于许多进入这些职位的专业人士来说,现实并不完全符合他们的吸引力。他们没有一头扎进人工智能或对复杂数据集进行建模,而是发现自己深陷数据提取、清理和准备之中。欢迎来到数据工程的世界——许多人没有意识到自己已经进入了这个领域。


这种现象源于公司对自身真正需求的根本误解。他们发布招聘“数据科学家”的招聘启事,而数据科学家的主要工作是清理数据并确保有基础设施来处理数据——典型的数据工程任务。结果是,被聘为数据科学家的专业人士最终要做他们意想不到的繁重工作:整理杂乱的数据,在平台之间移动数据,并为分析做准备。对于那些原本打算花时间构建机器学习模型而不是编写 SQL 查询和设置管道的人来说,他们不可避免地会感到失望。


对于有抱负的数据工程师来说,这是一个隐藏的机会。虽然就业市场上有很多公司在寻找数据科学家,但其中许多公司对数据工程师的需求远超他们的想象。这两个领域需要重叠的技能,特别是在早期阶段——编程、数据库管理和一些基本的统计知识。然而,任务和职业道路很快就出现了分歧。数据科学家专注于获得见解和做出预测,而数据工程师则确保数据生态系统的稳健性和可靠性。精明的专业人士可以从数据科学职位开始,然后转向数据工程师职业,只需加紧解决别人认为低于他们的任务即可。


数据科学家,尤其是那些具有高等学术背景的数据科学家,通常认为数据清理和准备工作很乏味。对他们来说,这是工作中“无聊”的一面——繁重的工作妨碍了更有吸引力的任务,例如建立预测模型或应用尖端算法。然而,如果没有结构良好的数据,这些算法就毫无用处。数据工程师非常了解这一点,并接受了构建数据科学家所依赖的框架的挑战。从自动提取和转换数据到构建提供干净、组织良好的数据集的管道,这些任务是数据工程的核心。


虽然一些数据科学家很难从杂乱的数据集中提取出有意义的信息,但数据工程师正忙于构建可扩展的系统,以节省时间和挫折感。有抱负的数据工程师无需与 CSV 文件搏斗,也不必抱怨 SQL,而是利用这些工具来发挥自己的优势。他们简化流程,自动化数据准备任务,并实施强大的管道,以允许实时或定期更新数据。他们不仅仅是移动数据;他们正在构建数据生态系统的骨干。当数据科学家完成手动准备数据集时,数据工程师已经实现了流程自动化,消除了重复性工作,并腾出时间来完成更具战略性的任务。


职位名称和工作职能之间的脱节可能会在团队内部造成摩擦,一些数据科学家抱怨他们的工作中缺乏“真正的”数据科学工作。但对于数据工程师来说,这正是他们蓬勃发展的地方。当他们的同行争论哪种机器学习框架更优越时,数据工程师正忙于实施生产级解决方案,超越临时分析,创建可反复提供价值的系统。他们是数据世界的无名英雄,默默地确保数据无缝流动、高效产生洞察力以及组织顺利运行。


此外,数据工程师具有独特的优势,可以弥合数据科学家与其他业务部门之间的差距。一旦数据准备的“硬部分”完成,他们就可以为非技术利益相关者创建可访问、用户友好的应用程序。这些可能是仪表板、可视化工具或基于 Web 的平台,可在整个组织内实现数据洞察的民主化。当数据科学家仍在完善他们的 Python 脚本时,数据工程师已经构建了一些可扩展、可持续且可用的东西。


最终,这种动态揭示了一个更深层次的事实:许多公司并不像他们想象的那样迫切需要数据科学家。他们真正需要的是能够确保数据结构化、干净且可访问的数据工程师。数据科学家产生的见解、预测和模型的好坏取决于底层数据基础设施。因此,尽管有些人可能会继续争论谁有资格成为“真正的”数据科学家,但数据工程师知道,问题不在于头衔,而在于完成工作。


如果你是一名有抱负的数据工程师,这条路可能是你的黄金机会。通过进入这些被错误分类的数据科学角色,你可以悄悄地建立自己的职业生涯,解决别人不想触及的问题。你可以自动化工作流程,简化流程,并确保组织的数据基础设施稳固且可扩展。当你的同事专注于调整他们的模型时,你将构建为公司带来真正价值的系统,你很可能会被忽视——直到组织清楚地知道你所做的工作有多依赖你。


归根结底,数据工程师是让数据科学成为可能的人。对于那些愿意接受挑战的人来说,回报可能是巨大的——不仅是在职业发展方面,而且在认知方面,你是默默地让数据驱动的机器运转的人。


关于我:25 年 IT 资深人士,集数据、AI、风险管理、战略和教育于一体。4 次全球黑客马拉松冠军,数据倡导者的社会影响力。目前致力于启动菲律宾的 AI 劳动力。在此处了解有关我的更多信息:https: //docligot.com