数据科学与早期的数据库知识发现(KDD) 和超大型数据库 (VLDB)会议相距甚远。 1980-90 年代处理数据库的软件工程师在 2000 年代演变为专业的数据库工程师。与此同时,一些计算机科学家在小型研究实验室中进行机器学习和人工智能实验。大数据与智能算法在2010年代寒武纪大爆发的碰撞,成就了“数据科学家:21世纪最性感的工作”。这将我们带到了十年后的 2022 年,即大流行后的 2022 年,我们提出了一个问题:“ 数据科学家仍然是 21 世纪最性感的工作吗? ”。
恕我直言,本文是与 2022 年 Noonies 奖一起撰写的。 HackerNoon 的 2002 Noonie 奖旨在表彰技术作家分享他们对所有技术事物的最佳和最聪明的见解。
正式介绍:
大家好,我是丽玲。白天,我是亚马逊的一名应用科学家,下班后,我编写开源代码并撰写有关自然语言处理的技术文章,有时还会撰写有关游戏流行文化的文章。
很高兴和荣幸被提名为自然语言处理 (NLP) 类别的 Hackernoon 年度贡献者,如果您喜欢我分享的 NLP 或机器翻译内容,请帮助粉碎https上的投票按钮: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
为了庆祝提名,我以“问我任何问题”的问答形式写这篇文章。
作为一名技术作家,我喜欢分享机器学习中的新兴技术,并且我对语言和翻译相关技术特别感兴趣。为了庆祝提名,我以“问我任何问题”的问答形式写这篇文章。详细了解我对“我是怎样的科学家? ”在以下部分的科技行业中。
如今,“数据科学家”的职位描述有多种形式,大致分为以下几类:
如果你问任何人不同职位的角色和职责之间的区别,你很可能最终会得到一个模糊的界限来描述每个职位。
如果你问任何人不同职位的角色和职责之间的区别,你很可能最终会得到一个模糊的界限来描述每个职位。实际上,它通常是一个模糊重叠的工作范围,根据公司和团队的角色定义而有所不同。主要区别通常出现在“科学家”和“工程师”角色之间,科学家通常更关注事物的数据和模型质量方面,而工程师更关注模型完整性和服务可靠性。
这通常是“科学家”的责任。在行业中,这特定于团队支持和/或开发的不同任务和应用程序。它类似于学术研究人员构建机器学习模型,但最终模型是否可用的实用性通常胜过击败行业最先进成果的需要。
这通常是“工程师”的责任。可靠性对于当今任何现代机器学习应用程序都至关重要。重要的是要确保科学家为为客户/用户生产最佳模型所做的碳排放努力在生产中产生预期的性能。
科学家的“它可以在我的笔记本电脑上工作”的说法在行业中是不可接受的,工程师们帮助实现了“它在任何地方都可以工作”的梦想成真。
构建和维护框架以自动化模型训练和部署
确保在实验项目中所做的功能/改进在生产模型中可用
逐步改进以自动化实验设置,以减少/消除将科学家模型投入生产的手动步骤。
在现代,有时这些工程职责被称为机器学习操作 (MLOps),Chip Huyen 有一篇很好的博文,为有抱负的 ML/数据/研究工程师提供了 MLOps 的概述。
关于机器学习、数据、应用、研究科学家/工程师所做的事情还有许多其他定义,但以上来自我个人的行业经验。
这取决于!正如前面所讨论的,它因公司而异,每个团队都应该在工作申请过程中向招聘经理询问预期的职责。
一个好的科学家应该能够完成一些工程任务。反之亦然,一个好的工程师应该能够构建一些机器学习模型。
就个人而言,作为一名科学家,我给有抱负的/新科学家的建议是:
最后一点,我总是试图提醒自己,
P/S:工程师可能比科学家训练出更好的模型。
就角色和责任而言,它们是相似的,但实际上,有些公司可能在不同科学家职位之间有明确的界限,因此,如果可以分享特定于特定领域的“角色指南”,请始终作为人力资源 (HR) 人员或招聘经理。您申请的职位,尤其重要的是了解您加入公司和团队后对您的角色的期望。
在大多数情况下,我个人是一个“实用主义者”,但说到“面团”, https://www.levels.fyi/并询问公司的朋友/前辈是您了解公司更多信息的最佳选择以及他们的赔偿。
我个人的看法:
“不要为了钱”被高估了。为热爱而做。我喜欢看数字和语言数据,因此也喜欢看 NLP。但是请记住要为此获得足够的报酬=)
我已经讨论了机器学习领域的科学家和工程师之间的区别,现在我将尝试回答一个几乎所有科学家都会提出的紧迫问题:
根据“如何提出一个好问题”指南,这通常是 StackOverflow 问题中最糟糕的形式,但我认为这是社区应该尽可能尝试回答的问题。
我个人的看法:
这些实际问题没有“坏”问题或“需要更多关注”。但它确实有时会不可避免地吸引恶意产品/技术广告。
文献综述
了解可用的数据集以及其中的内容(噪音、怪癖等)
找出任务 X 通常评估的评估指标
跟踪该任务最古老的相关引用,阅读那篇论文
找到该任务的最高引用论文,将其用作您的基线
在工业上定义任务的成功标准(它可能不是任务的标准评估指标)
尝试复制或重新实现基线
与工程师交流您的模型/库。你的工程师可以生产它吗?
基线是否符合成功标准?询问业务/项目利益相关者是否足够
构建它,测试它,破坏它,重复!
从个人经验来看,进入客户手中的工具/模型通常在很大程度上取决于上述方法的第 6 步到第 9 步。
目前,我正在利用空闲时间学习Huggingface 🤗,而不仅仅是了解如何使用库的不同组件,更重要的是了解哪些功能使它成功,以及它获得牵引力的 X 因素是什么在机器学习社区。
如果我有更多的时间,我接下来要投入时间的是量子机器学习 =)
我希望上面的 Qs 和 As 能给你一些关于“我是什么样的科学家”的见解。如果您还有更多亟待解决的问题,请随时在帖子下方留言。
最后,我要非常感谢 HackerNoon 社区、工作人员和赞助商对 Noonie 奖的提名,如果你喜欢这篇文章,请帮助粉碎https://www.noonies.tech/2022/programming/2022-上的投票按钮hackernoon 年度自然语言处理贡献者