数据科学与早期的 (KDD) 和 会议相距甚远。 1980-90 年代处理数据库的软件工程师 。与此同时,一些计算机科学家在小型研究实验室中进行 实验。大数据与智能算法 碰撞,成就了“ ”。这将我们带到了十年后的 2022 年,即大流行后的 2022 年,我们提出了一个问题:“ ”。 数据库知识发现 超大型数据库 (VLDB) 在 2000 年代演变为专业的数据库工程师 机器学习和人工智能 在2010年代寒武纪大爆发的 数据科学家:21世纪最性感的工作 数据科学家仍然是 21 世纪最性感的工作吗? 你为什么写这篇文章? 恕我直言,本文是与 2022 年 Noonies 奖一起撰写的。 HackerNoon 的 2002 Noonie 奖旨在表彰技术作家分享他们对所有技术事物的最佳和最聪明的见解。 正式介绍: 大家好,我是丽玲。白天,我是亚马逊的一名应用科学家,下班后,我编写开源代码并撰写有关自然语言处理的技术文章,有时还会撰写有关游戏流行文化的文章。 很高兴和荣幸被提名 如果您喜欢我分享的 NLP 或机器翻译内容,请帮助粉碎 : 为自然语言处理 (NLP) 类别的 Hackernoon 年度贡献者, https 上的投票按钮 //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing 为了庆祝提名,我以“问我任何问题”的问答形式写这篇文章。 作为一名技术作家,我喜欢分享机器学习中的新兴技术,并且我对语言和翻译相关技术特别感兴趣。为了庆祝提名,我以“问我任何问题”的问答形式写这篇文章。详细了解我对“ ”在以下部分的科技行业中。 我是怎样的科学家? 回到“21世纪最性感的工作” 如今,“ ”的职位描述有多种形式,大致分为以下几类: 数据科学家 数据科学家 研究科学家 应用科学家 数据工程师 研究工程师 机器学习 (ML) 工程师 如果你问任何人不同职位的角色和职责之间的区别,你很可能最终会得到一个模糊的界限来描述每个职位。 如果你问任何人不同职位的角色和职责之间的区别,你很可能最终会得到一个模糊的界限来描述每个职位。实际上,它通常是一个模糊重叠的工作范围,根据公司和团队的角色定义而有所不同。主要区别通常出现在“科学家”和“工程师”角色之间,科学家通常更关注事物的数据和模型质量方面,而工程师更关注模型完整性和服务可靠性。 问:什么数据或模型质量? 这通常是“ ”的责任。在行业中,这特定于团队支持和/或开发的不同任务和应用程序。它类似于学术研究人员构建机器学习模型,但最终模型是否可用的实用性通常胜过击败行业最先进成果的需要。 科学家 数据质量任务通常涉及: 您可以使用哪些开源数据来训练/改进模型? 谁拥有可用于训练/改进模型的内部数据源? 如何提取、转换、存储和加载数据以适应模型? 如何提高数据的质量和规模? 模型质量任务通常涉及: 找到用于解决任务的正确算法或网络架构 定义/完善用于评估任务/应用程序的评估框架 基于定义的评估指标/框架提高模型性能 优化算法的速度和性能权衡,使模型可用于生产 问:什么是模型完整性和服务可靠性? 这通常是“ ”的责任。可靠性对于当今任何现代机器学习应用程序都至关重要。重要的是要确保科学家为为客户/用户生产最佳模型所做的碳排放努力在生产中产生预期的性能。 工程师 科学家的“ ”的说法在行业中是不可接受的,工程师们帮助实现了“ ”的梦想成真。 它可以在我的笔记本电脑上工作 它在任何地方都可以工作 模型完整性任务通常涉及: 构建和维护框架以自动化模型训练和部署 确保在实验项目中所做的功能/改进在生产模型中可用 逐步改进以自动化实验设置,以减少/消除将科学家模型投入生产的手动步骤。 服务可靠性任务通常涉及: 设置警报并监控用户的应用程序使用情况以及机器学习模型是否/何时失败/中断 指定和限制用户访问模型以遵守内部/国家/地区法规 让越来越多的用户和负载可以访问该服务 在现代,有时这些工程职责被称为机器学习操作 (MLOps),Chip Huyen 有一篇 。 很好的博文,为有抱负的 ML/数据/研究工程师提供了 MLOps 的概述 关于机器学习、数据、应用、研究科学家/工程师所做的事情还有许多其他定义,但以上来自我个人的行业经验。 问:我应该选择科学家还是工程师? 这取决于!正如前面所讨论的,它因公司而异,每个团队都应该在工作申请过程中向招聘经理询问预期的职责。 一个好的科学家应该能够完成一些工程任务。反之亦然,一个好的工程师应该能够构建一些机器学习模型。 就个人而言,作为一名科学家,我给有抱负的/新科学家的建议是: 了解一些后端/前端工程有助于 知道什么是可能的,什么是容易的,什么是工程师的难点 向工程师学习(码头工人、数据库、云、应用程序设计/开发) 让工程师了解您的工作 最后一点,我总是试图提醒自己, P/S:工程师可能比科学家训练出更好的模型。 问:让我们谈谈实际,Data、Research 或 Applied Scientist 之间有区别吗? 就角色和责任而言,它们是相似的,但实际上,有些公司可能在不同科学家职位之间有明确的界限,因此,如果可以分享特定于特定领域的“ ”,请始终作为人力资源 (HR) 人员或招聘经理。您申请的职位, 。 角色指南 尤其重要的是了解您加入公司和团队后对您的角色的期望 问:是的,这对技术、职业来说都是好事,请告诉我更多关于数据、研究或应用科学家的钱(实际上是 $$$ 的差异)! 在大多数情况下,我个人是一个“ ”,但说到“面团”, 并询问公司的朋友/前辈是您了解公司更多信息的最佳选择以及他们的赔偿。 实用主义者 https://www.levels.fyi/ 我个人的看法: “不要为了钱”被高估了。为热爱而做。我喜欢看数字和语言数据,因此也喜欢看 NLP。但是请记住要为此获得足够的报酬=) 从职业讨论开始,现在是技术部分! 我已经讨论了机器学习领域的科学家和工程师之间的区别,现在我将尝试回答一个几乎所有科学家都会提出的紧迫问题: 问:我有问题 X,用什么工具/方法 Y 来解决? 根据“ ”指南,这通常是 StackOverflow 问题中最糟糕的形式,但我认为这是社区应该尽可能尝试回答的问题。 如何提出一个好问题 我个人的看法: 这些实际问题没有“坏”问题或“需要更多关注”。但它确实有时会不可避免地吸引恶意产品/技术广告。 这是我作为“ ”回答 X 问题的 10 步方法,Y 方法,…… 科学家 文献综述 你读的越多,你手头的工具就越多 但是限制你的时间以避免兔子洞,也许可以尝试“ ” =) Paper-Blitzing 以及其中的内容(噪音、怪癖等) 了解可用的数据集 找出任务 X 通常评估的评估指标 ,阅读那篇论文 跟踪该任务最古老的相关引用 ,将其用作您的基线 找到该任务的最高引用论文 只要有可能,就在引用率最高的论文和最新最闪亮的论文中寻找数据集 (它可能不是任务的标准评估指标) 在工业上定义任务的成功标准 尝试复制或重新实现基线 。你的工程师可以生产它吗? 与工程师交流您的模型/库 询问业务/项目利益相关者是否足够 基线是否符合成功标准? 构建它,测试它,破坏它,重复! 问:等一下,这是否意味着我没有可以学习解决任务 X 的“一个真正的算法/工具 Y”? 是的,没有。 从个人经验来看,进入客户手中的工具/模型通常在很大程度上取决于上述方法的第 6 步到第 9 步。 问:机器学习和 NLP 的下一步是什么(你个人对此感到兴奋)? 目前,我正在利用空闲时间学习 🤗,而不仅仅是了解如何使用库的不同组件,更重要的是了解 在机器学习社区。 Huggingface 哪些功能使它成功,以及它获得牵引力的 X 因素是什么 如果我有更多的时间,我接下来要投入时间的是量子机器学习 =) https://developer.nvidia.com/cuquantum-sdk https://www.nature.com/articles/s41467-022-32550-3 https://github.com/XanaduAI/pennylane https://medium.com/xanaduai/training-quantum-neural-networks-with-pennylane-pytorch-and-tensorflow-c669108118cc 这么久,谢谢你的鱼! 我希望上面的 Qs 和 As 能给你一些关于“ ”的见解。如果您还有更多亟待解决的问题,请随时在帖子下方留言。 我是什么样的科学家 最后,我要非常感谢 HackerNoon 社区、工作人员和赞助商对 Noonie 奖的提名,如果你喜欢这篇文章,请帮助粉碎 https://www.noonies.tech/2022/programming/2022- 上的投票按钮 hackernoon 年度自然语言处理贡献者