正如常见的快速发展的技术一样,AI激发了巨大的 , 和 其中一些是值得的, 从隐形硬件初创公司到金融科技巨头到公共机构,团队正在热烈地致力于其人工智能战略。 福莫 福德 费德 其中一些不是 “我们如何使用人工智能和机器学习来提高我们所做的事情?” “我们如何使用人工智能和机器学习来提高我们所做的事情?” 更常见的是,企业是 准备好 AI. 也许他们雇佣了他们的 少于恒星的结果,或者也许 但最常见的场景是,他们还没有建立基础设施来实施(并收获)最基本的文化。 算法和操作,更少 . not 第一位数据科学家 数据文学 数据科学 机器学习 作为一个数据科学 / AI 顾问,我不得不无数次传达这个信息,特别是在过去的两年里。 在你自己领域的所有兴奋中,很难成为一个潮湿的毯子,特别是如果你分享了这种兴奋,你如何告诉公司他们没有听起来(或成为)精英 - 一个自我指定的门卫? 同意 以下是最响应的解释: Think of AI as the top of a 需求金字塔 . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). 需求金字塔 基本需求:你能数吗? 在金字塔的底部,我们有 您需要哪些数据,还有什么可用呢?如果是面向用户的产品,您是否会记录所有相关的用户交互?如果是传感器,会通过哪些数据以及如何?记录尚未仪器化的交互是多么容易?毕竟,正确的 这是最近机器学习的进步使之成为可能的。 data collection 数据 接下来,该如何做 通过系统? 你有可靠的流 / ETL ? 你存储它在哪里,它有多容易访问和分析? 它一直在说(大约十年来),可靠的数据流是做任何事情的关键。 data flow 杰伊·克雷普斯 [另一方面:我正在寻找一个准确的引用,并在他的“ 我爱日志 然后我注意到,一个段落以上,他正在做这个准确的马斯洛的需求等级比较,一个“值得注意的显而易见”被扔进去,以良好的尺度(谢谢杰伊!)谈到相关的工作,我后来也跑了(Daniel Tunkelang)到希拉里梅森和克里斯维金斯的优秀 邮件 数据科学家在做什么 几天前,肖恩·泰勒 揭秘 他自己的数据科学需求金字塔(讽刺的是被称为数据科学的无关三角形),这当然是完全不同的。 我爱日志 邮件 揭秘 只有当数据是可访问的,你可以 这是当你发现你错过了一堆数据,你的传感器不可靠,版本更改意味着你的事件被抛弃,你误解了旗帜 - 你回去确保金字塔的基础是坚实的。 explore and transform 当您能够可靠地探索和清理数据时,您可以开始构建传统上被认为是BI或 :定义要跟踪的指标,它们的季节性和对各种因素的敏感性. 也许做一些粗糙的用户细分,看看是否有任何东西脱颖而出。 在这个阶段,你也知道你想预测或学习什么,你可以开始准备你的机器学习模型。 通过自动生成标签(客户是谁?)或与人类在循环中。 analytics features training data 这也是当你发现你的最令人兴奋和引人入胜的时候。 但这也是另一篇中世纪文章的主题。 data stories 可以算了,现在怎么办? 我们有培训数据 - 当然,现在我们可以做机器学习?也许,如果你试图内部预测churn;不,如果结果将是面向客户的。 因此,我们可以逐步部署,以避免灾害,并在影响所有人之前对变化的影响进行粗略估计。 在场(对于推荐系统来说,这将是“最受欢迎的”,然后是“对您的用户群体最受欢迎的” - 非常令人烦恼但有效的“个性化之前的定型”)。 experimentation simple baseline 简单的 heuristics 令人惊讶地难以击败,它们将允许您从端到端对系统进行调试,而无需神秘的 ML 黑匣子中间有超级参数,这也是为什么我最喜欢的数据科学算法是分裂的原因。 在这一点上,你可以部署一个非常简单的ML算法(如后勤回归或,是的,分裂),然后考虑新的信号和功能,可能会影响你的结果。 天气和人口普查数据是我的好东西。 而且不 - 尽管它是强大的,深度学习不会自动为你做这个事情。 带上AI吧! 你做到了,你被仪器化了,你的ETL正在爆炸,你的数据正在组织和清理,你有仪表板,标签和好功能,你正在测量正确的东西,你可以每天进行实验,你有一个基线算法,从端到端被调试,并在生产中运行,你已经改变了十几次,你已经准备好了。前进并尝试所有最新的和最伟大的东西 - 从自己滚动到使用专门从事机器学习的公司。你可能会在生产中得到一些重大改进,或者你可能没有。最糟糕的情况下,你学习新方法,与他们开发意见和实践经验,并告诉你的客户和你的AI努力,而不会觉得自己像一个骗子。最好的情况下,你对你的客户,你的公司 - 一个真正的机器学习成功故事。 等一下,什么是MVPs,敏捷, lean和所有这些? 就像在构建传统的MVP(最低可行的产品)时一样,你从一个小、垂直的部位开始,使其从一端到一端工作。你可以构建它的金字塔,然后在水平上生长它。例如,在Jawbone,我们从睡眠数据开始,并构建它的金字塔:仪器,ETL,清洁和组织,标签捕捉和定义,指标(人们每晚睡眠的时间的平均值是多少?睡眠时间是多少?睡眠时间是多少?),跨段分析。 机器学习驱动的数据产品(自动睡眠检测)。 然后是食物,天气,锻炼,社交网络和通信 - 一个接一个,我们没有建立一个全面的基础设施,而没有把它从头到尾工作。 The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. 数据故事 扩展 提出正确的问题并构建正确的产品 这只是关于你如何 不是你是否 (出于道德或务实的理由) could should 机器学习工具的承诺 ‘ ’ 等一下,那個 Amazon API 或 TensorFlow 或其他開源圖書館呢?還有那些銷售 ML 工具或自動提取洞察力和功能的公司呢? 所有这一切都很棒,而且非常有用(有些公司最终会精心定制你的整个金字塔,以便他们可以展示他们的工作,他们是英雄)。然而,在当前的AI狂欢的强烈影响下,人们试图插入数据,这些数据是脏的和充满了空白,这些数据持续了多年,而在格式和含义上变化,这还没有被理解,这是以无意义的方式构建的,并期望那些工具以神奇的方式处理它。