paint-brush
日益增长的数据基础设施复杂性:成本影响和前进之路经过@pingaliscribble
598 讀數
598 讀數

日益增长的数据基础设施复杂性:成本影响和前进之路

经过 Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

如果不深入了解从传统数据库到当今存在的现代数据堆栈 (MDS) 的旅程,以及沿途的挑战、复杂性和快速变化,就不可能了解当前的数据基础设施格局。 在本文中,我们将了解 MDS 是如何产生的,以及它如何扩展具有挑战性——认知过载、陡峭的学习曲线以及它在数据团队中造成的高度倦怠。我们还研究了这如何导致工具和平台的整合、更简单的平台开发以及更专注于建立信任、与结果挂钩以及简单地消除由于工具弹幕而产生的噪音的新方法每天都被介绍。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - 日益增长的数据基础设施复杂性:成本影响和前进之路
Venkata Pingali HackerNoon profile picture


在过去的十年中,数据世界发生了巨大变化。旨在以结构化格式存储信息的传统数据库已经演变为位于不同位置的多台服务器上的大型非结构化数据仓库。不久前,我们习惯于看到由甲骨文和 IBM 等庞然大物主宰的单体系统。如果您是需要访问此类数据的分析师或业务用户——而谁不需要?——这意味着运行缓慢且难以管理的系统。

新软件栈的诞生

系统的日益复杂最终推动了对现代软件堆栈的需求,这些软件堆栈可以帮助组织运行复杂的应用程序,同时设法保持成本效益。开源运动通过显着降低将复杂应用程序(例如用于全文搜索的 Elastic Search 和用于建模的 PyTorch)放在一起的成本来帮助实现这一目标。强大的软件打包和操作提高了系统的可用性、稳定性和经济性。


现代数据堆栈(MDS) 在过去十年中受到了广泛关注,它建立在开源运动的基础上,是旨在构建企业数据堆栈的想法、工具和方法的集合。

扩展 MDS 的挑战

在 2010 年代,我们看到了 MDS 中开源工具的迅速采用。然而,发布他们的初步成功后,许多组织围绕这些举措的举措在扩展它们时遇到了挑战:


  1. 由于组织和团队必须跟上的工具、配置、方法和交互的数量而导致的认知超载是压倒性的,导致人才倦怠和高流失率
  2. 与这些技术相关的学习曲线非常陡峭。人们必须明白,这些开源工具中的大多数都是在 Netflix、Google 和 Uber 等复杂的组织中构建的,不一定适合部署规模较小的组织的需求——只是规模的一小部分。
  3. 该领域的创新步伐也意味着新技术的寿命缩短。随着更新、更好、更快、更高效的工具不断涌现,工程师们不得不快速学习和忘却。
  4. 数据科学社区是一个有几个相互冲突的观点的社区,导致人们不清楚需要采用什么方法(什么最适合他们的业务)。通常情况下,克服这一挑战的唯一方法是建造,这不仅昂贵而且耗时。
  5. 如果您一直在关注 Gartner 等炒作周期,那么得知技术投资有一个结束日期(这可能比十年前快得多),您可能不会感到惊讶。不久前被认为“热门”的 Hadoop、NoSQL 和深度学习等技术已经过了 Gartner 炒作周期的顶峰。


第 1 点和第 2 点在增加行业压力水平以及限制可用于采用和使用技术的人才方面发挥了重要作用。我们在 DevOps 领域看到了类似的趋势,开发人员人才的供应无法满足对新数字服务的需求。戴尔资本的 Tyler Jewell 一直对这个问题直言不讳——这导致了高度的倦怠,专业开发人员的平均职业生涯不到 20 年。他最近发布了一个帖子,深入探讨了以开发人员为主导的领域的复杂性,我们不禁注意到他所声称的内容与 MLOps 空间之间存在一些相似之处。​


(来源:https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


第 3 点和第 4 点突出了当今数据人员的困境——如果解决问题还不够,他们最终会花费更多时间试图弄清楚“如何”继续并解决问题,而无法充分考虑什么需要做的,或者预期的结果。

改变即将到来……

我们看到组织使用的数据工具发生了转变,这是由于人们越来越认识到他们中的许多人别无选择,只能依靠第三方供应商来满足他们的基础设施需求。这不仅是由于预算限制,还有其他限制,例如数据安全性和出处。

此外,对自动化流程的需求也在增加,使企业能够轻松地将工作负载从一个提供商迁移到另一个提供商,而不会中断运营或导致停机。我们在数据管理通常对成功至关重要的金融服务行业(例如信用评级机构)中看到了这些影响。

由于所有这些以及上面列出的挑战,社区出现了一些发展:

​​​

  1. 组织越来越强调建立对其数据的信任的必要性,从而产生了专注于数据质量和数据治理的工具。
  2. 人们越来越重视与结果相关的机器学习和数据科学计划,以及与特定业务用例明确一致的业务模型。
  3. 不断增加的成本和复杂性导致通过功能扩展、收购和集成进行整合。例如,Snowflake 正在迅速增加其合作伙伴名单,以成为一个完整的分析应用程序堆栈。
  4. 考虑到模型部署后的复杂性,我们看到了NannyML等工具的出现,这些工具通过迭代部署帮助估计模型性能、检测漂移和改进生产中的模型。我们认为这是企业关闭业务、数据和模型之间循环的一种方式。
  5. 一个名为AI 基础设施联盟的新组织应运而生,将人工智能应用程序的基本构建块整合在一起。他们一直致力于为机器学习构建一个规范堆栈,旨在消除由于引入大量声称是“最新和最伟大”的工具而产生的噪音,并帮助非科技公司快速升级.
  6. MDS 的定义正在扩展到包括数据产品、应用程序和其他元素。这使得 MDS 全栈。新产品和服务正在出现,它们根据目标用户(例如数据科学家与分析师)、技能可用性和实现结果的时间来划分空间。
  7. MDS 用户群正在扩大,包括分析团队和业务用户。这将改善用户体验、低代码界面和自动化。
  8. 最后,我们看到了诸如“后现代堆栈”之类的方法的出现,它本质上是对 MDS 和 MLOps 堆栈的解构。这些方法强调与业务的相关性以及生成特征的下游消费以产生业务价值。

​​​

这意味着什么

工具和平台的整合、更简单的平台开发以及托管服务的使用正在整个行业中发生。这是因为企业需要应对复杂性。成为这个空间的一部分是一个激动人心的时刻,我迫不及待地想看看景观在一年中如何演变。


在 Scribble Data(我共同创立的公司),我们敏锐地意识到这种演变正在发生。我们专注于一个特定的问题——高级分析和数据科学用例的特征工程。这个问题空间在重要性方面稳步增长,并以与上述观点一致的方式发展。通过正确的技术组合和解决方案重点,可以使产品价值与用例保持一致,同时为每个用例实现 5 倍的价值实现时间 (TTV)。


也在这里发布