在过去的十年中,数据世界发生了巨大变化。旨在以结构化格式存储信息的传统数据库已经演变为位于不同位置的多台服务器上的大型非结构化数据仓库。不久前,我们习惯于看到由甲骨文和 IBM 等庞然大物主宰的单体系统。如果您是需要访问此类数据的分析师或业务用户——而谁不需要?——这意味着运行缓慢且难以管理的系统。
系统的日益复杂最终推动了对现代软件堆栈的需求,这些软件堆栈可以帮助组织运行复杂的应用程序,同时设法保持成本效益。开源运动通过显着降低将复杂应用程序(例如用于全文搜索的 Elastic Search 和用于建模的 PyTorch)放在一起的成本来帮助实现这一目标。强大的软件打包和操作提高了系统的可用性、稳定性和经济性。
现代数据堆栈(MDS) 在过去十年中受到了广泛关注,它建立在开源运动的基础上,是旨在构建企业数据堆栈的想法、工具和方法的集合。
在 2010 年代,我们看到了 MDS 中开源工具的迅速采用。然而,发布他们的初步成功后,许多组织围绕这些举措的举措在扩展它们时遇到了挑战:
第 1 点和第 2 点在增加行业压力水平以及限制可用于采用和使用技术的人才方面发挥了重要作用。我们在 DevOps 领域看到了类似的趋势,开发人员人才的供应无法满足对新数字服务的需求。戴尔资本的 Tyler Jewell 一直对这个问题直言不讳——这导致了高度的倦怠,专业开发人员的平均职业生涯不到 20 年。他最近发布了一个帖子,深入探讨了以开发人员为主导的领域的复杂性,我们不禁注意到他所声称的内容与 MLOps 空间之间存在一些相似之处。
第 3 点和第 4 点突出了当今数据人员的困境——如果解决问题还不够,他们最终会花费更多时间试图弄清楚“如何”继续并解决问题,而无法充分考虑什么需要做的,或者预期的结果。
我们看到组织使用的数据工具发生了转变,这是由于人们越来越认识到他们中的许多人别无选择,只能依靠第三方供应商来满足他们的基础设施需求。这不仅是由于预算限制,还有其他限制,例如数据安全性和出处。
此外,对自动化流程的需求也在增加,使企业能够轻松地将工作负载从一个提供商迁移到另一个提供商,而不会中断运营或导致停机。我们在数据管理通常对成功至关重要的金融服务行业(例如信用评级机构)中看到了这些影响。
由于所有这些以及上面列出的挑战,社区出现了一些发展:
工具和平台的整合、更简单的平台开发以及托管服务的使用正在整个行业中发生。这是因为企业需要应对复杂性。成为这个空间的一部分是一个激动人心的时刻,我迫不及待地想看看景观在一年中如何演变。
在 Scribble Data(我共同创立的公司),我们敏锐地意识到这种演变正在发生。我们专注于一个特定的问题——高级分析和数据科学用例的特征工程。这个问题空间在重要性方面稳步增长,并以与上述观点一致的方式发展。通过正确的技术组合和解决方案重点,可以使产品价值与用例保持一致,同时为每个用例实现 5 倍的价值实现时间 (TTV)。
也在这里发布