paint-brush
为什么这么多 AI 计划都失败了by@datastax
1,254
1,254

为什么这么多 AI 计划都失败了

DataStax6m2023/04/26
Read on Terminal Reader

为什么对于大多数组织而言,构建成功的 AI 应用程序是一个巨大的挑战?它可以归结为三大障碍:错误的数据,错误的基础设施,错误的时间。
featured image - 为什么这么多 AI 计划都失败了
DataStax HackerNoon profile picture
0-item

您在 iPhone 上寻找您朋友几年前拍摄的特定照片。有数以千计的图片可供搜索,但 Apple Photo 应用程序会锁定正确的人,而且,很快,您会在几秒钟内找到您要查找的图片。


为了实现这一目标,幕后有很多工作要做,包括面部识别、图像分析和自动标记,通过推断需要或想要什么,然后实时对这些推断采取行动,从而节省工作量。


Apple 以及 Google、FedEx、Uber、Netflix 等公司花费了数年时间构建系统和架构,使用户体验变得更轻松、更个性化和更直观。在某些情况下,人工智能使关键决策几乎可以在瞬间做出,或者可以实时进行预测,从而使企业能够立即改善结果。


这在更广泛的企业领域并没有丢失:根据2022 年德勤调查, 94% 的商业领袖表示人工智能对成功至关重要。


那么,为什么对于大多数组织而言,构建成功的 AI 应用程序是一个巨大的挑战?它可以归结为三大障碍:错误的数据,错误的基础设施,错误的时间。

人工智能成功的障碍

根据麦肯锡, 56% 的公司已经采用了人工智能,但是,正如埃森哲在一份报告,只有 12% 成功地通过人工智能实现了卓越的增长和业务转型。


许多绊脚石阻碍了将 AI 成功构建到实时应用程序中,但大多数都与一个核心要素有关:数据。


许多传统的 ML/AI 系统及其产生的结果都依赖于数据仓库和批处理。结果:需要一系列复杂的技术、数据移动和转换才能将这些历史数据“引入”机器学习系统。


输入 ML 模型的数据称为特征(可用于分析的可测量属性),它们通常基于存储在应用程序数据库中或写入日志文件的数据。它们通常需要转换,例如缩放值或基于先前记录的计算(例如,生成记录时的移动平均值)。


这通常会减慢从输入到决策再到输出的数据流,从而导致错失机会,从而导致客户流失,或者已识别的网络安全威胁模式未被发现和缓解。这些挑战可以概括为拥有不合适的数据集,由移动速度太慢的错位基础设施提供支持。

错误的数据……

由于数据量巨大(以及相关成本),必须将其聚合以方便传输和可用性。简而言之,汇总或过度转换的数据会阻止组织轻松地实时识别正确的操作并降低实现首选结果的可能性,无论是建议的产品、更新的包裹递送路线还是工厂机器的调整设置.这会降低组织寻找新问题答案、预测结果或适应快速变化环境的能力。


数据科学家被迫使用粗粒度的数据集,这些数据集将驱动模糊的预测,而这些预测反过来又不会导致预期的业务影响,尤其是在客户会话等离散环境中。当应用程序被重新配置或数据源发生变化时,他们也可能不会意识到,从而导致无法提供功能的重要事件。在选择模型时,这种缺失的数据会导致做出不明智的决策。这会导致预测性能不太准确,或者更糟的是,使用错误数据的模型可能会导致错误的决策。


最后,聚合专注于创建现有功能。新的特征工程——处理选择和训练模型所需的数据——需要返回原始数据以进行不同的聚合。这种额外的处理显着减慢了数据科学家的工作速度,延长了实验过程。

……在错误的基础设施中……

第二个挑战与当前支持 AI 计划的 ML 基础设施及其无法大规模处理数据集有关。模型的质量及其结果随着摄取的事件数据量的增加而增加。组织通常需要处理大量事件,而传统基础设施无法处理这些事件。


训练模型的顺序和为它们提供运行推理的服务变得复杂,尤其是因为它需要在每个模型之间移动数据。试图处理高质量预测所需的规模将传统架构推向极限。它还非常缓慢、不可靠且成本高昂。所有这些都威胁着越来越关键的应用程序的价值和影响。

……在错误的时间

另一个绊脚石是处理数据太晚,无法产生任何重大影响。当前的体系结构需要通过多个系统进行数据处理才能为模型提供服务,这会引入延迟,从而以各种方式影响 AI 计划:


  • 该模型的输出不能改变发展情况的过程。例如,它会在转化率下降且客户可能购买了其他东西时提出客户报价。

  • 服务模型和获得结果所需的时间与数字体验或自动化流程的预期不符。有时,可能要过几天才能准备好数据进行处理。在竞争激烈的市场中,如此陈旧的数据充其量是无关紧要的,最坏的情况是危险的(考虑在危机或灾难期间应用激增定价的拼车应用程序)。

  • 数据科学家无法访问最新数据。这可能会影响模型的结果,并且可能需要数据科学家花费宝贵的时间来寻找其他数据点或来源。


许多当前的 ML 基础架构无法为应用程序提供服务,因为它们太昂贵、太复杂且太慢。而且,监管变化最终可能会要求组织提供更详细的解释,说明模型是如何训练的,以及它们为什么会做出特定的决定。由于涉及处理、聚合和各种工具,这种级别的可见性对于当前架构是不可能的。


许多基础设施的问题在于数据必须经过 AI 驱动的应用程序。问题的答案,简单地说,就是反其道而行之。

将人工智能带入数据

像本文开头提到的公司这样的领导者通过在其应用程序中移动来自客户、设备、传感器或合作伙伴的大量实时数据进行聚合而取得成功。这些数据反过来用于训练和服务他们的模型。这些公司立即根据这些数据采取行动,实时为数百万客户提供服务。


领导者成功的另一个关键因素是他们以最精细的级别收集所有数据——作为带时间戳的事件。这意味着他们没有很多数据;随着时间的推移,他们还可以了解发生了什么以及何时发生。


Netflix、FedEx 和 Uber 等领先企业“将人工智能带到数据所在的地方”,这样他们就可以在应用程序所在的地方提供推理。换句话说,他们将 ML 模型嵌入到他们的应用程序中,通过流服务实时聚合事件并将这些数据公开给 ML 模型。他们有一个数据库(在上面提到的三个领导者的案例中,它是高吞吐量、开源的 NoSQL 数据库阿帕奇卡桑德拉) 可以存储大量事件数据。


有了正确的统一数据平台,ML 计划就有了正确的基础设施和正确的数据。数据工程师和数据科学家可以“打破他们的孤岛”,并将他们的特征工程、模型实验、训练和推理过程与功率预测相结合。虽然这些过程仍然需要许多工具,但它们都在同一个数据基础上工作。


由大量事件数据提供支持以服务于模型和应用程序,由 AI 提供支持的最成功的应用程序通过不断改进它们为最终用户提供的体验来区分和引领。他们有能力为数百万客户提供服务,并变得更加聪明,这使他们能够定义自己所在的市场。


了解 DataStax 如何实现实时 AI



埃德·安努夫着。


Ed 是 DataStax 的首席产品官。作为产品和技术领导者,他在 Google、Apigee、Six Apart、Vignette、Epicentric 和 Wired 等公司拥有超过 25 年的经验。



也发布在这里