异常检测可以帮助您先于竞争对手识别即将出现的趋势。它可以通过监控在线商店流量来标记欺诈交易,并发现公共场所的暴力行为,让您的安全团队有机会在人们受伤之前进行干预。
感兴趣的?有专门的异常检测公司可以帮助您构建和集成定制软件,以发现您的运营部门中的行为偏差。
那么,什么是异常检测?它是如何工作的?如何将其整合到公司的流程和工作流程中?
什么是异常检测?
异常检测如何工作?
关键异常检测用例
异常检测入门
ITRex 如何帮助异常检测
异常检测是一种数据挖掘,它分析公司的数据以检测偏离既定基线(例如数据集的标准行为)的数据点。这些异常值通常表明发生了事件,例如设备的技术故障、客户偏好的变化以及其他类型的异常,使公司能够在损害造成之前采取行动。
异常是指偏离熟悉模式的不一致数据点。尽管它并不总是引起重大关注,但值得进行调查以防止可能的升级。例如,产品销量的激增可能是营销活动成功的结果,也可能表明趋势和客户行为发生了变化,公司必须适应这种变化。
业务数据异常分为三个异常类别:
全局异常值是与其他数据异常远离的数据点。假设您的银行帐户每月收到 7,000 美元。如果你突然收到 50,000 美元的转账,那将是一个全球异常值。
上下文异常值偏离同一上下文中的其余数据。例如,如果您生活在一个冬天通常下雪而夏天天气温暖的国家,那么冬天下大雪是正常的。但在夏季经历降雪将是一个背景异常值。
集体异常值是指数据点子集偏离整个数据集。例如,如果您观察到几种看似不相关的产品的销量异常下降,但随后您意识到这之间存在某种联系,那么您的观察结果将合并为一个集体异常值。
大多数公司都会处理大量的结构化和非结构化数据,其中后者占公司内部生成的信息的 90% 。手动处理所有这些信息并生成有意义的见解是不可能的——尤其是当我们谈论由图像、交易、自由格式文本等组成的非结构化数据时。
研究表明,机器学习技术是处理大型非结构化数据集的最佳选择。该领域有大量的算法,您可以选择最适合您的算法。您还可以将多种机器学习技术组合在一起以获得最佳结果。
基于人工智能和机器学习的异常检测技术主要分为三种类型。
监督异常检测。在这里,机器学习模型使用包含正常和异常行为的完全标记的数据集进行训练和测试。该方法在检测训练数据集中的偏差时效果很好,但在面对训练中未见过的新异常时,该技术就会陷入困境。监督技术需要人工和领域专业知识,因为有人需要标记数据。
无监督的异常检测。该方法不需要手动数据标记。这些模型假设只有一小部分与其余数据显着不同的数据点构成异常。无监督技术仍然可以擅长识别他们在训练期间没有目睹的新异常,因为它们根据异常值的特征而不是根据他们在训练期间学到的知识来检测异常值。然而,这些算法相当复杂,而且它们的架构是一个黑匣子,这意味着用户不会收到有关该工具如何做出决策的解释。
半监督异常检测。这些技术涉及标记和未标记的数据,这减少了手动注释的费用。此外,半监督异常检测模型在部署后仍然可以学习并检测在训练中未见过的异常。与无监督技术一样,这些模型也可以处理非结构化数据。
异常检测依赖于人工智能及其子类型,包括机器学习。以下是在此背景下经常部署的五种机器学习技术。
自动编码器是无监督的人工神经网络,它压缩数据,然后将其重建为尽可能接近原始形式。这些算法可以有效地忽略噪声并重建文本、图像和其他类型的数据。自动编码器有两部分:
编码器,压缩输入数据
解码器,将数据解压缩为接近其原始形式
使用自动编码器时,请注意代码的大小,因为它将决定压缩率。另一个重要参数是层数。层数越少,算法速度就越快,但它可以处理的特征也越少。
该技术是一种基于概率图的模型,基于贝叶斯推理计算概率。图中的节点对应于随机变量,而边表示允许模型进行推理的条件依赖关系。
贝叶斯网络用于诊断、因果建模、推理等。在异常检测中,此方法对于检测使用其他技术难以发现的细微偏差特别有用。该方法还可以容忍训练期间丢失数据,并且如果在小型数据集上进行训练,仍然具有可靠的性能。
这是一种无监督的 ML 聚类技术,纯粹依赖于空间位置和邻居之间的距离来检测模式。它将数据点的密度值与其相邻数据点的密度进行比较。离群值(异常)的密度值低于其他数据群体。
这是一种常用于分类的监督机器学习算法。然而,SVM 扩展也可以在无人监督的环境中运行。该技术使用超平面将数据点划分为类别。
尽管 SVM 通常适用于两个或多个类,但在异常检测中,它可以分析单类问题。它学习这一类的“标准”,并确定数据点是否属于该类或者是否是异常值。
GMM 是一种概率聚类技术。该技术根据概率分布将数据分类为不同的簇。它假设数据点属于参数未知的高斯分布的混合,并通过在低密度区域中发现数据来检测异常。
现在您已经了解了异常检测在幕后的工作原理以及它所依赖的 AI 技术,现在是时候研究不同行业中的一些异常检测示例了。
异常检测可以帮助医生识别患者健康的任何问题,检测住院患者的病情升级并在为时已晚之前通知医务人员,并帮助诊断和治疗选择,从而使医疗部门受益。所有这些都减少了医生的体力工作和认知负担。
然而,异常检测在医疗保健领域有其独特的挑战。
一个问题是,当涉及不同的医学图表时,可能很难建立基线(即正常行为)。例如,健康人的脑电图会根据个体特征而变化。研究人员发现,儿童之间存在相当大的差异,成年人之间也存在差异,具体取决于年龄组和性别。
另一方面是机器学习模型必须高度准确,因为人们的生活将取决于他们的表现。
医疗异常检测算法可以分析以下信息:
异常检测的一个例子来自南非的一个研究团队。他们成功地将自动编码器和极端梯度增强技术结合起来,监测 COVID-19 患者的生理变量,并检测任何表明健康状况恶化的异常情况。
另一个团队不仅专注于检测异常,还专注于解释为什么该工具将其标记为此类。因此,他们首先使用异常检测技术来发现偏差,然后部署方面挖掘算法来概述一组特征,其中某个数据点被视为异常值。
体育和娱乐环境依赖于数百个摄像头的广泛视频安全监控。因此,如果手动查看录像,安全团队就不可能发现事故并及时做出反应。借助机器学习,算法可以分析来自设施内每个摄像头的视频流并检测安全违规行为。
随着机器学习模型在工作中不断学习,它们可以发现人类操作员无法注意到的威胁和违规行为。这些算法可以检测破坏行为、观众骚乱、烟雾、可疑物体等,并向安全人员发出警报,以便他们有时间采取行动,防止责任和声誉受损。
其中一个项目直接来自我们的投资组合。一家美国娱乐公司在全国各地设有游戏室,他们求助于 ITRex 来构建机器学习驱动的异常检测解决方案,并将其集成到其基于云的视频监控系统中。该应用程序可以捕获任何危险和暴力行为,例如破坏老虎机。它还可以通过发现遗忘的物品和故障的机器来简化管理流程。
我们的团队使用变分自动编码器构建了定制的机器学习模型。我们汇总了包含 150 个描述身体暴力和财产损失的视频的训练数据集,并使用 OpenCV 框架对这些视频进行了预处理。然后,我们依靠 torchvision 库对数据进行标准化和增强,并用它来训练 ML 算法。
最终的解决方案依靠交叉验证来发现异常情况。例如,它可以通过“读取”屏幕上的错误消息并根据可用的屏幕模板进行验证来识别出现故障的老虎机。最终的解决方案无缝集成到客户基于云的安全系统中,24/7 监控老虎机,并在检测到异常情况时通知安全人员。
随着制造过程变得越来越自动化,机械变得越来越复杂,设施也变得越来越大。因此,传统的监控方法已经不够了。
异常检测技术可以描述您设施中与正常情况的不同偏差,并在问题升级之前通知您,甚至学会区分小问题和紧迫问题。
异常检测对于制造业有许多好处。这些工具可以发现以下问题:
设备发生故障。与制造物联网 (IoT) 传感器合作,人工智能算法可以监控各种设备参数,如振动、温度等,并捕捉任何与正常值的偏差。这种变化可能表明设备过载,但也可能意味着故障的开始。该算法将标记设备以供进一步检查。这也称为预测性维护。
设备利用不足。基于机器学习的异常检测解决方案可以了解哪些设备长时间闲置,并敦促运营商平衡负载分配。
安全隐患。通过监控安全摄像头的反馈,异常检测软件可以发现不遵守工厂安全协议、危及自身福祉的员工。如果您的员工使用可穿戴设备进行安全监控,机器学习可以分析传感器数据,以发现疲惫和生病的员工,并鼓励他们当天休息或下班。
基础设施问题。机器学习算法可以检测水或煤气泄漏以及任何其他基础设施损坏,并通知相应的现场经理。
制造异常检测解决方案的一个例子来自美国超纯多晶硅生产商 Hemlock Semiconductor。该公司部署了异常检测,以了解其流程并记录与最佳生产模式的任何偏差。该公司报告每月节省约 300,000 美元的资源消耗。
异常检测可以帮助零售商识别异常行为模式,并利用这些见解来改善运营并保护其业务和客户。人工智能算法可以捕捉不断变化的客户需求,并提醒零售商停止购买卖不动的产品,同时补充有需求的商品。此外,异常现象可以代表早期的商机,使零售商能够在竞争之前利用它们。就电子商务而言,网站所有者可以部署异常检测模型来监控流量,以发现可能表明欺诈活动的异常行为。
此外,零售商可以使用异常检测技术来保护其场所的安全。在 ITRex,我们进行了一系列 PoC,以构建一个解决方案,可以检测购物中心和其他公共场所的安全摄像头流式传输的视频中的暴力表现,例如打架。该解决方案依赖于 3D 卷积神经网络异常检测方法,该方法是在广泛的战斗数据集上进行训练的。众所周知,这种类型的 ML 算法在动作检测任务上表现良好。如果您对这样的解决方案感兴趣,我们可以首先向您展示完整的演示。然后,我们的团队将微调算法并调整其设置以匹配您的位置和业务的具体情况,并将其无缝集成到您现有的安全系统中。
如您所见,训练自定义 AI 模型以进行现场异常检测可能是一项技术挑战。这就是为什么我们的团队为关注这项新技术的公司准备了一份五步指南。向下滚动查看一些专家提示 - 如果您是人工智能新手或寻求有关人工智能应用和项目成本的更多信息,请考虑下载我们的人工智能业务指南。
这里有两个选择。您要么正在寻找数据中的特定异常,要么想要标记所有偏离标准行为的内容。您在此处的选择将影响您的训练数据并限制人工智能技术的选择。
如果您想捕获偏离基线的每个事件,那么您将在代表正常行为的大型数据集上训练模型。例如,如果您正在研究驾驶和交通安全,那么您的数据集将由显示安全驾驶的视频组成。
假设您想要检测特定的异常情况 - 例如车祸,但不是轻微的违规行为,例如闯红灯。在这种情况下,您的训练数据集将包括车祸的视频或图像。
上一步的结果将帮助您决定需要哪种类型的数据。
从公司内部来源收集数据或使用公开可用的数据集。然后,清理这些数据以消除重复项以及任何不正确或不平衡的条目。清理数据集后,您可以使用缩放、标准化和其他数据转换技术来使数据集适合 AI 算法。将您的数据集分为三个部分:
有关更多信息,请查看我们有关如何为机器学习准备数据的详细指南。
仅当您想要构建自定义解决方案时,此步骤才有意义。您或您的技术供应商将选择最适合的人工智能技术来解决业务问题。这里需要考虑三个关键因素:
手头的任务(请参阅上面的步骤 1)。如果您想检测专门定义的异常,变分自动编码器 (VAE) 是一个不错的选择。
技术要求。这可能包括您想要达到的准确性和详细程度。例如,如果您想训练一个发现视频中异常的机器学习模型,那么决定最佳帧速率是关键,因为不同的算法以不同的速度分析帧。只要您想要检测的异常在一秒钟内发生,就建议您研究视频剪辑中的每一帧,并且使用较慢的算法(例如 VAE)变得不切实际。另一方面,奇异值分解(SVD)可以更快地完成这项工作。
训练数据集的大小。某些模型(例如自动编码器)无法在小型数据集上进行正确训练。
您可以购买现成的异常检测软件,也可以实施定制系统,以满足您的独特需求并根据您感兴趣的异常类型进行定制。
当您的财务资源有限、没有自定义训练数据集或没有时间进行模型训练时,您可以选择现成的异常检测系统,并且您可以找到已经提供可以检测异常类型的解决方案的供应商你所关心的。但请记住,这些解决方案具有有关数据特征的内置假设,只要这些假设成立,它们就会表现良好。但是,如果您的公司数据偏离该基线,算法可能无法以相同的精度检测异常。
如果您有足够的数据来训练人工智能算法,您可以聘请机器学习开发公司来构建和训练自定义异常检测解决方案。该选项旨在满足您的业务需求并适合您的流程。另一个巨大的好处是,即使在部署之后,您仍然可以优化该解决方案。您可以根据不断变化的业务需求调整其设置以使其运行更快或专注于不同的参数。
您将在本地或云端部署异常检测解决方案。如果您与 ITRex 合作,我们将有两个选项供您选择:
基于云的异常检测,我们聚合来自您的软件系统、设备和第三方服务的数据,并将其传输到云进行存储和处理,以减轻您本地资源的负载。
边缘异常检测,机器学习算法在本地分析您的数据,然后仅将部分数据上传到云端。这种方法最适合不能容忍延迟的关键任务系统,例如自动驾驶汽车和医疗物联网解决方案。
机器学习算法在工作中不断学习,这使它们能够适应新的数据类型。但这也意味着他们可能会产生偏见和其他不良倾向。为了避免这种情况,您可以安排审核以重新评估算法的性能并实施必要的调整。
在 ITRex Group,我们在机器学习模型方面拥有丰富的经验,例如 Beta 变分自动编码器 (Beta-VAE) 和高斯混合模型 (GMM)、物联网、数据分析和数据可视化。我们已经在不同行业实施了这些技术,因此我们了解医疗保健等受到严格监管的行业带来的具体情况。我们结合使用开源和专有技术(例如数据挖掘工具和机器学习框架)来开发自定义解决方案并将其集成到您的业务流程中。
我们基于人工智能的定制异常检测解决方案可以同时完成这两项任务——检测预定义的异常并发现与既定标准行为的任何偏差。您可以选择云来节省基础设施,或者我们可以让系统在本地运行以支持不能容忍延迟的关键应用程序。
有兴趣实施异常检测系统吗?请给我们留言!我们可以帮助您构建和训练自定义 ML 模型。即使您选择现成的解决方案,如果它是开源的并且有 API,我们仍然可以根据您自己的数据重新训练它,使其更好地适合您的系统!