paint-brush
利用人工智能加强商业智能的数据准备经过@cleanlab
618 讀數
618 讀數

利用人工智能加强商业智能的数据准备

经过 Cleanlab6m2023/11/07
Read on Terminal Reader

太長; 讀書

本文讨论了数据分析和商业智能领域的数据团队如何构建业务用户所需的解决方案,并与构建数据基础设施的工程团队合作。构建这些解决方案的分析师必须准备来自不同来源的数据,确保数据经过清理以供查询,这是通过数据准备工具完成的。以数据为中心的人工智能实践可以自动执行数据清理步骤,使您能够以最少的努力导出更干净的数据集版本。本文还解释了维护数据质量对于有效数据分析的重要性,以及以数据为中心的人工智能如何成为系统地设计用于构建人工智能系统的数据的学科。
featured image - 利用人工智能加强商业智能的数据准备
Cleanlab HackerNoon profile picture
0-item
1-item
2-item

在数据分析和商业智能的世界中,数据团队,也称为“紫色团队”,他们构建业务用户(红色)所需的解决方案并与工程团队(蓝色)合作,本质上构建数据的基础设施。


BI 团队主要致力于构建流程或管道,为业务用户使用提供报告和基本仪表板。


有许多新一代工具可以帮助数据团队构建这些最终用户解决方案,例如ModeSupersetLightdash ,或者曾经在“数据分析”领域工作过一段时间的行业领导者,例如 Tableau 或 PowerBI。


构建这些解决方案的分析师必须准备来自不同来源的数据,确保数据经过净化以供查询。一组工具或转换,旨在在工作流程中执行称为“数据准备”的清理步骤。



一种流行的数据准备工具,数据分析师使用它来准备数据



随着大型语言模型的出现,讨论人工智能已成为整个软件工程堆栈的常见趋势。但如果我说:使用以数据为中心的人工智能实践,我们可以自动化数据清理步骤呢?使您能够以最小的努力导出更干净的数据集版本!


在本博客中,我们将讨论如何使用以数据为中心的 AI,轻松为 BI 工具准备数据,以确保后续数据分析得出可靠的结论。

数据分析师工作流程

几年前,数据分析师必须手动收集、清理和分析数据,这是一个耗时的过程,限制了他们获得有价值见解的能力。



如今,随着AlteryxTableau等数据准备工具的引入,数据分析格局发生了重大转变。


这些高效的工具简化了工作流程,使分析师能够无缝集成来自多个来源的数据,自动执行数据清理任务,并生成具有视觉吸引力和洞察力的数据表示。



手动数据准备后的数据分析


使用 BI 工具分析使用这些工具准备的数据,以识别特定的业务查询。

例如,考虑银行内的客户请求数据集,客户在客户服务门户中记录他们遇到的问题,然后由人工或自动任务管理器标记。


想象一下,如果业务分析师要确定针对特定问题类别出现的客户请求数量。以下是他/她将看到的结果 - 其中beneficiary_not_allowed类别显示111客户问题。




同样,如果分析师想要找出有多少问题实例与ATM一词相关,则快速分析将返回到视觉表示下方。请注意change_pin类别的问题数量。



它看起来简单明了,但如果你深入研究数据集,你会发现客户请求的分类在某些情况下是错误的。


例如:

文本

标签(根据数据集)

标签(理想情况下)

我的卡快过期了。我多快可以得到一个新的,费用是多少?

apple_pay_or_google_pay

卡即将到期


现实世界的数据在很大程度上是杂乱且非结构化的,这使得通过统计推断价值变得困难。由于我们希望人类和机器能够根据数据做出决策,因此对数据进行良好标记、清除任何错误数据并进行重复数据删除至关重要。

以数据为中心的人工智能


确保分析中使用的数据准确、最新且无重复至关重要。否则可能会导致错误的决定和结论。例如,用户配置文件数据中的空位置字段或位置字段格式不一致可能会导致错误。因此,保持数据质量对于有效的数据分析至关重要。


以数据为中心的人工智能是一门系统地设计用于构建人工智能系统的数据的学科。现实世界中的大多数数据都是非结构化的或标签错误的。具有正确的标记训练数据集的高质量数据集可以产生有效的模型,可以预测更好的结果。


更好的结果带来更好的客户体验。要了解更多信息,您可以参考麻省理工学院的以数据为中心的人工智能课程。

Cleanlab 简介


Cleanlab是一个开源项目,可通过自动检测数据集中的问题来帮助您清理数据和标签。 Cleanlab 使用置信学习- 基于 Curtis Northcutt(也是Cleanlab.ai联合创始人)等人讨论估计数据集标签中的不确定性的论文。


Cleanlab 基本上通过引入人工智能来增强数据分析工作流程。



使用 Cleanlab Studio 自动清理您的数据

Cleanlab Studio 是一个无代码工具,构建在开源包 Cleanlab 之上 - 它有助于为分析工作流程准备数据。您还可以从DatabricksSnowflake等数据仓库或AWS S3等云对象存储中导入数据。

步骤1:

注册访问Cleanlab Studio



您将登录到包含一些示例数据集和项目的仪表板。



第2步:

单击“上传数据集”以启动上传向导。您可以从计算机、URL、API 或Databricks和 Snowflake 等数据仓库上传数据集



Cleanlab Studio 自动推断您的数据模式和模式,即文本、图像、语音或表格。



确认详细信息后,您将看到一个屏幕,其中包含已上传的数据集以及上传数据时遇到的相关错误(如果有!)。


注意:某些数据集可能需要几分钟才能上传。一旦数据集通过电子邮件完全上传到 Cleanlab Studio,Cleanlab 就会通知您。




步骤3:

根据数据集的类型,您可以使用特定的机器学习任务来识别数据问题。目前,Cleanlab Studio 支持多种与文本、表格和图像数据相关的 ML 分类任务。


具体到分类,可以是K类中的一类,也可以是K类中的一到N类。在此数据集中,每个客户请求都属于特定类别。这将是一个“多类”分类。




Cleanlab studio 将自动检测选择文本和标签列。如果需要,您可以更正它。




使用快速模型可能不会产生最佳结果;出于时间利益,选择Fast是一个选择。


点击“清理我的数据!

步骤4:

Cleanlab Studio 在数据集上运行模型集合并提供问题概述!

如前所述,数据集包含错误分类的数据和异常值,这在分析时可能不会为整个决策过程增加价值。




您还可以通过切换到顶部的分析视图来查看 Cleanlab Studio 在数据集上识别的问题的元分析。




第5步:

Cleanlab Studio 的有趣之处不仅在于导出清理后的数据集,还提供面向问题的数据视图。数据分析师和商业智能用户多年来一直想要的数据准备工作台缺失。


您可以通过 Cleanlab Studio 中提供的键盘辅助操作对每个问题进行排序,或者通过单击下面的按钮导出“导出 Cleanset”。





AI辅助数据准备后的数据分析


让我们用清理后的数据集来检查相同的数据分析。


cancel_transfervisa_or_mastercard类别之间的数字似乎存在差异。虽然这是一个较小的数据集,但值得注意的是,这些数据更正可能会导致更大范围内的显着不同的估计和潜在的业务决策。




同样,您会发现客户对某些类别的请求随着问题得到适当标记而消失。




如果您是数据分析师或商业智能社区的一员,Cleanlab Studio 可以彻底改变您的数据准备工作流程。立即尝试Cleanlab Studio ,体验 AI 辅助数据清理的强大功能,实现更可靠、更准确的数据分析。

结论

Cleanlab Studio 是一个无代码数据准备工作台,财富 500 强公司的数千名工程师、分析师和数据科学家都在使用。这个创新平台是麻省理工学院首创的,旨在使用现实世界的错误数据训练更可靠、更准确的机器学习模型。您可以加入我们的Slack 社区以获取更多信息。