paint-brush
如果训练数据很糟糕,那么 AI 也很糟糕经过@mytiki
756 讀數
756 讀數

如果训练数据很糟糕,那么 AI 也很糟糕

经过 mytiki.com5m2023/05/31
Read on Terminal Reader

太長; 讀書

大量的训练数据他妈的糟透了。我还没有挖掘出培训数据吸收与吉列剃须刀销售之间的相关性,但我想这其中存在某种联系。最糟糕的是,它很贵。
featured image - 如果训练数据很糟糕,那么 AI 也很糟糕
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

一个男人与失眠妥协,并在凌晨 4:30 起床。距离太阳每天首次亮相还有几个小时,但这对这个人来说并不重要。没有必要刮胡子。他已经四天没有了。他立即点燃了一支香烟——一支来路不明(对你而言)的手卷香烟。他打开收音机。立即将其关闭。这一刻值得沉默。凝视着镜子。裸。巴克赤身裸体。看着自己。深入自己。把烟放在手背上,弹到马桶里。最后,在他脑子里盘旋的那些话从他嘴里滑过,发出恼怒的低语——“我们的训练数据他妈的糟透了。”


而且还很贵!


看,每个人和他们的祖母都知道 AI 是巨大的。也许您的祖母与 Snapchat AI 交谈的次数可能比与您交谈的次数多。无论哪种方式,虽然 AI 确实提供了一种娱乐因素,但最重要的是它可以非常有用。企业正以前所未有的速度采用人工智能计划。我知道世界不需要另一个关于 AI 发展的博客,但我会在一秒钟内将其混合。


首先,明白这一点:1923 年,只有 0% 的企业认为人工智能对他们的组织具有高度优先级。哇。到 2020 年,54% 的受访 IT 专业人员高度重视人工智能。 到 2022 年底,这一数字已攀升至 69% (不错),仅在两年内就增长了 15%。


但是,近一半 (47%) 的 AI/ML 用户在过去两年中已经开始了他们的计划,并且 78% 的受访者已经从构思阶段进入了执行阶段。这是什么意思?从统计上讲,有很多企业在运行 AI 程序和计划,但他们是该领域的新手,可能不知道自己在做什么。 47% 中有多少百分比是那个老狗化学家模因?好吧,我不能为你回答这个问题。我可以告诉你的是,公司 AI/ML 之旅中报告的最大挑战是技能人才短缺 (67%),其次是算法和模型失败 (61%)。在采用人工智能方面,报告最多的障碍是实施成本。什么占据了 AI 预算的最大部分?采购和实施培训数据,检查预算的 13%。


很多数据都非常糟糕。它不可靠,难以管理,而且 AI 完全有可能是在洗过的数据上训练的,这意味着用于训练模型的数据来自另一个已经在粗略数据上训练过的 AI 模型。向Olga Mack大声喊出这个术语的介绍。


所以数据不好,价格昂贵,可能相当于从旧货店购买的带有拼写错误的 T 恤(对我朋友的Nomar “Garciapara” Red Sox 球衣大喊大叫),而且大量实施 AI 的企业都是新的并且缺乏使事情顺利进行的资源和人才,更不用说保持它的可持续性了。


为此,高达87% 的高管愿意为更高质量的培训数据支付更多费用,而 66% 的高管预测他们对培训数据的需求只会增加,而 0% 的高管预计会减少。这比我虚构的 1923 年调查增加了 0%。


你说更多的数字?您将收到更多号码。 2022 年,全球人工智能支出约为 1180 亿美元。到 2026 年,这一数字预计将达到 3000 亿美元。 3000 亿美元的 13% 是……390 亿美元。现在我知道这并不是统计数据的工作原理,所以请不要折磨我。但简而言之:全球用于人工智能训练数据的支出是一个价值数十亿美元的产业。考虑到这些高管中有 66% 的人预计对训练数据的需求会增加,而 87% 的人愿意为更高质量的数据花费更多……好吧,你明白了。

更多因素

最重要的是,在 2023 年获得可靠数据的能力比过去更加困难。 GDPR 和 CCPA 等隐私倡议旨在保护消费者数据。谷歌和苹果等主要科技公司正在让第三方数据收集变得越来越困难。正在进行的法律斗争将 AI 训练数据置于最前沿,人们普遍认为,抓取网络数据来训练 AI 并声称其“合理使用”有成为历史的危险。一个恰当的类比可能是 2000 年代初期 Napster 的影响。虽然当时很明显 Napster 是由非法共享受版权保护的材料和知识产权驱动的,但使用 AI 的企业也不得不考虑类似的轨迹。沙漏可能会过滤掉沙子,而 Metallica 的“丧钟为谁而鸣”可能会为那些尚未努力使他们的 AI 计划面向未来的人演奏。

一个新的 Spotify

那么,解决方案是什么?好吧,这很复杂。但从 Napster、Kazaa 和 Limewire 的灰烬中诞生了 Spotify,它的运营前提是打造“比盗版更好”的东西。这涉及与唱片公司和代理机构达成交易,以正确许可在 Spotify 平台上流式传输的内容。人工智能也可能做同样的事情吗?我们是这么认为的。 85% 的消费者将交换数据以换取优惠券或折扣。这为激励用户参与的数据采集模型铺平了道路,生成有价值的零方数据,可用于多种用途,包括训练 AI。我们构建了一些东西来许可零方数据,甚至与 Snowflake 合作构建了一个功能,允许企业重新列出许可的零方数据。基于对更高质量培训数据的渴望,这可能被证明是获得额外收入流的巨大机会,同时也可以建立客户忠诚度。但是有足够的名牌东西。您可以在此处了解更多信息。

总之…

大量的训练数据他妈的糟透了。我还没有挖掘出培训数据吸收与吉列剃须刀销售之间的相关性,但我想这其中存在某种关联。最糟糕的是,它很贵。越来越多的公司正在投入时间和资源来实施人工智能,但其中许多是新手,缺乏适当的团队、基础设施和高质量数据来优化他们的计划。法律斗争对人工智能训练数据采购和收集的“旧方式”造成了冲击,而隐私倡议使企业越来越难以收集推动其业务发展所需的数据。向 Spotify 这样的公司寻求灵感,众所周知,克服法律方面的问题是可能的。鉴于消费者对数据共享的看法以及对品牌体验更加个性化和定制化的渴望,我们已经认识到许可零方数据进行转售(以及许多其他用例)的巨大市场。嘿,又是 3000 亿美元的 13% 是多少?


由 @TIKI 联合创始人 Shane Faria 撰写