TLDR 1:数据集不再是硬性要求
需要大量数据来制作基于文本的人工智能的想法现在已经部分过时了。
即使是极小的数据集也能产生有价值的结果(1 句话 ~ 1GB)。
几乎所有初创公司都坐拥或能够手工生产的东西。
TLDR 2:它有非常广泛的用例
您可以将 GPT 3.5 视为远程付费“按需大学实习生”
你永远不能相信实习生是 100% 正确的,但他们可以通过适当的监督、指导和计划提供有用的价值。
现在可以无缝增长和扩展的价值(与真正的人类实习生不同)
TLDR 3:成本和限制
由于大多数 LLM 的运行成本极高,SaaS 和在线服务的经典单位经济学模型将是一个挑战
对于这个领域的基础设施,OpenAI 也有(暂时的)有效垄断,并且可以同时成为合作伙伴和无意的未来竞争对手
如果您正在度假,并且不知道什么是 ChatGPT 或 LLM(大型语言模型)——您可以在此处找到有关该技术的简介:
那么更长的形式是什么意思?
拿一杯咖啡,安顿一下……
注意:本文仅讨论基于文本的模型的数据要求,在许多情况下不适用于图像模型(例如,计算机视觉)。
过去,构建人工智能模型通常涉及为特定用例收集足够大的数据集。存在不同的 AI 模型训练技术和工具来优化训练过程或其计算成本。
然而,数据集的大小和质量仍然是训练 AI 的主要因素之一。
这将产生如下图:
所有数字都是大的近似值,并且会根据用例、AI 模型和数据质量发生巨大变化。轴上的刻度故意模糊和不准确,因为它们是主观的。对于技术数字,请阅读特定用例引用中的论文。
然而,一般的想法仍然是,小规模数据集在慢慢变得更好之前有效地产生随机数据,并最终在大约 ~500GB 的部分有点用处。
这导致了数据集军备竞赛,几乎发生在与 AI 相关的每个专业领域(尤其是任何与计算机视觉相关的领域)。
从 2009 年到今天,这在多家初创公司中发挥了作用,一些著名的初创公司被收购的部分原因是他们有价值的数据集(通常是人才)。
由于军备竞赛不断升级,新创业公司越来越难以用他们的 AI 模型(小数据集)与现有企业(大数据集)竞争。
例如,在 uilicious.com(一家低代码 UI 测试自动化初创公司),我们使用有限的数据集来训练 AI 模型(称为 TAMI v0.1)。我们发现它有一半时间都在喷出垃圾,导致我们在建立数据集的同时将模型放在一边,在没有 AI 的情况下发展公司。
从这里开始,以一种非常笼统和非技术的方式,以这种方式训练的人工智能将被称为“专业模型”。
为了寻求真正通用或通用的 AI,特别是在人类语音交互领域(因为人类对所有变量的随机性最高),出现了为超大数据集训练新型基于文本的 AI 的努力公共数据(想想维基百科、Quora、StackOverflow 和一半的互联网文本)。
由于这些新模型突破了数据集大小和模型大小(想想大脑大小)的界限,因此用于构建它们的方法与专门模型(往往更强调准确性和效率)不同。
以这种方式训练的文本 AI 模型现在统称为“大型语言模型”(LLM)。
这种方法的缺点是巨大的,阻碍了它在许多用例中的早期应用:
LLM 最初由谷歌(他们已经拥有数据并且有动机为他们的 AI 助手这样做)和 OpenAI 主导。后来,微软、亚马逊、苹果、Salesforce、Meta 和其他一些公司加入了竞争。然而,由于训练这种模型的规模和成本巨大,它通常只留给财力雄厚的大型科技公司。
尽管前几代 LLM 可能产生了令人失望的结果,因为它们在每项任务中都输给了几乎所有专业模型,但随着时间的推移,情况发生了变化,它们在数据集大小和模型大小方面都在扩大。
他们的好处变得更加明显:
这对曲线做了巨大的改变:
它还在 2019 年引发了新一波由 AI 支持的商业模式。初创公司现在可以在现有的 LLM 之上训练新的 AI 模型,数据集触手可及,从聊天机器人到演示幻灯片生成器、代码副驾驶、文案写作,甚至是 D&D 游戏大师。
这些人工智能模型不再是大型科技公司的专属领域。为了在他们的基础设施上训练和运行 AI 收取少量费用,OpenAI 和谷歌开始向其他人开放他们的模型,以作为从 LLM 中获利的一种方式。
这对初创公司也有好处,因为他们不再需要在内部构建这些大型模型所需的数百万美元研发投资,从而使他们能够通过概念验证更快地进入市场。
在某种程度上,数据仍然是王道。它可能已经移动了曲线以使其更易于访问,但它仍然需要一个团队来建立大型数据集并调整模型。
因此,虽然许多 2019 年的初创公司发现构建原型要容易得多,但许多人发现很难跨越“有用”的门槛,因为他们需要在收益递减的情况下扩大数据集。
这与uilicious.com TAMI v0.2 AI 模型的早期内部试验一致——虽然 GPT 是对垃圾的巨大改进,但它仍然介于有趣和“meh”之间。
但那是 2022 年事情开始真正改变的时候……
上个月(2022 年 12 月)发布的 GPT3.5(或互联网上的 chatGPT)对人工智能模型的训练和微调方式产生了巨大影响。
它开启了用极小的数据集创建可用人工智能的可能性——大多数初创公司都可以访问或可以手动创建的数据集。这是我们对 AI 培训的看法的根本转变。
在uilicious.com ,当我们发现我们较大的 ~100GB 数据集的一个小于 1GB 的小样本数据集在使用新的训练技术进行转换和优化时,超过了“有用阈值”——即AI 可以被我们的用户使用,并超越我们以前拥有的一切。
虽然随后对更大数据集的实验显示收益递减。关键要点是“制作有用的产品”所需的数据非常少。与撰写本文相比,我们构建针对专有用例进行微调的概念验证 AI 所花费的时间更少。
使用 GPT3.5 作为基本构建块,现在可以为各种用例构建有用的 AI 应用程序,而无需专门的团队或个人。
根据用例,数据集可以小到单个句子或段落,也可以小到 100MB 或 1GB——许多初创公司都可以达到的大小。
或者,如果您可以让 chatGPT 以您认为对您的初创公司有用且有价值的方式运行,您可以将其构建为专用的 AI 服务。
所需数据集的急剧减少使我们能够仅使用整个数据集的一小部分来构建“有用”的 AI 模型——以前在我们的规模下“无用”或“不可能”的东西。
在许多方面,数据不再是王道,寻找和构建有用的应用程序才是这个新 AI 真正的王者。可以在数周(而不是数年)内构建和测试想法的地方。
屏幕截图是我们 AI 的演示,从提示符生成完整的 UI 测试脚本,作为示例集成。 (许多可能性之一)
现在可以在一周内完成的事情,只要有合适的团队和合适的数据。
如果您对 AI 和 UI 测试的未来感兴趣,请联系我们。
GPT-3.5 和所有其他大型语言模型的准确性和可靠性都有限制。这部分是由于他们梦想答案的本性。
虽然在理论上(尚未证明),如果有足够大的专业数据集,其准确性可以针对专业用例得到显着提高。但是,如果您有如此庞大的数据集,您很可能已经可以构建“专业模型”。
归根结底,这种对准确性和可靠性的限制只是敏感行业(例如医药)中的一个关键问题。对于大多数情况,它只是在寻找用例时分散注意力。一旦人工智能超过了“足够好”的门槛(它确实做到了)。
一个更健康、更现实的解决问题的方法是将 GPT-3.5 想象成一个远程和付费的“按需智能大学实习生”
因为实际上,除了远程和在线之外,AI 在此类用例中具有所有相同的限制:
AI 模型对现实实习生的唯一真正好处是:
人工智能对人类的不利之处在于他们无法亲自为您提供咖啡。
一旦你用这些术语来构建它,就可以更容易地弄清楚如何将人工智能集成到现有的业务流程或产品中。
在稍微更技术的层面上:
这是人工智能中这种基于更大更好模型的新方法的最大弱点。不幸的是,天下没有免费的午餐。
虽然就数据集大小而言,针对特定任务进行训练更便宜、更容易,但与更传统的 AI 模型相比,它的运行成本要高得多。
它并不便宜;每个提示和答案的成本在 1 美分到 50 美分之间,具体取决于在此过程中需要训练或使用的数据量。这比典型的 API 服务器要高得多,后者每美元可以处理一百万个请求。
简而言之,在给定秒内为一个用户处理一个 AI 查询所花费的服务器硬件成本要高于一个典型的中型 Shopify 网站为一百万个用户请求提供服务所花费的成本。
这并不是因为 OpenAI 或 Azure 只是想盈利;这取决于运行如此大的模型所需的纯服务器硬件基础设施。
因此,尽管它很强大,但合并这样一个大型语言模型 AI 的代价很高,而且仅由于这一限制可能不适用于所有用例。
最终结果是,虽然许多用例可以从使用这种 AI 中受益,但并非所有用例都能负担得起;这应该是任何实施的重要考虑因素。
对于支持服务台,典型的支持人员每小时可以处理 10 个客户,每个客户平均有 15 个来回提示。如果每个提示是 5 美分——如果使用 AI 来模拟单个支持人员,则每小时总计 7.50 美元。
这不仅比典型的美国呼叫中心员工每小时 15 美元的中位数工资便宜,而且也更加灵活(没有人员开销,可以立即扩大和缩小规模)。
同样,也可以采用相同的“实习生”方法,这种支持 AI 仅充当 L1 支持,允许人类处理更复杂的情况。在这种情况下,按提示(或每小时)完成并适当缩放是有意义的。
上班族平均每个工作日回复大约 40 封电子邮件或每月大约 880 封电子邮件。即使每封电子邮件收取 5 美分,仅用于处理电子邮件回复,每个用户平均每月 44 美元。
更糟糕的是,可以合理预期,有了这样的服务,办公室工作人员平均能够回复更多的电子邮件。仅就纯人工智能成本而言,平均翻倍至两千封电子邮件或每月一百美元并不是不合理的。
在这种情况下,如果 SaaS 初创公司采用简单的定价,比方说每月 10 美元,随着时间的推移,他们可能会陷入严重的潜在损失。
这种定价成本和业务模型与 SaaS 中常见的典型的按用户定价模型背道而驰。这就是为什么此类集成通常具有“积分”系统作为限制此类 AI 的使用和计费方式的原因。
预计随着时间的推移,通过更好的微调、竞争和成本优化,每次提示的价格会下降。另一个值得注意的方法是在启动时首先使用原始的更昂贵的 AI,同时收集更多数据,然后将其用于训练更专业和更便宜的模型。然而,所有这些方法都涉及深入的技术细节,这对于每个用例来说可能都是独一无二的,并且通常需要大量的时间和精力。
即便如此,虽然它可以节省十倍的费用,但它从根本上说比传统的 SaaS API 服务更昂贵。
虽然存在现有的开源大型语言模型,但坦率地说,它们要么与 GPT2 相当,要么介于 GPT3.5 之间。
对于一些简单的案例,一旦他们开始建立一个合理的数据集,这些更小(和更便宜)的模型可能有助于迁移到作为削减成本的手段。
然而,对于其他复杂的案例,由于其 AI 的复杂性,这样的举动可能是不可能的,从而使 OpenAI 处于有效的垄断地位,而没有降低定价的动机。
然而,人们相信,在接下来的一两年内,开源社区将会迎头赶上,并且在这样做的过程中,由于更好的替代基础设施提供商,价格可能会提高。
但是,由于这是一个不确定的未来,因此值得强调。
虽然不是故意的,但这一领域的初创公司必须构建功能集,使其能够超越其提示文本机器人的防御能力,这一点至关重要。
例如,有几家较小的初创公司围绕特定的文本提示用例构建了基于 GPT3 的机器人或 SaaS,例如具有简单界面的名称生成器或创意生成器。
一夜之间,随着 chatGPT 的推出,这些小型单一用例的文本到文本 SaaS 变得多余,因为现在普通人可以通过 chatGPT 免费获得相同的功能。
虽然 OpenAI 可能无意与建立在他们之上的合作伙伴竞争,但这样做可能是不可避免的,因为他们不断改进他们的模型和 chatGPT。
因此,为了确保这种情况不会重演,对于围绕该技术的任何商业模式来说,弄清楚它们除了提示文本、可能更好的用户体验或与现有工具的集成等之外还提供什么附加价值是至关重要的。
实习生模型的提醒,不要指望明天用这个来治疗癌症。因此,请不要在对最终用户没有好处的情况下将 AI 塞入地球上的每个产品和初创公司。
~ 直到下一次🖖 长寿繁荣
Eugene Cheah:uilicious.com 首席技术官
本文原发于作者子栈
swyx在试图整合各种信息方面也做得非常出色,在这个快速混乱和不断发展的空间中,非常值得一读(推荐!!!)
目前,BLOOM 是 GPT3(不是 3.5)的主要开源竞争者: https ://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
在 AI/ML 行业中,LLM 快速学习新概念并应用它们的能力通过称为“Zero-Shot”、“One-Shot”和“Few-Shot”学习的测试进行量化和衡量。
一般来说,人工智能在这些测试中表现越好,你需要为你的用例训练它的数据就越少。
在我看来:事后看来这是有道理的——谁会想到以人类为模型的神经网络会像人类一样行事?并受益于 T 型教育模式。广义知识的广度,有助于提高学习专业知识的能力。 (此声明没有任何数据支持)