几个月前,有一份声明称开源生成人工智能模型将统治该领域。专家们引用了一个泄露的谷歌备忘录这表明,由于开源模型,这家搜索巨头已经失去了在生成人工智能领域的竞争优势。
争论是这样的:
- 开源机器学习算法已经超越了专有算法的能力。
- 使用开源算法训练时楷模在开源数据集上,“基础”模型的性能在基准测试中相当不错。
- 使用“微调”(将数据与开源数据相结合的过程)等技术来构建模型,就无需使用大型科技公司的专有数据集。
- 因此,专有模型已经消亡。
然后谷歌 I/O 2023发生了。谷歌吟游诗人是一个基于自己专有数据集构建的生成式人工智能搜索引擎, 好评如潮。最常被引用的功能是将实时数据合并到模型中的能力。
让我们通过对上述论点的分析来看看为什么专有模型将在未来发挥重要作用:
- 开源机器学习算法是否已经超越了专有算法的能力?是的。谷歌的内部备忘录讨论了开源社区算法的性能和创新如何超越了其自身的发展速度。
- 当使用开源算法在开源数据集上训练模型时,“基础”模型的性能相对于基准测试是否良好?谨防基准。如果模型的目标只是理解英语,那么使用开源数据语料库就可以了。但是,如果您的模型可以从“实时”数据中受益,就像用户如何从巴德的实时数据搜索中受益一样,该怎么办?那么基准就需要是理解英语和了解世界最近发生的事件的能力。
- 像“微调”这样的技术来构建模型是否可以避免使用大型科技公司的专有数据集?再说一遍,你的用户关心什么?您的专有数据集能否提供您需要的所有实时上下文?
- 那么专有基础模型真的死了吗?没那么快……
生成式人工智能成功的成本
事实证明,获取实时数据来构建模型的成本很高。谷歌花费了数十亿美元来构建实时索引网络的基础设施,以构建他们的生成模型,并且你可以打赌它将是专有的。
让我们以两个建立在两个不同基础模型之上的航空旅行聊天机器人为例:一种聊天机器人是开源的,另一种是拥有实时数据的专有聊天机器人。该旅行聊天机器人使用专有的航班信息数据集进行“微调”,以推荐乘坐哪些航班。在许多情况下,两个聊天机器人都会提供相同的答案。然而,如果一场大风暴袭击机场,用专有实时数据构建的聊天机器人将提供航班信息,以避免受风暴影响的航班。这对用户来说是无价的,因此对开发人员来说也很有价值。
基础人工智能模型的未来
那么这是否意味着每个生成式人工智能用例都需要一个根据专有实时数据构建的基础模型?不,但是还有其他原因需要专有的基础模型:
- 专有的第一方数据集考虑这个例子:Google Bard 利用整个 YouTube 来创建其基础模型。如果您的生成式 AI 用例可以从上传到 YouTube 的大量信息和知识中受益,那么您可能需要使用 Google 的基础模型。
- 个性化数据集当使用个性化数据训练基础模型时,该模型(也称为神经网络)将包含个人信息的各个方面。使用这些模型进行推理可以以不泄露个人信息的方式完成,但如果导出整个模型,则可以通过查看模型的参数来提取特定用户的个人信息。尽管联邦学习取得了进步,但还没有一种万无一失的方法可以在不损害隐私的情况下导出模型。
那么未来的基础模型是什么样的呢?大概是这样的:
- 算法将开源
- 由于维护实时数据集和个性化的成本,在某些情况下数据集将是专有的,而在其他情况下则是开源的。
假设这是流行的架构,那么会有哪些次要影响?
- 希望构建生成式人工智能的企业可能需要依赖大公司的基础模型,这些公司有足够的资金来维护自己的实时数据基础设施,以及用于其他用例的开源基础模型
- 企业所依赖的专有数据集也将越来越实时。期望数据驻留在 Apache Cassandra 等 NoSQL 实时数据库中,并使用 Apache Pulsar 等技术流入特征存储中。
- 出于实际目的,模型推理很可能发生在 AWS、微软和谷歌等基础模型提供商拥有的数据中心。这意味着超大规模企业在人工智能时代可能会变得更加重要。基于基础开源模型的模型推理可以在客户的数据中心中执行。
对 DataStax(我的雇主)的次要影响也很显着。作为数据管理提供商,随着生成式 AI 在企业中变得更加普遍,我们通过DataStax Astra DB (驻留在 AWS、Microsoft 和 Google 的主要云上)提供云服务的投资可能会增加。
虽然我们鼓励并支持使用来自以下公司的开源基础模型抱脸,我们还与三大云提供商建立了强大的人工智能合作伙伴关系。最重要的是,我们正在利用社区贡献流程来开发 Cassandra 的上游功能(例如矢量搜索) ,以确保公司可以为实时 AI 创建自己的真实数据集。
作者:Alan Ho,DataStax