生成式人工智能代表了企业可以用来解锁其边界内数据的最新技术。概念化生成式人工智能的可能性的最简单方法是想象一个定制的大型语言模型 - 类似于为 ChatGPT 提供支持的模型 - 在防火墙内运行。现在,这一定制的 LLM 与 OpenAI 在公共互联网上托管的 LLM 不同。相反,它已经获得了有关您业务的“高级教育”。这是通过让它访问外界无法访问的文档库来完成的。然而,这个新工具不是传统的搜索引擎,它将提供一个链接列表,需要您花费数小时来查看和进一步过滤。相反,它是一个可以生成您需要的内容的解决方案。随着时间的推移,你会发现自己既向它发出命令,又向它提出问题。以下是一些示例,可让您感受一下可能性:
“了解我们最近在欧洲股市的发现。”
“为我关于生成人工智能的演讲创建一个摘要。”
“查找我们本季度发布的所有内容。”
上面的示例是研究场景,但构造良好的大型语言模型 (LLM) 也可用于客户支持(聊天机器人)、摘要、研究、翻译和文档创建等。
这些简单的例子凸显了生成式人工智能的力量——它是一种可以更有效地完成工作的工具,而不是生成阅读列表。
这样的工具不可能凭意愿而存在,如果不考虑安全性和数据质量等问题,事情可能会变得非常糟糕。此外,为生成式人工智能提供动力的模型无法在传统数据中心内运行。他们需要一个现代化的环境,配备现代工具来管理非结构化数据(数据湖)、为您的法学硕士创建 AI/ML 管道(MLOP 工具),以及允许法学硕士获得有关您的自定义语料库所需的教育的新工具。 (我正在谈论用于实现检索增强生成的向量数据库 - 我将在本文后面进一步解释)。
在这篇文章中,我想从概念层面介绍企业成功实施生成式人工智能应考虑的因素。
让我们从关于数据的对话开始。
一个重要的区别是,生成式人工智能所需的数据与传统人工智能使用的数据不同。数据将是非结构化的 - 具体来说,您需要的数据将是锁定在 SharePoint、Confluence 和网络文件共享等工具中的文档。一个好的生成式人工智能解决方案还可以处理非文本内容,例如音频和视频文件。您将需要一个数据管道来收集所有这些数据并将其放在一个屋檐下。
这可能是生成人工智能计划中最具挑战性的任务。我们都知道 Confluence 网站和 Sharepoint 网站在组织内出现的速度有多快。无法保证其中的文件完整、真实和准确。其他问题包括安全性、个人身份信息以及许可条款(如果文档来自外部来源)。
一旦你确定了包含真正情报的文件,你就需要一个地方来放置它们。不幸的是,他们不能留在原来的位置了。 SharePoint、Confluence 和网络文件共享这些工具的设计初衷并不是为了快速提供文档以进行训练和推理。这就是 MinIO 发挥作用的地方。您将希望将文档存储在具有您所习惯的所有功能的存储解决方案中:根据您的需求进行扩展、大规模性能、可靠、容错和云原生接口。最重要的是,您需要构建一个数据管道,聚合来自多个来源的原始数据,然后将其转换以供法学硕士使用。下图显示了组织内可能存在的各种来源以及应进行的高级检查。
让我们通过深入研究将原始数据转换为高质量数据所需的安全性和质量检查来仔细研究数据管道。
组织应该首先盘点所有文档来源。对于每个文档源,应对找到的所有文档进行编目。应审查有关许可和安全的文件。某些文档可能需要从您的解决方案中排除。此过程的一个重要部分是确定在将其纳入生成人工智能解决方案之前需要修改的受限数据。
检查完文件的安全性和许可后,接下来就是质量检查。例如,真实性、多样性(如果是关于人的)和冗余。没有高质量的数据就无法创建准确的模型。对于传统人工智能(监督学习、无监督学习和强化学习)来说确实如此,对于生成式人工智能尤其如此。低质量的文档、冗余的文档和包含不准确数据的文档会淡化法学硕士的回答,甚至产生幻觉。
更详细的管道的可视化如下所示:
关于存储解决方案重要性的一些想法:您的质量文档需要存放在一个存储解决方案中,该解决方案可以快速为您的数据提供培训、微调和推理服务。您的工程师可以进行的实验越多,您的模型最终的性能就越好。您还需要跟踪实验、保存处理后的数据并对模型进行版本控制。这可以通过直接将此信息保存到 MinIO 或使用您选择的 MLOP 工具来手动完成。许多 MLOP 工具在底层都使用对象存储。例如,DataBricks 的 MLFlow 和 Google 的 KubeFlow 都使用 MinIO。此外,上图中描述的 MinIO 实例应该来自现代数据湖的实现。现代数据湖是支持人工智能的系统架构的中心。
让我们继续讨论法学硕士如何使用包含质量文档的对象存储。
在本节中,我们将研究使用开源法学硕士和高质量文档来生成特定领域内容的两种方法。这两种技术是微调和检索增强生成(RAG)。
当我们微调模型时,我们会使用自定义信息对其进行更多训练。这可能是获得特定领域法学硕士学位的好方法。虽然此选项确实需要计算来针对自定义语料库执行微调,但它不像从头开始训练模型那么密集,并且可以在适度的时间内完成。
如果您的域名包含日常使用中找不到的术语,微调将提高法学硕士回复的质量。例如,使用医学研究、环境研究以及任何与自然科学相关的文件的项目将受益于微调。微调采用文档中找到的高度具体的语言,并将它们烘焙到模型的参数中。
缺点
微调需要计算资源。
可解释性是不可能的。
随着语料库的发展,您将需要定期使用新数据进行重新微调。
幻觉是一个令人担忧的问题。
优点
法学硕士通过微调从您的自定义语料库中获取知识。
与 RAG 相比,实现价值的时间更短。
虽然微调是向法学硕士传授您的业务语言的好方法,但它会稀释数据,因为大多数法学硕士包含数十亿个参数,而您的数据将分布在所有这些参数中。
让我们看一下在推理时结合自定义数据和参数数据的技术。
检索增强生成 (RAG) 是一种从提出问题开始的技术,将其与附加数据结合起来,然后将问题和数据传递给法学硕士和矢量数据库以进行内容创建。使用 RAG,不需要任何培训,因为我们通过向法学硕士发送来自我们的优质文档语料库的相关文本片段来对其进行教育。
使用问答任务时,它的工作原理如下:用户在应用程序的用户界面中提出问题。您的应用程序将接受问题(特别是其中的单词),并使用矢量数据库在质量文档语料库中搜索上下文相关的文本片段。这些片段与原始问题一起发送给法学硕士。整个包 - 问题加片段(上下文)被称为提示。法学硕士将使用此信息来生成您的答案。这似乎是一件愚蠢的事情——如果你已经知道答案(片段),为什么还要费心去攻读法学硕士呢?好吧 - 请记住 - 这是实时发生的,目标是生成文本 - 您可以将其复制并粘贴到您的研究中。您需要法学硕士来创建包含自定义语料库信息的文本。
这比微调更复杂。您可能听说过矢量数据库 - 它们是寻找问题的最佳上下文时的关键组成部分。设置矢量数据库可能很棘手。如果您需要一个简单的临时解决方案,您可以使用文本搜索工具,例如 Elastic Search。然而,矢量数据库更好,因为它们可以学习单词的语义,并引入使用具有相同或相似含义的不同单词的上下文。
缺点
需要矢量数据库。
与微调相比,实现价值的时间更长。 (由于向量数据库和向法学硕士发送请求之前需要进行预处理。)
优点
任何愿意适当规划的企业都可以成功实施生成式人工智能。
与人工智能的所有事物一样,生成式人工智能始于数据。为生成人工智能提供动力的大型语言模型所需的数据是定义防火墙内独特知识的自定义语料库。不要将自己局限于基于文本的文档。可以使用音频和视频格式的培训视频、录制的会议和录制的活动。构建数据管道并不容易,必须注意保护安全性和许可,同时确保质量。
开源模型消除了设计模型的复杂性,并且由于大多数模型都是经过预训练的,因此它们还消除了初始训练的高昂成本。组织应该尝试微调,看看是否可以提高生成内容的质量。
最后,检索增强生成(RAG)是一种强大的技术,可用于将组织的自定义文档语料库中的知识与法学硕士的参数知识相结合。与微调不同,语料库中的信息不会被训练成模型的参数。相反,相关片段在推理时定位并作为上下文传递到模型。
生成式人工智能是一项新技术,新技术需要基础设施的更新。对于认真对待生成式 AI 的组织来说,下一步是创建一个系统架构,其中包括 AI/ML 管道、数据管道、现代数据湖和矢量数据库(如果要使用 RAG)。在这篇文章中,我从较高的层面介绍了这些技术。
请继续关注此博客,了解生成式人工智能系统架构的更详细说明。如果您有任何疑问,请通过 [email protected] 联系我们或加入Slack 社区。
也出现在这里。