8,343 讀數

分析法学硕士的优点、缺点和风险

经过 MinIO5m2024/04/02

太長; 讀書

大型语言模型 (LLM) 是具有类似人类思维的计算机程序。LLM 的优势在于，它们经过训练可以理解用于创建它们的训练集中单词的概率分布。要实现这些类似人类的结果，需要数据和强大的数据存储解决方案。

最近人们对大型语言模型 (LLM) 的神奇之处议论纷纷。这些荣誉大多数都是当之无愧的。请 ChatGPT 描述广义相对论，您将得到一个非常好的（且准确的）答案。然而，归根结底，ChatGPT 仍然是一个盲目执行其指令集的计算机程序（与所有其他法学硕士一样）。它对广义相对论的理解并不比你最喜欢的宠物更好。不幸的是，我们使用“类人”词语来描述工程师用来创建它们的技术，例如“机器学习”和“训练”。这是一种误导，因为法学硕士没有像人类一样的思维。

这里有一定的讽刺意味——一个不会思考的聊天机器人如何能正确总结有史以来最聪明的人的发现？为了理解 LLM 的这种矛盾性质，让我们从优点、缺点和危险方面进一步探讨它们，看看如何使用数据和 MinIO 等存储解决方案来利用第一个优点并减轻其他两个缺点。这些是每个工程师在为其组织培训、测试和部署法学硕士时都应该牢记在心的技术。

实力

法学硕士的优势在于，他们经过训练可以理解用于创建它们的训练集中单词的概率分布。如果训练集足够大（即维基百科文章的语料库或 GitHub 上的公共代码），那么模型将具有词汇表和相应的概率分布，这将使它们的结果看起来好像它们对现实世界有理解一样。他们输出的文本。让我们更详细地研究另一个例子——这次来自哲学。向 ChatGPT 询问以下问题：“‘cogito, ergo sum’是什么意思以及是谁写的？”您将得到与下面的文本类似的内容。

“Cogito, ergo sum”是一个拉丁哲学命题，英文翻译为“我思故我在”。这句话与法国哲学家、数学家和科学家勒内·笛卡尔有关。笛卡尔在其1637年出版的著作《方法论》中表达了这一思想。这句话反映了笛卡尔试图建立一个不容怀疑的基本真理——一个人作为一个有思想的存在存在的确定性。

法学硕士使用概率分布产生这样的结果。它的工作原理是这样的，他们首先查看问题中的文本，并确定单词“Cogito”成为答案的第一个单词的概率最高。从那里，他们查看问题和答案的第一个单词，以确定下一个概率最高的单词。这种情况一直持续下去，直到确定一个特殊的“答案结束”字符具有最高概率为止。

这种基于数十亿概率生成自然语言响应的能力并不可怕，相反，应该利用它来实现商业价值。当您使用现代技术时，结果会更好。例如，使用检索增强生成 (RAG) 和微调等技术，您可以向法学硕士教授您的特定业务。实现这些类似人类的结果将需要数据，而您的基础设施将需要强大的数据存储解决方案。

这些下一个令牌预测功能不仅可以用于为您的聊天机器人或营销文案生成精彩的文本，还可以用于在您的应用程序中实现自动决策。给出巧妙构造的提示，其中包含问题陈述和有关可调用的 API（“函数”）的信息，法学硕士对语言的理解将使其能够生成解释应调用什么“函数”的答案。例如，在对话式天气应用程序上，用户可能会问：“如果我今晚要去芬威球场，我需要穿雨衣吗？”通过一些巧妙的提示，法学硕士可以从查询（马萨诸塞州波士顿）中提取位置数据，并可以确定如何制定对 Weather.com 降水 API 的请求。

长期以来，构建软件最困难的部分是自然语言和句法系统（例如 API 调用）之间的接口。讽刺的是，这可能是最简单的部分之一。与文本生成类似，LLM 函数调用行为的质量和可靠性可以通过使用人工反馈的微调和强化学习 (RLHF) 来帮助提高。

现在我们了解了法学硕士擅长什么以及为什么，让我们研究一下法学硕士不能做什么。

弱点

法学硕士无法思考、理解或推理。这是法学硕士的根本限制。语言模型缺乏推理用户问题的能力。它们是概率机器，可以对用户的问题做出非常好的猜测。无论某件事的猜测有多好，它仍然是一个猜测，无论产生这些猜测，最终都会产生一些不真实的东西。在生成人工智能中，这被称为“幻觉”。

如果训练得当，幻觉可以保持在最低限度。微调和 RAG 也大大减少了幻觉。最重要的是，要正确训练模型、对其进行微调并为其提供相关上下文 (RAG)，需要数据和基础设施来大规模存储模型并以高性能方式提供服务。

让我们看看法学硕士的另一个方面，我将其归类为危险，因为它会影响我们测试它们的能力。

危险

法学硕士最流行的用途是生成人工智能。生成式人工智能不会产生可与已知结果进行比较的具体答案。这与其他人工智能用例形成鲜明对比，其他人工智能用例做出可以轻松测试的特定预测。测试图像检测、分类和回归模型非常简单。但是，如何以公正、忠实事实和可扩展的方式测试用于生成人工智能的法学硕士呢？如果您自己不是专家，您如何确定法学硕士生成的复杂答案是正确的？即使您是专家，人工审阅者也无法参与 CI/CD 管道中发生的自动化测试。

业内有一些基准可以提供帮助。 GLUE（通用语言理解评估）用于评估和衡量法学硕士的表现。它由一组评估模型处理人类语言能力的任务组成。 SuperGLUE 是 GLUE 基准的扩展，引入了更具挑战性的语言任务。这些任务涉及共指消解、问题回答和更复杂的语言现象。

虽然上述基准测试很有帮助，但解决方案的很大一部分应该是您自己的数据收集。考虑记录所有问题和答案，并根据自定义结果创建您自己的测试。这还需要一个能够扩展和执行的数据基础设施。