Co-founder & CTO of Kili Ex head of AI at BNP Paribas
Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.
法学硕士已经并将继续改变人工智能和跨行业企业的游戏规则,这已经不再是新闻了。 IBM 的一项研究发现, 首席执行官们越来越多地采用生成式人工智能来提高生产力并获得竞争优势。该研究对全球 3000 名 CEO 进行了调查,发现 75% 的 CEO 认为拥有最先进的生成式 AI 的组织将拥有竞争优势。
如果您一直想知道使用法学硕士的最佳方法以及是否构建或微调它们,我们希望与您分享本指南,了解您必须了解的内容才能有效且高效地做到这一点。
首先,我们将研究法学硕士的应用方式以及它们对哪些行业影响最大,以便您更好地了解法学硕士可以实现什么目标。然后,我们将讨论为什么我们建立或微调法学硕士。最后,我们将分享关键考虑因素、策略和最佳实践,以便您的团队在做出决定后可以有更清晰的前景。
现在,让我们更深入地探讨法学硕士将如何改变行业和企业:
OpenAI、Open Research 和宾夕法尼亚大学的研究人员最近发表的一份工作论文发现,法学硕士通常可能会影响多个美国市场,而信息行业可能受到的影响最大,原因如下:
与此同时, 麦肯锡的一项研究指出,银行业是受法学硕士影响最显着的行业之一。如果这些用例得到充分实施,他们预计该技术每年可带来 2000 亿至 3400 亿美元的额外价值。
有趣的是,麦肯锡的同一项研究还声称,由于基础模型和生成人工智能,药品和医疗产品可以得到提升。研究表明, 每年的影响可能为 60 至 1100 亿美元。他们尤其看到了药物发现的潜力。就是这样:
但是,虽然围绕基础模型和法学硕士的炒作可以激发神奇修复的想法,但现实是法学硕士,基础模型并不完美。任何广泛使用 ChatGPT 或市场上其他 LLM 的人都发现,特别是对于特定领域的任务,直接使用 LLM 可能会失败。以下是法学硕士的一些挑战和局限性:
也许我们遇到的最常见的问题是幻觉。幻觉是一种现象,法学硕士可能会返回看似合理的错误陈述。幻觉有两种类型:内在幻觉和外在幻觉。当模型使用与用户输入相反的有缺陷的逻辑时,就会发生内在幻觉,而当模型误解用户问题的上下文时,就会发生外在幻觉。
像 GPT 这样的基础模型具有较小的上下文窗口,并且只能接受有限数量的字符作为输入,这对于特定应用程序来说可能并不理想。与人类类似,随着输入长度的增加,模型准确处理它的难度也随之增加。
灾难性遗忘是当人工神经网络连续在多个任务上进行训练时发生的一种现象,并且任务 A 的网络中的关键权重被修改以与任务 B 的目标保持一致。这可能会导致网络忘记任务 A,尽管它以前能够很好地执行它。
法学硕士主要接受未标记数据的训练,可能容易出现偏差,因为训练过程中使用的数据可能无法准确表示现实世界的数据分布。这是因为用于训练的有偏差的数据可能会反映在模型的输出中。
这些限制促使公司和企业战略性地思考如何与法学硕士合作。事实上,法学硕士具有改变公司运作方式的巨大潜力,这可以为他们提供更多价值,但必须解决这些挑战。这就是建立或微调现有法学硕士的问题可能出现的地方。
什么时候从头开始建立法学硕士才有意义?如果您有现有的通用法学硕士无法满足的非常独特的用例,或者法学硕士成为您公司的核心产品或主要业务驱动力,那么创建自己的法学硕士将是最有意义的。此外,如果您可以访问大量有价值的专有数据,那么建立法学硕士以利用它来发挥您的优势,同时维护数据隐私和安全也是有意义的。
在微调 LLM 时,您有两种选择:使用现有的开源 LLM 或使用商业 LLM 的 API。如果您的团队技术专业知识较少,商业法学硕士可能更有意义,而开源模式将为您提供更多控制权。也就是说,对法学硕士进行微调是存在风险的。您必须留意潜在的偏见、毒性和数据安全风险。此外,商业 API 可能会限制模型和训练数据的可定制性以及产品本身的控制。
无论您是进行微调还是选择从头开始建立法学硕士,您都必须愿意分配大量资源来实现您的目标。从头开始建立法学硕士需要大量的计算能力,除了投入时间和资金,以及寻找合适的专业知识之外。
例如,OpenAI 的 GPT-3(一种包含约 1750 亿个参数的大型语言模型)的估计成本超过 460 万美元。 OpenAI还投资了微软的一台超级计算机,拥有超过285,000个CPU核心和10,000个GPU。 Bloomberg 规模较小的 BloombergGPT 模型拥有 500 亿个参数,预计构建成本约为 270 万美元。这些估计不包括构建和确保这些法学硕士有效所需的模型迭代。
为了有效处理海量的法学硕士,有必要确保数据得到充分的清理、标记、组织和有效存储。请记住,管理和处理数据的成本可能很高,特别是考虑到所需的基础设施、工具和数据工程师。
当然,微调法学硕士可能更实用,因为它比建立自己的组织的成本更低。微调 LLM 的成本取决于几个因素,包括模型的大小、用于微调的数据量以及所使用的计算资源。
微调 LLM 的成本也会受到所使用的特定微调算法的影响,并且某些算法的计算成本比其他算法更高。 OpenAI 的微调模型的成本为每 1,000 个代币 0.0004 美元到 0.0300 美元,具体取决于您将用于训练的模型类型。此后,每 1,000 个代币的使用费用约为 0.0016 美元至 0.1200 美元。
也就是说,不同微调技术的进步使得财务和计算成本得以降低。一个例子是 Hugging Face使用公平和透明的政策评估方法来微调 GPT-3 。通过利用这种方法和 bitsandbytes 库,Hugging Face 已经证明可以对显着大于可用 GPU 内存的 LLM 进行微调。我们将在本文中讨论更多方法。
构建和微调法学硕士需要先进的技术专业知识,这不足为奇。高级机器学习工程师将具备微调法学硕士所需的知识。然而,您将需要一支由真正出色的机器学习工程师组成的团队来正确地从头开始领导和构建您自己的法学硕士。查看 OpenAI、Meta 和 Google AI 等人工智能公司的领先科学家、研究人员和架构师的个人资料,以更好地了解您的团队中需要什么样的工程师来构建您组织自己的法学硕士划痕。您还需要确保这些研究人员对您的行业和业务拥有丰富的领域知识。
垃圾进垃圾出
众所周知,从头开始构建自己的法学硕士需要大量数据。例如,LLaMA 使用的训练数据集包含 1.4 万亿个令牌,达到 4.6 TB。 LLaMA 的较小版本接受了 1 万亿个代币的训练。就 GPT 而言,使用了 1.5 万亿个代币。
对于微调法学硕士,根据您的方法和资源,您需要的会更少。一个例子是 Google 的 Med-PaLM 2,它是根据 PaLM LLM 进行微调的。根据该论文,AI 团队使用了指令微调,需要 193,000 个示例,大约相当于 1900 万到 3900 万个代币。与前身相比,Med-PaLM 2 在用于衡量 Med-PaLM 和 PaLM 性能的 MedQA 数据集上得分为 86.5%,创下了新的最先进水平。
但除了数据大小之外,公司还必须确保他们采取了适当的数据质量措施,因为“垃圾输入,垃圾输出”甚至仍然适用于使用大量训练数据的大型语言模型。
使用专有数据时,组织必须解决以下任务,以确保质量和道德符合高标准,以获得更有效的模型:
根据组织的目标,对法学硕士进行微调实际上可能就足够了。有多种方法可以使法学硕士适应您组织的需求并提高其绩效。但是,我们建议采用后向方法来确定最佳方法。这种方法还有助于降低法学硕士微调的成本,因为在这些步骤中“向后”移动得越多,技术的成本就越高。
让我们用最简单的方式来分解它。
通常,训练基础模型或LLM会从机器学习工程师进行无监督训练开始,然后有监督训练对LLM进行微调,最后进行提示和提示调整以获得所需的输出。当然,中间有不同的步骤,但我们会坚持这三个步骤。
微调LLM
我们推荐的法学硕士微调路径是倒退。其中首先开始提示调优,包括提示工程和提示调试。这将使用最少的资源。但是,假设法学硕士课程停滞不前或没有达到您想要的效果。在这种情况下,您可以继续进行监督/指令微调,其中可能包括 RLHF、检索增强生成或迁移学习等方法。
例如, 我们仅使用 200 个标记示例,通过迁移学习将 DinoV2 在特定检测缺陷分类用例上的准确度从 83% 提高到 95% 。
最后,如果其他一切都失败了,下一步将采用无监督方法,并确保我们有合适的数据集来预训练模型。
与动态环境中部署的大多数模型一样,无论是构建的还是微调的,法学硕士都需要重复才能对新数据保持有效。重申是根据新数据或更新的目标重新调整模型。公司必须创建强大的流程,使用新的数据集(通常是迭代的)定期重申模型,包括构建/微调、测试并将其部署到生产中。
OpenAI 等已经建立了成功 LLM 的公司不断推出新版本的 GPT-3。虽然 ChatGPT 的训练数据截止日期是 2021 年 9 月,但 OpenAI 使用来自用户行为的新数据来提高模型的预测能力、减少偏差并减少伤害。
您的业务目标也是建立或微调法学硕士是否有意义的关键因素。考虑法学硕士的能力如何与公司更广泛的战略愿景相契合。这样,您就可以充分利用这些强大的工具的潜力,同时专注于其核心业务目标。本文顶部提到的行业中已经引用了一些例子,但现在让我们讨论一下法学硕士擅长的一些任务及其对不同行业的战略影响:
无论您是要建立还是微调法学硕士,选择合适的法学硕士通常是第一步。是的,即使是构建法学硕士,通常也会查看以前存在的模型的架构并从那里开始。无论您选择什么,团队都必须尝试并评估多个模型,以找到最佳起点。
法学硕士的评估也面临着一系列挑战。毕竟,这仍然是一个正在进行的研究领域,因此评估这些模型没有严格的标准化或系统化。
当然,还有 HuggingFace 等社区设置的排行榜,它可以让您大致了解模型的表现。但在排行榜上表现良好的内容可能不会那么容易转化为您的特定用例。法学硕士通常在基准数据集上进行评估,但它们的表现可能无法准确反映它们在现实世界场景中的表现,而现实世界场景可能更加多样化和不可预测。
评估大型语言模型有两种方法:定量方法和定性方法。两者都有其警告。
定量评估通常涉及机器学习指标,如困惑度、BLEU、交叉熵损失等。OpenAI eval 库、EleutherAI 的 lm-eval python 包和语言模型整体评估 (HELM) 等工具允许用户评估他们的模型在许多基准上定量地建立模型。
虽然定量评估很简单,但这些指标可能不一定能帮助用户为其特定任务选择合适的模型。用户通常需要一个在特定任务中表现出色的模型,例如起草法律文件或分析公司的财务报告,而不是一个能够以最高精度预测下一个代币的模型。
定性评估涉及根据特定任务使用连贯性、偏见、创造力和可靠性等标准评估法学硕士。这种手动评估相对较慢,因为人类评估者的速度和可用性可能会成为瓶颈。然而,可以通过在数据标记中应用相同的自动化技术来优化流程:主动学习、程序化 QA、自动 QA 等。
建议使用贵公司的特定数据集进行定量和定性评估相结合,以找到最佳的法学硕士进行微调或作为基础。
机器学习中的缩放法则过去侧重于随着计算预算的扩大而增加模型的大小而不是数据集的大小。这是基于这样的假设:即使数据量保持不变,较大的模型也可以提取更多见解并表现更好。
但在 2022 年, DeepMind 对这种方法提出了挑战,认为模型通常训练不足,因此数据集的大小应该随着模型大小的增长而增长。根据 DeepMind 的研究结果,计算能力每增加十倍,模型和数据集大小就会增加大约三倍。这意味着当前模型低于最佳数据/计算曲线,并且如果不伴随数据增加,简单地增大模型不会产生更好的结果。
这些新的缩放法则建议首先根据可用信息确定最大高质量数据集大小。然后,可以使用 DeepMind 的数据最佳缩放法则,根据可用计算来选择该数据集的最佳模型大小。重要的是不要让模型任意大,而是根据数据找到适当的平衡。此外,更大的数据集需要收集专业知识和多样性以提高泛化能力,这又增加了该过程的复杂性。
数据质量影响因素
无论您是进行微调还是构建法学硕士,模型的好坏取决于它们提供的数据。因此,您的数据必须具有代表性并经过广泛的预处理。即使对于特定领域的法学硕士来说,数据源的多样性也是有益的。
例如,Google 的 Med-PaLM 2 需要来自多个健康和医学 QA 数据集的数百到数千个示例,以便对模型进行适当的微调。为了构建 BloombergGPT,使用的数据集组合是 51% 的财务数据和 49% 的一般领域数据,以实现主题多样性。在这两种情况下,研究人员都进行了广泛的数据整理,以确保使用高质量和相关的数据来构建有效的模型。
在建立或微调法学硕士方面没有直接的途径。与大多数机器学习或人工智能项目一样,从小事做起始终是一个很好的措施。从较小数据集上的较小模型开始将使实验变得更容易。对模型架构进行迭代和引入增量更改(例如宽度、深度、稀疏性等)将使您的团队更容易评估其影响。您可以从较旧的现有模型开始,根据您的需求进行调整,然后从那里开始。一旦较小的模型运行良好,您就可以逐渐增加模型和数据集的大小。
请记住保存模型的快照作为备份,以备需要后备时使用。无论您是在构建还是微调,挫折都是不可避免的,因此预测问题至关重要。
这使我们采取了缓解不稳定的关键、节省时间的做法。模型越大,维护就越困难。除了过度拟合和欠拟合之外,您的模型还可能遇到梯度消失或爆炸、模式崩溃、损失峰值、灾难性遗忘和硬件限制等问题。
我们已经讨论过灾难性遗忘,当模型在引入新类型的任务后在先前的任务上表现不佳时,就会发生灾难性遗忘。梯度消失或爆炸是训练深度神经网络时的常见问题,其中梯度变得太小或太大,导致学习过程减慢或不稳定。模式崩溃发生在生成模型中,当模型尽管具有不同的输入但生成相同的输出时,就会发生模式崩溃。损失峰值是指模型的预测越来越差。最后,与法学硕士合作可能会对硬件造成挑战,并可能导致失败。
您可以通过多种方法来做好准备,或者至少减轻不稳定因素。这些并不是开创性的,而是您在不同的深度学习应用程序中也可能看到的标准实践:
批量大小— 通常建议使用适合 GPU 内存的最大批量大小。较大的批量大小在计算效率、内存利用率和可能更准确的梯度估计方面具有优势。他们可以更好地利用 GPU 的并行处理能力,从而缩短训练时间。
使用正则化技术- 正则化技术(例如 dropout 和权重衰减)可以帮助防止过度拟合或模型不稳定。
批量归一化——批量归一化有助于减少内部协变量偏移,从而在训练过程中实现更快、更稳定的收敛。它还通过确保梯度更平滑地流过网络来帮助缓解梯度消失问题。
选择正确的权重初始化——权重初始化在减轻训练不稳定和确保有效学习方面发挥着关键作用。权重初始化的一种常见方法是使用小高斯噪声。这涉及从均值为零且标准差较小的高斯分布随机初始化权重。通过添加随机噪声,权重被赋予初始多样性,使模型能够在训练期间探索不同的解决方案。
数据增强——如果您的模型很难泛化并且容易过度拟合,那么数据增强可以通过引入训练数据的变化并提高模型的稳健性来帮助缓解这种情况。
学习率调度——随着时间的推移逐渐降低学习率,以降低损失并尽可能保持模型稳定性。您可以使用步进衰减或指数衰减。阶梯衰减是指定期将学习率降低一个因子,而指数衰减则以指数方式降低学习率。
随着企业不断认识到法学硕士的影响,企业开始询问运用这一宝贵工具的最佳方式是什么才有意义。选择正确的法学硕士并对其进行微调以满足您公司的需求可能是更简单的选择。然而,它仍然需要考虑各种因素,以尽可能最有效的方式有效地微调模型。
首先,您的团队必须能够正确评估各种法学硕士以选择最佳起点。他们应该能够轻松地尝试该模型。为了提高效率,他们在制定围绕建立或微调法学硕士的策略时需要牢记高质量的数据和最佳实践。
无论您选择哪种方式,这都是一个复杂且雄心勃勃的项目,但正如我们已经看到的,法学硕士具有带来价值的巨大潜力。
[1] IBM,CEO们拥抱生成式人工智能,因为生产力跃升为他们的首要议程(2023年),IBM Newsroom
[3] 麦肯锡公司,生成式人工智能的经济潜力:下一个生产力前沿(2023 年),麦肯锡数字洞察
[4] C. Li,揭秘 GPT-3 (2023),Lambda 实验室博客
[5] J. Langston,微软宣布推出新的超级计算机,为未来人工智能工作制定愿景(2020),微软新闻来源特色创新
[6] J. Sheikh,金融的 ChatGPT 就在这里:彭博社正在结合人工智能和金融科技 (2023),Forbes.com
[7] E. d'Archimbaud,调整基础模型以满足特定需求的 3 种方法 (2023),Kili Technology。
[8] M. Heikkilä,OpenAI 如何努力使 ChatGPT 更安全、更少偏见(2023 年),《麻省理工学院技术评论》。