好吧,ChatGPT 发布已经一年多了。在此转折点之前,研究界和行业领导者已经积极致力于生成式人工智能,特别是在计算机视觉领域,并取得了一系列稳定的扩散发现和应用。简而言之,2022 年可以被视为稳定扩散年,2023 年可以被视为大型语言模型(LLM)年。
2023 年初标志着法学硕士占据主导地位,ChatGPT 在广泛采用和创新方面处于领先地位。今年,法学硕士在各个领域变得普遍,有效地弥合了理论研究和实际行业应用之间的差距。让我们探讨塑造 2023 年 LLM 格局的关键里程碑和趋势,并深入了解它们如何彻底改变我们与技术的互动。
开源法学硕士年
2023 年,我们见证了开源大语言模型 (LLM) 非凡的一年。最重要的发布是 Meta 的 LLaMa 系列,开创了此后频繁发布的先例,每月、每周甚至每天都会有新型号出现。 Meta、EleutherAI、MosaicML、TIIUAE 和 StabilityAI 等主要参与者推出了各种在公共数据集上训练的模型,以满足 AI 社区内的不同需求。这些模型中的大多数都是仅解码器的 Transformer,延续了 ChatGPT 确立的趋势。以下是今年发布的一些最值得关注的型号:
元拉玛: LLaMa 系列具有各种规模的模型,最大的模型拥有 650 亿个参数,并使用 1.4 万亿个代币进行训练。值得注意的是,较小的模型,尤其是具有 130 亿个参数、在 1 万亿个代币上进行训练的模型,通过利用更多数据的延长训练周期表现出了卓越的性能,甚至在某些基准测试中超过了较大的模型。 13B LLaMa 模型在大多数基准测试中都优于 GPT-3,并且最大的模型在发布时设定了新的最先进的性能基准。
Pythia 由 Eleuther AI 提供: Pythia 由一套 16 个模型组成,具有 154 个部分训练的检查点,旨在促进对公开访问和透明训练的法学硕士进行受控科学研究。该系列通过提供详细的论文和用于培训法学硕士的全面代码库,为研究人员提供了极大的帮助。
MosaicML 的 MPT和TIIUAE 的猎鹰系列:两者都接受了从 1T 到 1.5T 代币等各种数据源的训练,并生成了具有 7B 和 30B 参数的版本。值得注意的是,今年晚些时候,TIIUAE 发布了 180B 模型,这是迄今为止最大的开源模型。
米斯特拉尔, 披和虎鲸:这些模型凸显了 2023 年的另一个趋势,专注于训练适合有限硬件和预算限制的更小、更高效的模型,标志着人工智能模型开发向可访问性和实用性的重大转变。
小型高效模型
2023年,我们也见证了众多小型高效车型的发布。这种趋势的主要原因是大多数研究小组训练大型模型的成本过高。此外,由于昂贵的训练和部署成本以及对内存和计算能力的要求,大型模型通常不适合许多实际应用。因此,小型高效车型成为了今年的主要趋势之一。如前所述,Mistral 和 Orca 系列一直是这一趋势的关键参与者。 Mistral 的 7B 模型令业界感到惊讶,该模型在大多数基准测试中都优于较大的同类模型,而 Phi 系列更小,只有 1.3B 至 2.7B 参数,但它提供了令人印象深刻的性能。
另一种创新方法是Orca 2:教授小语言模型如何推理,这涉及将较大模型(例如 GPT-4)中的知识提取到较小的模型中。与之前主要依靠模仿学习来复制较大模型输出的研究不同,Orca 2 旨在为“较小”的 LLM(特别是具有 7B 和 13B 参数的 LLM)配备各种推理方法,例如逐步分析和回忆-然后生成技术。这种方法使这些模型能够识别并应用最适合每项任务的方法,使 Orca 2 能够显着优于类似大小的模型,甚至可以与大 5 到 10 倍的模型竞争。
小型高效模型的成功很大程度上取决于数据质量和快速注意力技巧。虽然 Mistral 尚未披露其训练数据的具体细节,但各种研究和模型表明,数据质量对于训练有效的模型至关重要。今年最值得注意的发现之一是利马:“少即是多,利于协调” ,它证明了仅由 1,000 个训练示例组成的人工生成的高质量数据集可用于微调,以超越对 50,000 个 ChatGPT 生成的响应进行微调的同一模型。
低阶自适应调优
好吧,我们来谈谈洛拉,它成为去年推出的参数高效微调方法中最耀眼的明星。低秩适应 (LoRA) 的出现成为有效微调法学硕士的游戏规则改变者。通过将低秩矩阵近似引入到预训练模型中,LoRA 可以实现参数高效的微调,从而显着降低计算负载和存储要求。这种方法不仅节省资源,而且可以针对不同的应用程序进行定制,而不会影响基本模型的核心功能。
LoRA 基本上是冻结预训练的模型权重并注入可训练层(等级分解矩阵)。这些矩阵很紧凑,但能够近似模型行为的必要适应,允许有效的微调,同时保持原始模型知识的完整性。 LoRA 最常用的变体之一是QLoRA(量化低阶自适应) 。它是通过量化低秩矩阵而实现的普通 LoRA 的内存高效版本。这种方法允许在微调过程中使用低秩矩阵,而不会增加内存占用并且计算强度较低。
专家荟萃
这混合专家 (MoE)方法代表了去年法学硕士架构的重大飞跃。 MoE 是一种历史悠久的机器学习范式,它通过将复杂问题划分为更小、更易于管理的子问题来简化复杂问题,每个子问题都由专门的子模型或“专家”解决。这类似于拥有一个专家团队,其中每个成员都在特定领域表现出色。在 MoE 模型中,每个专家都专注于数据或任务的特定子集。对于给定的输入使用哪位专家的决定是由“门控机制”做出的,该机制充当流量指挥器,将任务路由给最合适的专家。这种方法使 MoE 模型能够高效、准确地处理广泛的任务。 MoE 特别有益,因为它结合了不同模型的优势,从而提高了单个统一模型可能难以解决的复杂任务的性能。这相当于拥有一支可供您使用的专家团队,确保问题的各个方面都由具有必要专业知识的人来管理,从而产生更完善和有效的解决方案。
去年发布的最著名的 MoE 模型之一是混合-8x-7B ,通过使用 MoE 方法组合八个较小的模型(每个模型具有 7B 参数),取得了令人印象深刻的性能。还有传言称 GPT-4 可能是一个 MoE 模型,由 8 个专家模型组成,每个模型有 2200 亿个参数。
从语言到通用基础模型
法学硕士正在发展成为通用基础模型,将其能力扩展到语言处理之外。这种转变意味着模型的转变,不仅可以理解和生成文本,还可以理解和生成代码、视觉内容、音频等。去年,我们看到了诸如拉瓦和用于视觉的 GPT-4,它在理解视觉内容方面提供了令人印象深刻的能力。这引发了通用基础模型领域有前景的研究。在不久的将来,通用基础模型将能够看到、听到和理解周围的世界,从而实现与人类更自然、直观的交互。
配备工具的代理
法学硕士与各种工具和平台的集成使人工智能在日常使用中更加易于使用和实用。配备这些工具的代理正在针对特定任务进行定制,从编码协助到创意写作,使人工智能成为许多专业工作流程中不可或缺的一部分。由于法学硕士的推理和行动能力,这一发展成为可能。这种类型的功能通常称为函数调用反应框架。还有许多在数据集上训练的模型,包括函数调用来启用此功能。此功能允许开发人员创建能够自动执行各种简单任务和工作流程的 LLM 代理。
OpenAI 仍主导行业格局
OpenAI继续主导行业格局,在研究和应用方面保持领先地位。 GPT-4 和新的GPT商店ChatGPT 中的功能仍然是行业标准,提供无与伦比且独特的高质量生成人工智能应用程序,目前没有竞争对手可以与之媲美。 OpenAI 还组织了第一届会议,展示了对其用户社区的大力支持OpenAI 开发日并在 2023 年提供各种开发人员友好的功能。Anthropic 成为最有前途的竞争对手之一,尽管其旗舰 LLM、克洛德,尚未广泛使用。又一家科技巨头谷歌发布双子座据报道,去年的成绩与 OpenAI 的 GPT 系列相比相当令人印象深刻。然而,它尚未在社区内获得足够的关注。我们将看看 2024 年他们计划发布最大版本的 Gemini 时会发生什么。
结论
2023 年是大语言模型 (LLM) 领域显着增长和创新的时期。从通过开源模型实现人工智能的民主化,到开发更高效、更专业的系统,这些进步不仅仅是技术上的壮举,也是让人工智能在各个领域更容易获得和应用的一步。展望未来,这些技术改变行业和增强人类能力的潜力仍然令人兴奋。 2024 年,我们预计会出现更加引人注目的里程碑,Meta 宣布计划训练 LLaMA-3 并计划将其开源。在行业格局中,人们也很想看看像谷歌这样的巨头或者像Anthropic这样的初创公司能否超越OpenAI。
访问并订阅我的个人博客以获取更多文章。