paint-brush
我们今天所知道的关于快速优化的一切经过@textmodels
868 讀數
868 讀數

我们今天所知道的关于快速优化的一切

太長; 讀書

本节总结了提示优化的各种方法,包括软提示调整、通过梯度引导搜索进行的离散优化以及基于编辑的技术。它讨论了语言模型在生成和优化提示中的应用,比较了 APE 和 APO 等方法,并强调了自然语言反馈的集成以提高 LLM 性能。该研究还指出了语言模型作为进化算法中的变异和交叉运算符的作用,同时强调了其无需额外训练即可优化提示的独特方法。
featured image - 我们今天所知道的关于快速优化的一切
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

作者:

(1)杨成润,Google DeepMind 和 Equal 贡献;

(2) 王学智,谷歌 DeepMind;

(3) 卢一峰,谷歌 DeepMind;

(4) 刘汉晓,谷歌 DeepMind;

(5)Quoc V. Le,谷歌 DeepMind;

(6)丹尼·周(Denny Zhou),谷歌DeepMind;

(7)Xinyun Chen,Google DeepMind 和 Equal 贡献。

链接表

摘要和 1. 引言

2 Opro:Llm 作为优化器以及 2.1 Llms 优化的目的

2.2 元提示设计

3 激励示例:数学优化和 3.1 线性回归

3.2 旅行商问题(TSP)

4 应用:快速优化和 4.1 问题设置

4.2 元提示设计

5 快速优化实验和 5.1 评估设置

5.2 主要结果

5.3 消融研究

5.4 Prompt 优化中的过度拟合分析和 5.5 与 Evoprompt 的比较

6 相关工作

7 结论、致谢和参考文献

一些失败案例

B 评分员 Llm 的提示格式

用于数学优化的 C 元提示和 C.1 元提示

C.2 用于提示优化的元提示

D 剩余 Bbh 任务的提示优化曲线

E 在 Bbh 任务上的提示优化 – 制表准确度和找到的说明

6 相关工作

提示优化。先前的研究已经开发了软提示调整方法,以优化以任务特定连续向量表示的提示(Lester 等人,2021 年;Li & Liang,2021 年;Liu 等人,2021 年;Qin & Eisner,2021 年),以及通过梯度引导搜索(Shin 等人,2020 年;Wen 等人,2023 年;Gao 等人,2020 年;Chen 等人,2023d)和强化学习(Deng 等人,2022 年;Zhang 等人,2023 年)执行离散提示优化。当只有 LLM 的 API 访问权限时,这些方法变得不适用。其他工作设计了基于编辑的无梯度提示优化方法(Xu et al., 2022;Prasad et al., 2022),其中编辑可以通过人为定义的操作(例如交换两个短语)(Prasad et al., 2022)或语言模型(例如反向翻译)(Xu et al., 2022)完成。一些最近的工作研究了用于提示优化的 LLM(Zhou et al., 2022b;Pryzant et al., 2023;Xu et al., 2023)。具体来说,APE(Zhou et al., 2022b)首先使用 LLM 生成初始指令。然后,APE 选择准确率最高的顶级指令,然后使用每个单独的指令提示 LLM 生成初始指令的语义相似变体。每一步中的 APO(Pryzant 等人,2023)指示 LLM 生成有关如何更新旧指令的文本反馈。与基于编辑的方法不同,我们工作中的优化器 LLM 在每个优化步骤中直接生成新指令,并且优化器 LLM 仅被要求提高任务准确性,而无需模仿过去的指令。与 Zhou 等人(2022b)和 Pryzant 等人(2023)相比,我们的优化过程将过去生成的指令及其在元提示中的分数结合起来,使优化器 LLM 能够发现高质量指令的常见模式。


使用自然语言反馈进行提示。最近的一项研究调查了通过使用自然语言反馈来修改模型输出来提高 LLM 性能的方法,该方法已被证明可有效减少有害的 LLM 输出 (Bai et al., 2022; Ganguli et al., 2023)、提高推理能力 (Shinn et al., 2023; Madaan et al., 2023) 和代码生成性能 (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b)、对话应用 (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023) 等 (Kim et al., 2023; Wang et al., 2023)。具体来说,Yuan et al. (2023)开发了一个人在环框架,用于从实例级反馈集合中获取系统级反馈,然后将其用于细化数据。在我们的工作中,优化器 LLM 利用提示中的优化轨迹,这隐式地要求 LLM 总结具有相似分数的解决方案之间的共同特征。我们考虑将显式自然语言反馈纳入生成的解决方案中,以供以后的优化步骤作为未来的工作。


调整语言模型以进行优化。一些先前的工作调整或提示语言模型在进化算法中充当突变和交叉运算符。Meyerson 等人 (2023) 利用具有少样本样本的语言模型在图像和代码生成等任务上提出进化交叉。在 Lehman 等人 (2022) 中,在代码差异生成上训练的大型语言模型被用作突变运算符,他们进一步设计了一种微调方法来提高 Sodarace 领域机器人模拟的性能。EvoPrompting (Chen 等人,2023a) 使用大型语言模型来演化神经网络架构,其中它们将进化搜索与软提示调整相结合。关于将轨迹作为优化的输入,OptFormer (Chen 等人,2022) 在大量超参数优化数据上训练变压器模型。另一方面,我们的工作仅通过提示进行优化,而无需额外的训练。