paint-brush
大型语言模型的高效引导生成:讨论、参考文献和致谢经过@textmodels

大型语言模型的高效引导生成:讨论、参考文献和致谢

太長; 讀書

研究人员提出了一种用于文本生成的有限状态机框架,可提供精确的控制和改进的性能。
featured image - 大型语言模型的高效引导生成:讨论、参考文献和致谢
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

作者:

(1) Brandon T. Willard,普通计算;

(2)R´emi Louf,《普通计算》。

链接表

5.讨论

本文介绍的词汇索引消除了引导生成中运行时扩展的障碍。当然,它在处理和内存之间进行了权衡,但我们认为内存成本平均相对较低,即使不是,也可以通过常规方式降低。


在我们使用稍微增强的 Python 语法版本进行的测试中,我们发现即使是简单构建的索引(即包含未使用和冗余解析器和 FSM 状态配置的索引)也只有 50 MB 左右。此外,这些索引是用未缩减的 DFA 构建的,这意味着存在大量冗余状态,不必要地增加了索引的大小。同样,如果状态机的精确表示是一个问题,那么其他具有较低内存要求的状态机公式可能就足够了(例如 NFA)。


这项研究的意义不仅限于神经文本生成。例如,当需要结构化输出时,可以使用本文描述的索引方法来协助 LLM 的训练或微调。我们还可以推测,在训练过程中进行辅助生成可能会减少模型学习句法细节的需要。


此外,该方法还提供了一种评估当前模型的替代方法。例如,可以尝试量化我们的方法生成的掩码逻辑与模型生成的原始逻辑之间的差异。这反过来又可以为模型的训练目标提供信息。


还可以将通过这种方法计算出的掩码“提升”到语言模型本身中。基本上,掩码隐式地确定了哪些计算不需要执行。我们目前的公式只在最低级别应用掩码,但是,通过将掩码进一步提升到模型的架构中,我们可能能够在对模型参数进行不必要的操作之前调整需要哪些模型参数片段。这有可能进一步降低计算成本。

参考

Luca Beurer-Kellner、Marc Fischer 和 Martin Vechev。提示即编程:大型语言模型的查询语言。ACM 编程语言论文集,7(PLDI):1946-1969,2023 年。


董一红、李革和金志。CODEP:用于通用代码生成的语法 Seq2Seq 模型。第 32 届 ACM SIGSOFT 国际软件测试与分析研讨会论文集 ISSTA 2023,第 188-198 页,美国纽约州纽约,2023 年 7 月。计算机协会。ISBN 9798400702211。doi:10.1145/3597926。3598048。


Saibo Geng、Martin Josifosky、Maxime Peyrard 和 Robert West。基于灵活语法的语言模型约束解码,2023 年 5 月。


Michael Kuchnik、Virginia Smith 和 George Amvrosiadis。使用 relm 验证大型语言模型。机器学习与系统论文集,第 5 卷,2023 年。


Alexander K. Lew、Tan Zhi-Xuan、Gabriel Grand 和 Vikash K. Mansinghka。使用概率程序对大型语言模型进行顺序蒙特卡罗控制。arXiv 预印本 arXiv:2306.03081,2023 年。


R´emi Louf 和 Brandon T. Willard。大纲:生成模型编程。网址 https://github.com/normal-computing/outlines。


微软。指南。微软,2023 年 7 月。URL https://github.com/microsoft/guidance。


Gabriel Poesia、Oleksandr Polozov、Vu Le、Ashish Tiwari、Gustavo Soares、Christopher Meek 和 Sumit Gulwani。Synchromesh:从预训练语言模型生成可靠的代码。arXiv 预印本 arXiv:2201.11227,2022a。


Gabriel Poesia、Oleksandr Polozov、Vu Le、Ashish Tiwari、Gustavo Soares、Christopher Meek 和 Sumit Gulwani。Synchromesh:通过预训练语言模型生成可靠的代码,2022 年 1 月。


Maxim Rabinovich、Mitchell Stern 和 Dan Klein。用于代码生成和语义解析的抽象语法网络。arXiv 预印本 arXiv:1704.07535,2017 年。


Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever。语言模型是无监督的多任务学习者。OpenAI 博客,1(8):9,2019 年。


Matt Rickard。parserLLM,2023 年 7 月。URL https://github.com/r2d4/parserllm。


Matt Rickard。R2d4/rellm:任何语言模型完成的精确结构。,2023b。URL https://github.com/r2d4/rellm。


Torsten Scholak、Nathan Schucher 和 Dzmitry Bahdanau。PICARD:从语言模型进行受约束自回归解码的增量解析。arXiv 预印本 arXiv:2109.05093,2021 年。


Rico Sennrich、Barry Haddow 和 Alexandra Birch。使用子词单元对稀有词进行神经机器翻译。arXiv 预印本 arXiv:1508.07909,2015 年。


Michael Sipser。《计算理论导论》。International Thomson Publishing,1996 年。


Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、\Lukasz Kaiser 和 Illia Polosukhin。注意力就是你所需要的一切。神经信息处理系统的进展,2017 年 30 日。


Bailin Wang、Zi Wang、Xuezhi Wang、Yuan Cao、Rif A. Saurous 和 Yoon Kim。使用大型语言模型进行领域特定语言生成的语法提示,2023 年 5 月。


Lilian Weng。可控神经文本生成,2021 年 1 月。URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/。

致谢

我们要感谢 Dan Gerlanc 和 Dan Simpson 的支持和建设性反馈。