paint-brush
大規模言語モデルの効率的なガイド付き生成: 議論、参考文献、謝辞@textmodels
157 測定値

大規模言語モデルの効率的なガイド付き生成: 議論、参考文献、謝辞

長すぎる; 読むには

研究者らは、正確な制御とパフォーマンスの向上を実現する、テキスト生成用の有限状態マシン フレームワークを提案しています。
featured image - 大規模言語モデルの効率的なガイド付き生成: 議論、参考文献、謝辞
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)ブランドン・T・ウィラード『ノーマルコンピューティング』

(2)レミ・ルーフ、「Normal Computing」

リンク一覧

5. 議論

この論文で紹介されている語彙のインデックス作成により、ガイド付き生成における実行時のスケーリングの障壁が取り除かれます。当然、処理とメモリの間でトレードオフが生じますが、メモリ コストは平均して比較的低く、そうでない場合でも従来の方法で削減できると考えています。


Python 文法のわずかに拡張されたバージョンを使用したテストでは、単純に構築されたインデックス (つまり、未使用で冗長なパーサーと FSM 状態構成を含むインデックス) でも、約 50 MB しかありませんでした。さらに、これらのインデックスは縮小されていない DFA で構築されたため、多数の冗長な状態があり、インデックスのサイズが不必要に増加しています。同様に、状態マシンの正確な表現が問題になる場合は、メモリ要件が低い他の状態マシンの定式化で十分である可能性があります (NFA など)。


この研究の影響は、ニューラルテキスト生成に限定されません。たとえば、ここで説明したインデックス作成アプローチを使用して、構造化された出力が必要な場合に LLM のトレーニングや微調整を支援できます。また、トレーニング中に生成を支援することで、モデルが構文の詳細を学習する必要性が軽減される可能性があると推測できます。


さらに、この方法は、現在のモデルを評価する別の方法を提供します。たとえば、この方法で生成されたマスクされたロジットとモデルによって生成された生のロジットの間の相違を定量化しようとすることができます。これにより、モデルのトレーニング目標を決定できます。


このアプローチで計算されたマスクを言語モデル自体に「持ち上げる」ことも可能かもしれません。基本的に、マスクは暗黙的にどの計算を実行する必要がないかを決定します。現在の定式化ではマスクを最下位レベルにのみ適用しますが、マスクをモデルのアーキテクチャのさらに上位に持ち上げることで、モデルパラメータのどのスライスが必要かを、不必要な操作を実行する前に調整できる可能性があります。これにより、計算コストをさらに削減できる可能性があります。

参考文献

Luca Beurer-Kellner、Marc Fischer、Martin Vechev。「プロンプトはプログラミングである: 大規模言語モデルのためのクエリ言語」。Proceedings of the ACM on Programming Languages、7(PLDI):1946–1969、2023。


Yihong Dong、Ge Li、Zhi Jin。CODEP: 汎用コード生成のための文法 Seq2Seq モデル。第 32 回 ACM SIGSOFT 国際ソフトウェアテストおよび分析シンポジウムの議事録、ISSTA 2023、188 ~ 198 ページ、ニューヨーク、ニューヨーク、米国、2023 年 7 月。Association for Computing Machinery。ISBN 9798400702211。doi: 10.1145/3597926。3598048。


Saibo Geng、Martin Josifosky、Maxime Peyrard、Robert West。言語モデルのための柔軟な文法ベースの制約付きデコード、2023年5月。


Michael Kuchnik、Virginia Smith、George Amvrosiadis。relm を使用した大規模言語モデルの検証。機械学習とシステムの議事録、5、2023 年。


Alexander K. Lew、Tan Zhi-Xuan、Gabriel Grand、およびVikash K. Mansinghka。確率プログラムを使用した大規模言語モデルのシーケンシャルモンテカルロステアリング。arXivプレプリントarXiv:2306.03081、2023。


R´emi Louf と Brandon T. Willard。アウトライン: 生成モデルプログラミング。URL https://github.com/normal-computing/outlines。


Microsoft。ガイダンス。Microsoft、2023 年 7 月。URL https://github.com/microsoft/guidance。


Gabriel Poesia、Oleksandr Polozov、Vu Le、Ashish Tiwari、Gustavo Soares、Christopher Meek、Sumit Gulwani。Synchromesh: 事前トレーニング済み言語モデルからの信頼性の高いコード生成。arXiv プレプリント arXiv:2201.11227、2022a。


Gabriel Poesia、Oleksandr Polozov、Vu Le、Ashish Tiwari、Gustavo Soares、Christopher Meek、Sumit Gulwani。Synchromesh: 事前トレーニング済み言語モデルからの信頼性の高いコード生成、2022 年 1 月 b。


Maxim Rabinovich、Mitchell Stern、Dan Klein。コード生成と意味解析のための抽象構文ネットワーク。arXiv プレプリント arXiv:1704.07535、2017 年。


Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever。言語モデルは教師なしマルチタスク学習者です。OpenAIブログ、1(8):9、2019年。


Matt Rickard. parserLLM、2023 年 7 月。URL https://github.com/r2d4/ parserllm.


Matt Rickard. R2d4/rellm: あらゆる言語モデル補完からの正確な構造。、2023b。URL https://github.com/r2d4/rellm。


Torsten Scholak、Nathan Schucher、Dzmitry Bahdanau。PICARD: 言語モデルからの制約付き自己回帰デコードのための段階的解析。arXiv プレプリント arXiv:2109.05093、2021 年。


Rico Sennrich、Barry Haddow、Alexandra Birch。サブワード単位による希少単語のニューラル機械翻訳。arXiv プレプリント arXiv:1508.07909、2015 年。


マイケル・シプサー。計算理論入門。International Thomson Publishing、1996 年。


Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser、Illia Polosukhin。「Attention is all you need.」神経情報処理システムの進歩、30、2017年。


Bailin Wang、Zi Wang、Xuezhi Wang、Yuan Cao、Rif A. Saurous、Yoon Kim。大規模言語モデルによるドメイン固有言語生成のための文法プロンプト、2023 年 5 月。


Lilian Weng。制御可能なニューラルテキスト生成、2021 年 1 月。URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/。

謝辞

サポートと建設的なフィードバックを提供してくれた Dan Gerlanc 氏と Dan Simpson 氏に感謝します。


この論文はCC 4.0ライセンスの下でarxivで公開されています