著者:
(1)マカオ大学のJianhui Pang氏、この研究はJianhui Pang氏とFanghua Ye氏がTencent AI Labでインターンをしていたときに行われた([email protected])。
(2)Fanghua Ye、ユニバーシティ・カレッジ・ロンドン、この研究はJianhui PangとFanghua YeがTencent AI Labでインターンをしていたときに行われた([email protected])。
(3)デレク・F・ウォン、マカオ大学
(4)Longyue Wang、Tencent AI Lab、および責任著者。
3 アンカーベースの大規模言語モデル
大規模言語モデル (LLM) では、主にデコーダーのみのトランスフォーマー アーキテクチャが採用されており、コンテキスト情報を提供して冗長な計算を回避するために、履歴トークンのキー/値情報を保持する必要があります。ただし、これらの LLM のサイズとパラメーターのボリュームが大きいため、大量の GPU メモリが必要です。このメモリ需要は入力テキストの長さに応じて増加するため、より効率的な情報の保存と処理方法が緊急に必要になります。この研究では、革新的なアンカーベースの自己注意ネットワーク (AnSAN) とアンカーベースの推論戦略を活用するアンカーベースの LLM (AnLLM) を紹介します。このアプローチにより、LLM はシーケンス情報をアンカー トークンに圧縮できるため、キー/値キャッシュが削減され、推論の効率が向上します。質問応答ベンチマークの実験では、AnLLM は同様の精度レベルを維持しながら、最大 99% のキー/値キャッシュ削減と最大 3.5 倍の推論速度を達成できることが明らかになりました。精度に若干の妥協があるにもかかわらず、AnSAN 技術を採用した AnLLM はリソース利用と計算効率において大幅に強化されており、実用的な LLM アプリケーションの可能性を強調しています。
大規模言語モデル(LLM)は、主にデコーダーのみのトランスフォーマーアーキテクチャを利用しており、自己回帰推論中に履歴トークンのキー/値情報をキャッシュしてコンテキスト情報を提供し、冗長な計算を回避する必要があります(Wei et al., 2022; Touvron et al., 2023a; OpenAI, 2023; Touvron et al., 2023b)。しかし、その巨大なサイズと高いパラメータ数のため、ロードにはかなりの量のGPUメモリが必要です。さらに、長さ
入力テキストが大きくなると、コンテキスト内学習、複雑な指示、拡張された会話で証明されているように、キー/値キャッシュの保存にはますます多くの GPU メモリが必要になります (Dong et al., 2022; Jiang et al., 2023; Wang et al., 2023)。これは、計算リソースが限られているシナリオには適していません。別のアプローチでは、これらの広範な入力を再計算する必要がありますが、時間のオーバーヘッドが増加します。したがって、この研究では、LLM の推論フェーズ中のキー/値キャッシュのストレージ需要を削減し、メモリ効率を改善して、結果として推論速度も加速することを目指しています。
最近の研究では、Wang et al. (2023) は、プレフィックスデモンストレーションのラベルワードが推論中にアンカーとして機能し、コンテキスト内学習における推論効率を向上させる効果的なコンテキスト圧縮アプローチを提供できることを実証しています。ただし、実際のアプリケーションでは、すべてのプレフィックス入力またはデモンストレーションに情報の圧縮に適したラベルワードが含まれているわけではないため、ラベルワードへの依存はテキスト情報圧縮の普遍的なアプローチとは言えません。さらに、Pang et al. (2024) は、LLM は推論中に少数の、しかし一貫性のあるプレフィックストークンのみに注意を払う傾向があることを観察しています。ただし、使用される特定のトークンは、予測不可能で制御不能であることがよくあります。これらの観察から、興味深い疑問が生じます。自然言語テキストには、シーケンスの全体的な意味情報を圧縮するアンカーポイントが含まれているのでしょうか。この文脈では、シーケンス埋め込みに関する以前の研究では、ニューラルネットワークモデル内の特別なトークンの非表示状態が意味情報をカプセル化できることが示されています (Baudiš et al.、2016; Devlin et al.、2018)。さらに、現代の LLM は通常、トレーニング フェーズと推論フェーズの両方で因果的自己注意メカニズムを利用し (Touvron ら、2023a、b)、前の各トークンに注意を払います。これは、シーケンスの最後のトークンは将来のトークンを観察できないため、他のトークンと比較して自然な情報圧縮ポイントとして機能するのに適している可能性があることを示唆しています。したがって、シーケンス アンカー トークンを信頼性が高く制御可能な方法で識別して活用する体系的なアプローチは、シーケンス情報を圧縮し、キー/値キャッシュを効果的に削減し、LLM の推論効率を向上させるために不可欠です。
この目的のために、我々は革新的なアンカーベースの自己注意ネットワーク (AnSAN) とアンカーベースの推論戦略を備えた新しいアンカーベースの大規模言語モデル(AnLLM) を提案します。AnSAN は、アンカーベースの注意マスクの助けを借りて、トレーニング プロセス中にモデルがシーケンス情報をアンカー トークン (実装の最後のトークン) に圧縮するよう設計されています。推論中、アンカーベースの推論戦略は、シーケンス情報全体を集約したアンカー トークンのキー/値キャッシュを保持し、非アンカー トークンのキー/値キャッシュを破棄することで、メモリ需要を削減します。具体的には、AnSAN のアンカーベースの注意マスクは、1) アンカー トークンが同じシーケンス内のトークンにのみ注意を向け、他のシーケンスに注意が向かないようにすること、および 2) 非アンカー トークンの注意を以前のシーケンス アンカーに向け、以前のシーケンスからの他の非アンカー トークンをブロックするという 2 つの目的を果たします。アンカーベースの注意の手法が、スパース注意の基礎となる原理と類似していることは注目に値します (Child et al., 2019)。ただし、スパース注意を使用して LLM のコンテキスト長を拡張する既存の研究 (Chen et al., 2023; Ratner et al., 2023) とは異なり、私たちの方法は、モデルを継続的に事前トレーニングしてシーケンス情報をアンカートークンに圧縮することに重点を置いています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。