著者:
(1)マカオ大学のJianhui Pang氏、この研究はJianhui Pang氏とFanghua Ye氏がTencent AI Labでインターンをしていたときに行われた([email protected])。
(2)Fanghua Ye、ユニバーシティ・カレッジ・ロンドン、この研究はJianhui PangとFanghua YeがTencent AI Labでインターンをしていたときに行われた([email protected])。
(3)デレク・F・ウォン、マカオ大学
(4)Longyue Wang、Tencent AI Lab、および責任著者。
3 アンカーベースの大規模言語モデル
私たちの調査では、OpenBookQA (OBQA) (Mihaylov et al., 2018)、WinoGrande (WG) (Sakaguchi et al., 2021)、ARC-easy (ARC-e) および ARCchallenge (ARC-c) (Clark et al., 2018)、PIQA (Bisk et al., 2020)、HellaSwag (HS) (Zellers et al., 2019)、SCIQ (Welbl et al., 2017)、BoolQ (Clark et al., 2019) など、テキストの長さが異なるさまざまなベンチマークを使用して結果を評価しています。これらのベンチマークは、推論、理解、物理世界の理解、将来の出来事の予測など、さまざまな側面の包括的な評価を提供します。重要なのは、さまざまな長さのテキストをカバーしているため、OBQA の短い入力コンテキストから BoolQ の長いテキストまで、さまざまなタスクとテキストの複雑さにわたってモデルのパフォーマンスを徹底的に評価できることです。モデルの精度と効率を測定するために、ゼロショットと 5 ショットの両方の設定で 3 つの異なるメトリックを使用して、3 つの次元にわたってモデルを評価します。5 ショット設定の AnLLMAC では、各デモンストレーションの最後にアンカー トークンを組み込みます。
• 精度(Acc)。この従来の指標は、モデルの予測精度を測定するために使用されます。以前の研究(Gao et al.、2023)に従って、予測として最も高い確率のオプションを選択し、ゴールドスタンダードラベルを使用して精度を計算します。
• キー/値キャッシュの削減(C⇓)。5 ショット評価のコンテキストでは、デモを GPU メモリにキャッシュして後で再利用できます。ただし、デモを延長すると、メモリ消費量が増える可能性があります。このメトリックは、AnSAN テクニックのメモリ効率を評価するために設計されています。
• 推論加速比(T⇑)。Wang et al. (2023) と同様に、キャッシュされたキー/値を活用して、AnSAN 技術の推論効率の指標として機能する推論加速比を提示します。
まず、すべてのモデルの完全な注意推論結果を報告し、次に AnSAN メソッド (+AnSAN) を適用してシーケンス情報をアンカー トークンに圧縮した結果を提示することに注意してください。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。