著者: (1)マカオ大学のJianhui Pang氏、この研究はJianhui Pang氏とFanghua Ye氏がTencent AI Labでインターンをしていたときに行われた(nlp2ct.pangjh3@gmail.com)。 (2)Fanghua Ye、ユニバーシティ・カレッジ・ロンドン、この研究はJianhui PangとFanghua YeがTencent AI Labでインターンをしていたときに行われた(fanghua.ye.19@ucl.ac.uk)。 (3)デレク・F・ウォン、マカオ大学 (4)Longyue Wang、Tencent AI Lab、および責任著者。 リンク一覧 要約と1 はじめに 2 関連研究 3 アンカーベースの大規模言語モデル 3.1 背景 3.2 アンカーベースの自己注意ネットワーク 3.3 アンカーベース推論 4 実験と4.1 実装 4.2 データとトレーニング手順 4.3 評価 5 件の結果 6 分析 7 結論、限界、倫理声明、参考文献 より実験的な結果 B データ設定 4.3 評価 私たちの調査では、OpenBookQA (OBQA) (Mihaylov et al., 2018)、WinoGrande (WG) (Sakaguchi et al., 2021)、ARC-easy (ARC-e) および ARCchallenge (ARC-c) (Clark et al., 2018)、PIQA (Bisk et al., 2020)、HellaSwag (HS) (Zellers et al., 2019)、SCIQ (Welbl et al., 2017)、BoolQ (Clark et al., 2019) など、テキストの長さが異なるさまざまなベンチマークを使用して結果を評価しています。これらのベンチマークは、推論、理解、物理世界の理解、将来の出来事の予測など、さまざまな側面の包括的な評価を提供します。重要なのは、さまざまな長さのテキストをカバーしているため、OBQA の短い入力コンテキストから BoolQ の長いテキストまで、さまざまなタスクとテキストの複雑さにわたってモデルのパフォーマンスを徹底的に評価できることです。モデルの精度と効率を測定するために、ゼロショットと 5 ショットの両方の設定で 3 つの異なるメトリックを使用して、3 つの次元にわたってモデルを評価します。5 ショット設定の AnLLMAC では、各デモンストレーションの最後にアンカー トークンを組み込みます。 この従来の指標は、モデルの予測精度を測定するために使用されます。以前の研究(Gao et al.、2023)に従って、予測として最も高い確率のオプションを選択し、ゴールドスタンダードラベルを使用して精度を計算します。 • 精度(Acc)。 (C⇓)。5 ショット評価のコンテキストでは、デモを GPU メモリにキャッシュして後で再利用できます。ただし、デモを延長すると、メモリ消費量が増える可能性があります。このメトリックは、AnSAN テクニックのメモリ効率を評価するために設計されています。 • キー/値キャッシュの削減 (T⇑)。Wang et al. (2023) と同様に、キャッシュされたキー/値を活用して、AnSAN 技術の推論効率の指標として機能する推論加速比を提示します。 • 推論加速比 まず、すべてのモデルの完全な注意推論結果を報告し、次に AnSAN メソッド (+AnSAN) を適用してシーケンス情報をアンカー トークンに圧縮した結果を提示することに注意してください。 この論文は、CC BY 4.0 DEED ライセンスの下で 。 arxiv で公開されています