paint-brush
AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察@anchoring
新しい歴史

AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察

Anchoring2m2024/10/10
Read on Terminal Reader

長すぎる; 読むには

このセクションでは、OpenBookQA や BoolQ などのさまざまなベンチマークを使用して AnLLM を評価し、推論および理解タスクにおけるモデルのパフォーマンスを評価します。精度、メモリ効率 (キー/値キャッシュの削減)、および推論の加速を測定します。結果は、AnSAN メソッドを使用して効率と有効性を高め、さまざまなコンテキストで AnLLM がどの程度うまく機能するかを示しています。
featured image - AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察
Anchoring HackerNoon profile picture
0-item

著者:

(1)マカオ大学のJianhui Pang氏、この研究はJianhui Pang氏とFanghua Ye氏がTencent AI Labでインターンをしていたときに行われた([email protected])。

(2)Fanghua Ye、ユニバーシティ・カレッジ・ロンドン、この研究はJianhui PangとFanghua YeがTencent AI Labでインターンをしていたときに行われた([email protected])。

(3)デレク・F・ウォン、マカオ大学

(4)Longyue Wang、Tencent AI Lab、および責任著者。

リンク一覧

要約と1 はじめに

2 関連研究

3 アンカーベースの大規模言語モデル

3.1 背景

3.2 アンカーベースの自己注意ネットワーク

3.3 アンカーベース推論

4 実験と4.1 実装

4.2 データとトレーニング手順

4.3 評価

5 件の結果

6 分析

7 結論、限界、倫理声明、参考文献


より実験的な結果

B データ設定

4.3 評価

私たちの調査では、OpenBookQA (OBQA) (Mihaylov et al., 2018)、WinoGrande (WG) (Sakaguchi et al., 2021)、ARC-easy (ARC-e) および ARCchallenge (ARC-c) (Clark et al., 2018)、PIQA (Bisk et al., 2020)、HellaSwag (HS) (Zellers et al., 2019)、SCIQ (Welbl et al., 2017)、BoolQ (Clark et al., 2019) など、テキストの長さが異なるさまざまなベンチマークを使用して結果を評価しています。これらのベンチマークは、推論、理解、物理世界の理解、将来の出来事の予測など、さまざまな側面の包括的な評価を提供します。重要なのは、さまざまな長さのテキストをカバーしているため、OBQA の短い入力コンテキストから BoolQ の長いテキストまで、さまざまなタスクとテキストの複雑さにわたってモデルのパフォーマンスを徹底的に評価できることです。モデルの精度と効率を測定するために、ゼロショットと 5 ショットの両方の設定で 3 つの異なるメトリックを使用して、3 つの次元にわたってモデルを評価します。5 ショット設定の AnLLMAC では、各デモンストレーションの最後にアンカー トークンを組み込みます。


• 精度(Acc)。この従来の指標は、モデルの予測精度を測定するために使用されます。以前の研究(Gao et al.、2023)に従って、予測として最も高い確率のオプションを選択し、ゴールドスタンダードラベルを使用して精度を計算します。


• キー/値キャッシュの削減(C⇓)。5 ショット評価のコンテキストでは、デモを GPU メモリにキャッシュして後で再利用できます。ただし、デモを延長すると、メモリ消費量が増える可能性があります。このメトリックは、AnSAN テクニックのメモリ効率を評価するために設計されています。


• 推論加速比(T⇑)。Wang et al. (2023) と同様に、キャッシュされたキー/値を活用して、AnSAN 技術の推論効率の指標として機能する推論加速比を提示します。


まず、すべてのモデルの完全な注意推論結果を報告し、次に AnSAN メソッド (+AnSAN) を適用してシーケンス情報をアンカー トークンに圧縮した結果を提示することに注意してください。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています