AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察

私たちの調査では、OpenBookQA (OBQA) (Mihaylov et al., 2018)、WinoGrande (WG) (Sakaguchi et al., 2021)、ARC-easy (ARC-e) および ARCchallenge (ARC-c) (Clark et al., 2018)、PIQA (Bisk et al., 2020)、HellaSwag (HS) (Zellers et al., 2019)、SCIQ (Welbl et al., 2017)、BoolQ (Clark et al., 2019) など、テキストの長さが異なるさまざまなベンチマークを使用して結果を評価しています。これらのベンチマークは、推論、理解、物理世界の理解、将来の出来事の予測など、さまざまな側面の包括的な評価を提供します。重要なのは、さまざまな長さのテキストをカバーしているため、OBQA の短い入力コンテキストから BoolQ の長いテキストまで、さまざまなタスクとテキストの複雑さにわたってモデルのパフォーマンスを徹底的に評価できることです。モデルの精度と効率を測定するために、ゼロショットと 5 ショットの両方の設定で 3 つの異なるメトリックを使用して、3 つの次元にわたってモデルを評価します。5 ショット設定の AnLLMAC では、各デモンストレーションの最後にアンカートークンを組み込みます。

• 精度（Acc）。この従来の指標は、モデルの予測精度を測定するために使用されます。以前の研究（Gao et al.、2023）に従って、予測として最も高い確率のオプションを選択し、ゴールドスタンダードラベルを使用して精度を計算します。

• キー/値キャッシュの削減(C⇓)。5 ショット評価のコンテキストでは、デモを GPU メモリにキャッシュして後で再利用できます。ただし、デモを延長すると、メモリ消費量が増える可能性があります。このメトリックは、AnSAN テクニックのメモリ効率を評価するために設計されています。

• 推論加速比(T⇑)。Wang et al. (2023) と同様に、キャッシュされたキー/値を活用して、AnSAN 技術の推論効率の指標として機能する推論加速比を提示します。

まず、すべてのモデルの完全な注意推論結果を報告し、次に AnSAN メソッド (+AnSAN) を適用してシーケンス情報をアンカートークンに圧縮した結果を提示することに注意してください。

この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。

AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察

長すぎる; 読むには

リンク一覧

4.3 評価

About Author

ラベル

この記事は...

Categories

Trending Topics

AnLLM のベンチマーク: OpenBookQA から BoolQ までの洞察

長すぎる; 読むには

リンク一覧

4.3 評価

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics