paint-brush
Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQpodle@anchoring
Nová historie

Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQ

podle Anchoring2m2024/10/10
Read on Terminal Reader

Příliš dlouho; Číst

V této části hodnotíme AnLLM pomocí řady benchmarků, včetně OpenBookQA a BoolQ, abychom hodnotili výkon modelu při úlohách uvažování a porozumění. Měříme přesnost, efektivitu paměti (Keys/Values Caches Reduction) a zrychlení inference. Výsledky ukazují, jak dobře fungují AnLLM v různých kontextech, využívajících metodu AnSAN ke zvýšení účinnosti a efektivity.
featured image - Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQ
Anchoring HackerNoon profile picture
0-item

autoři:

(1) Jianhui Pang z University of Macau a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);

(2) Fanghua Ye, University College London a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Univerzita v Macau;

(4) Longyue Wang, Tencent AI Lab a odpovídající autor.

Tabulka odkazů

Abstrakt a 1 Úvod

2 Související práce

3 Velké jazykové modely založené na kotvě

3.1 Pozadí

3.2 Sítě sebepozornosti založené na kotvě

3.3 Anchor-based Inference

4 Experimenty a 4.1 Naše implementace

4.2 Údaje a postup školení

4.3 Hodnocení

5 Výsledky

6 Analýza

7 Závěr, omezení, etické prohlášení a odkazy


Další experimentální výsledky

B Nastavení dat

4.3 Hodnocení

V našem šetření využíváme různorodou sbírku benchmarků s různou délkou textu k vyhodnocení našich výsledků, včetně OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) a ARCchallenge (ARC-c) (Clark a kol., 2018), PIQA (Bisk a kol., 2020), HellaSwag (HS) (Zellers a kol., 2019), SCIQ (Welbl a kol. , 2017) a BoolQ (Clark et al., 2019). Tyto benchmarky poskytují komplexní hodnocení různých aspektů, včetně uvažování, chápání, chápání fyzického světa a předpovídání budoucích událostí. Důležité je, že pokrývají texty různé délky, což usnadňuje důkladné posouzení výkonu našeho modelu napříč různými úkoly a složitostí textu, od kratších vstupních kontextů v OBQA po delší texty v BoolQ. Abychom změřili přesnost a efektivitu našich modelů, vyhodnocujeme je napříč třemi dimenzemi pomocí tří odlišných metrik pro nastavení zero-shot a pět snímků. Pro AnLLMAC v pětiranném nastavení začleňujeme token kotvy na konci každé ukázky.


• Přesnost (Acc). Tato konvenční metrika se používá k měření přesnosti předpovědi modelů. V souladu s předchozími studiemi (Gao et al., 2023) vybíráme jako predikce možnosti s nejvyšší pravděpodobností a počítáme přesnost pomocí značek zlatého standardu.


• Snížení mezipaměti klíčů/hodnot (C⇓). V kontextu pětinásobného vyhodnocení mohou být ukázky uloženy do mezipaměti v paměti GPU pro následné opětovné použití. Rozšířené demonstrace však mohou vyžadovat zvýšenou spotřebu paměti. Tato metrika je navržena pro posouzení efektivity paměti techniky AnSAN.


• Inference Acceleration Ratio (T⇑). Podobně jako Wang et al. (2023), využívající klíče/hodnoty uložené v mezipaměti, představujeme poměr zrychlení inference, který slouží jako indikátor účinnosti inference techniky AnSAN.


Všimněte si, že nejprve uvádíme výsledky úplného odvození pozornosti pro všechny modely, poté prezentujeme výsledky s použitím metody AnSAN (+AnSAN), která komprimuje sekvenční informace do kotevních tokenů.


Tento dokument je dostupný na arxiv pod licencí CC BY 4.0 DEED.