Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQ

podle Anchoring2m2024/10/10

Příliš dlouho; Číst

V této části hodnotíme AnLLM pomocí řady benchmarků, včetně OpenBookQA a BoolQ, abychom hodnotili výkon modelu při úlohách uvažování a porozumění. Měříme přesnost, efektivitu paměti (Keys/Values Caches Reduction) a zrychlení inference. Výsledky ukazují, jak dobře fungují AnLLM v různých kontextech, využívajících metodu AnSAN ke zvýšení účinnosti a efektivity.

featured image - Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQ

autoři:

(1) Jianhui Pang z University of Macau a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);

(2) Fanghua Ye, University College London a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Univerzita v Macau;

(4) Longyue Wang, Tencent AI Lab a odpovídající autor.

Tabulka odkazů

Abstrakt a 1 Úvod

2 Související práce

3 Velké jazykové modely založené na kotvě

3.1 Pozadí

3.2 Sítě sebepozornosti založené na kotvě

3.3 Anchor-based Inference

4 Experimenty a 4.1 Naše implementace

4.2 Údaje a postup školení

4.3 Hodnocení

5 Výsledky

6 Analýza

7 Závěr, omezení, etické prohlášení a odkazy

Další experimentální výsledky

B Nastavení dat

4.3 Hodnocení

V našem šetření využíváme různorodou sbírku benchmarků s různou délkou textu k vyhodnocení našich výsledků, včetně OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) a ARCchallenge (ARC-c) (Clark a kol., 2018), PIQA (Bisk a kol., 2020), HellaSwag (HS) (Zellers a kol., 2019), SCIQ (Welbl a kol. , 2017) a BoolQ (Clark et al., 2019). Tyto benchmarky poskytují komplexní hodnocení různých aspektů, včetně uvažování, chápání, chápání fyzického světa a předpovídání budoucích událostí. Důležité je, že pokrývají texty různé délky, což usnadňuje důkladné posouzení výkonu našeho modelu napříč různými úkoly a složitostí textu, od kratších vstupních kontextů v OBQA po delší texty v BoolQ. Abychom změřili přesnost a efektivitu našich modelů, vyhodnocujeme je napříč třemi dimenzemi pomocí tří odlišných metrik pro nastavení zero-shot a pět snímků. Pro AnLLMAC v pětiranném nastavení začleňujeme token kotvy na konci každé ukázky.

• Přesnost (Acc). Tato konvenční metrika se používá k měření přesnosti předpovědi modelů. V souladu s předchozími studiemi (Gao et al., 2023) vybíráme jako predikce možnosti s nejvyšší pravděpodobností a počítáme přesnost pomocí značek zlatého standardu.

• Snížení mezipaměti klíčů/hodnot (C⇓). V kontextu pětinásobného vyhodnocení mohou být ukázky uloženy do mezipaměti v paměti GPU pro následné opětovné použití. Rozšířené demonstrace však mohou vyžadovat zvýšenou spotřebu paměti. Tato metrika je navržena pro posouzení efektivity paměti techniky AnSAN.

• Inference Acceleration Ratio (T⇑). Podobně jako Wang et al. (2023), využívající klíče/hodnoty uložené v mezipaměti, představujeme poměr zrychlení inference, který slouží jako indikátor účinnosti inference techniky AnSAN.

Všimněte si, že nejprve uvádíme výsledky úplného odvození pozornosti pro všechny modely, poté prezentujeme výsledky s použitím metody AnSAN (+AnSAN), která komprimuje sekvenční informace do kotevních tokenů.

Tento dokument je dostupný na arxiv pod licencí CC BY 4.0 DEED.

L O A D I N G
. . . comments & more!

About Author

Anchoring@anchoring

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

Read my stories

ZAVĚŠIT ZNAČKY

tech-stories #anchor-based-llms #anllms #transformer-architecture #gpu-memory-optimization #anchor-self-attention-network #in-context-learning #natural-language-modeling #decoder-only-architecture

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Benchmarking AnLLMs: Statistiky od OpenBookQA po BoolQ

Příliš dlouho; Číst

Tabulka odkazů

4.3 Hodnocení

About Author

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

SOUVISEJÍCÍ PŘÍBĚHY