autoři:
(1) Jianhui Pang z University of Macau a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);
(2) Fanghua Ye, University College London a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Univerzita v Macau;
(4) Longyue Wang, Tencent AI Lab a odpovídající autor.
3 Velké jazykové modely založené na kotvě
3.2 Sítě sebepozornosti založené na kotvě
4 Experimenty a 4.1 Naše implementace
7 Závěr, omezení, etické prohlášení a odkazy
V našem šetření využíváme různorodou sbírku benchmarků s různou délkou textu k vyhodnocení našich výsledků, včetně OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) a ARCchallenge (ARC-c) (Clark a kol., 2018), PIQA (Bisk a kol., 2020), HellaSwag (HS) (Zellers a kol., 2019), SCIQ (Welbl a kol. , 2017) a BoolQ (Clark et al., 2019). Tyto benchmarky poskytují komplexní hodnocení různých aspektů, včetně uvažování, chápání, chápání fyzického světa a předpovídání budoucích událostí. Důležité je, že pokrývají texty různé délky, což usnadňuje důkladné posouzení výkonu našeho modelu napříč různými úkoly a složitostí textu, od kratších vstupních kontextů v OBQA po delší texty v BoolQ. Abychom změřili přesnost a efektivitu našich modelů, vyhodnocujeme je napříč třemi dimenzemi pomocí tří odlišných metrik pro nastavení zero-shot a pět snímků. Pro AnLLMAC v pětiranném nastavení začleňujeme token kotvy na konci každé ukázky.
• Přesnost (Acc). Tato konvenční metrika se používá k měření přesnosti předpovědi modelů. V souladu s předchozími studiemi (Gao et al., 2023) vybíráme jako predikce možnosti s nejvyšší pravděpodobností a počítáme přesnost pomocí značek zlatého standardu.
• Snížení mezipaměti klíčů/hodnot (C⇓). V kontextu pětinásobného vyhodnocení mohou být ukázky uloženy do mezipaměti v paměti GPU pro následné opětovné použití. Rozšířené demonstrace však mohou vyžadovat zvýšenou spotřebu paměti. Tato metrika je navržena pro posouzení efektivity paměti techniky AnSAN.
• Inference Acceleration Ratio (T⇑). Podobně jako Wang et al. (2023), využívající klíče/hodnoty uložené v mezipaměti, představujeme poměr zrychlení inference, který slouží jako indikátor účinnosti inference techniky AnSAN.
Všimněte si, že nejprve uvádíme výsledky úplného odvození pozornosti pro všechny modely, poté prezentujeme výsledky s použitím metody AnSAN (+AnSAN), která komprimuje sekvenční informace do kotevních tokenů.
Tento dokument je dostupný na arxiv pod licencí CC BY 4.0 DEED.