paint-brush
Benchmarking van AnLLM's: inzichten van OpenBookQA tot BoolQdoor@anchoring
Nieuwe geschiedenis

Benchmarking van AnLLM's: inzichten van OpenBookQA tot BoolQ

door Anchoring2m2024/10/10
Read on Terminal Reader

Te lang; Lezen

In deze sectie evalueren we AnLLM's met behulp van een reeks benchmarks, waaronder OpenBookQA en BoolQ, om de modelprestaties op redenerings- en begripstaken te beoordelen. We meten nauwkeurigheid, geheugenefficiëntie (Keys/Values Caches Reduction) en inferentieversnelling. Resultaten laten zien hoe goed AnLLM's presteren in verschillende contexten, waarbij de AnSAN-methode wordt gebruikt om de efficiëntie en effectiviteit te verbeteren.
featured image - Benchmarking van AnLLM's: inzichten van OpenBookQA tot BoolQ
Anchoring HackerNoon profile picture
0-item

Auteurs:

(1) Jianhui Pang, van de Universiteit van Macau, en het werk werd gedaan toen Jianhui Pang en Fanghua Ye stage liepen bij Tencent AI Lab ([email protected]);

(2) Fanghua Ye, University College London, en het werk werd gedaan toen Jianhui Pang en Fanghua Ye stage liepen bij Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Universiteit van Macau;

(4) Longyue Wang, Tencent AI Lab en corresponderende auteur.

Tabel met links

Samenvatting en 1 Inleiding

2 Gerelateerd werk

3 Ankergebaseerde grote taalmodellen

3.1 Achtergrond

3.2 Op anker gebaseerde zelf-aandachtsnetwerken

3.3 Ankergebaseerde inferentie

4 Experimenten en 4.1 Onze implementatie

4.2 Gegevens- en trainingsprocedure

4.3 Evaluatie

5 Resultaten

6 Analyse

7 Conclusie, beperkingen, ethische verklaring en referenties


Een meer experimentele uitkomst

B Gegevensinstellingen

4.3 Evaluatie

In ons onderzoek gebruiken we een diverse verzameling benchmarks met verschillende tekstlengtes om onze uitkomsten te evalueren, waaronder OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) en ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) en BoolQ (Clark et al., 2019). Deze benchmarks bieden een uitgebreide evaluatie van verschillende aspecten, waaronder redeneren, begrip, begrip van de fysieke wereld en het voorspellen van toekomstige gebeurtenissen. Belangrijk is dat ze teksten van verschillende lengtes bestrijken, wat een grondige beoordeling van de prestaties van ons model over diverse taken en tekstcomplexiteiten mogelijk maakt, variërend van kortere invoercontexten in OBQA tot langere teksten in BoolQ. Om de precisie en efficiëntie van onze modellen te meten, evalueren we ze over drie dimensies met behulp van drie verschillende metrieken voor zowel zero-shot- als five-shot-instellingen. Voor AnLLMAC in de five-shot-instelling nemen we het ankertoken op aan het einde van elke demonstratie.


• Nauwkeurigheid (Acc). Deze conventionele metriek wordt gebruikt om de voorspellingsnauwkeurigheid van modellen te meten. In overeenstemming met eerdere studies (Gao et al., 2023) kiezen we de opties met de hoogste waarschijnlijkheid als voorspellingen en berekenen we de nauwkeurigheid met behulp van de gouden standaardlabels.


• Keys/Values Caches Reduction (C⇓). In de context van de five-shot-evaluatie kunnen de demonstraties worden gecached in GPU-geheugen voor later hergebruik. Desalniettemin kunnen uitgebreide demonstraties een verhoogd geheugenverbruik vereisen. Deze metriek is ontworpen om de geheugenefficiëntie van de AnSAN-techniek te beoordelen.


• Inference Acceleration Ratio (T⇑). Net als Wang et al. (2023), waarbij we gebruikmaken van de gecachte sleutels/waarden, presenteren we de Inference Acceleration Ratio, die dient als een indicator van de inferentie-efficiëntie van de AnSAN-techniek.


Houd er rekening mee dat we eerst de resultaten van de volledige aandachtsinferentie voor alle modellen rapporteren en vervolgens de resultaten presenteren met de AnSAN-methode (+AnSAN) toegepast, waarbij sequentie-informatie wordt gecomprimeerd tot ankertokens.


Dit artikel is beschikbaar op arxiv onder de CC BY 4.0 DEED-licentie.