paint-brush
Benchmarking AnLLMs: Insights from OpenBookQA to BoolQdeur@anchoring

Benchmarking AnLLMs: Insights from OpenBookQA to BoolQ

deur Anchoring2m2024/10/10
Read on Terminal Reader

Te lank; Om te lees

In hierdie afdeling evalueer ons AnLLM'e deur 'n reeks maatstawwe te gebruik, insluitend OpenBookQA en BoolQ, om modelprestasie op redenasie- en begripstake te assesseer. Ons meet akkuraatheid, geheue doeltreffendheid (Keys/Values Caches Reduction), en afleidingsversnelling. Resultate wys hoe goed AnLLM's in verskeie kontekste presteer, deur die AnSAN-metode te gebruik om doeltreffendheid en doeltreffendheid te verbeter.
featured image - Benchmarking AnLLMs: Insights from OpenBookQA to BoolQ
Anchoring HackerNoon profile picture
0-item

Skrywers:

(1) Jianhui Pang, van die Universiteit van Macau, en werk is gedoen toe Jianhui Pang en Fanghua Ye by Tencent AI Lab ([email protected]) studeer het;

(2) Fanghua Ye, University College London, en werk is gedoen toe Jianhui Pang en Fanghua Ye by Tencent AI Lab ([email protected]) geinterneer het;

(3) Derek F. Wong, Universiteit van Macau;

(4) Longyue Wang, Tencent AI Lab, en ooreenstemmende skrywer.

Tabel van skakels

Abstrakte en 1 Inleiding

2 Verwante werk

3 Anker-gebaseerde groot taalmodelle

3.1 Agtergrond

3.2 Anker-gebaseerde self-aandagnetwerke

3.3 Ankergebaseerde afleiding

4 Eksperimente en 4.1 Ons implementering

4.2 Data en Opleidingsprosedure

4.3 Evaluering

5 resultate

6 Ontleding

7 Gevolgtrekking, beperkings, etiekverklaring en verwysings


'N Meer eksperimentele resultate

B Data-instellings

4.3 Evaluering

In ons ondersoek gebruik ons 'n diverse versameling maatstawwe met verskillende tekslengtes om ons uitkomste te evalueer, insluitend OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) en ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), en BoolQ (Clark et al., 2019). Hierdie maatstawwe verskaf 'n omvattende evaluering van verskeie aspekte, insluitend redenering, begrip, begrip van die fisiese wêreld en voorspelling van toekomstige gebeure. Dit is belangrik dat dit tekste van verskillende lengtes dek, wat 'n deeglike assessering van ons model se prestasie oor diverse take en tekskompleksiteite fasiliteer, wat wissel van korter invoerkontekste in OBQA tot langer tekste in BoolQ. Om die akkuraatheid en doeltreffendheid van ons modelle te meet, evalueer ons hulle oor drie dimensies deur gebruik te maak van drie afsonderlike maatstawwe vir beide nulskoot- en vyfskoot-instellings. Vir AnLLMAC in die vyf-skoot-omgewing, inkorporeer ons die ankerteken aan die einde van elke demonstrasie.


• Akkuraatheid (Acc). Hierdie konvensionele maatstaf word gebruik om die voorspelling akkuraatheid van modelle te meet. In ooreenstemming met vorige studies (Gao et al., 2023), kies ons die opsies met die hoogste waarskynlikhede as voorspellings en bereken akkuraatheid deur die goudstandaard-etikette te gebruik.


• Sleutels/waardes-kasvermindering (C⇓). In die konteks van die vyfskoot-evaluering, kan die demonstrasies in GPU-geheue gekas word vir daaropvolgende hergebruik. Nietemin kan uitgebreide demonstrasies verhoogde geheueverbruik vereis. Hierdie maatstaf is ontwerp om die geheuedoeltreffendheid van die AnSAN-tegniek te assesseer.


• Inferensieversnellingsverhouding (T⇑). Soortgelyk aan Wang et al. (2023), deur gebruik te maak van die gekaste sleutels/waardes, bied ons die Inferensieversnellingsverhouding aan, wat dien as 'n aanduiding van die afleidingsdoeltreffendheid van die AnSAN-tegniek.


Let daarop dat ons eers volledige aandagafleidingsresultate vir alle modelle rapporteer, en dan resultate aanbied met die AnSAN-metode (+AnSAN) toegepas, wat volgorde-inligting in ankertekens saampers.


Hierdie vraestel is beskikbaar op arxiv onder CC BY 4.0 DEED-lisensie.