Auteurs:
(1) Jianhui Pang, van de Universiteit van Macau, en het werk werd gedaan toen Jianhui Pang en Fanghua Ye stage liepen bij Tencent AI Lab ([email protected]);
(2) Fanghua Ye, University College London, en het werk werd gedaan toen Jianhui Pang en Fanghua Ye stage liepen bij Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Universiteit van Macau;
(4) Longyue Wang, Tencent AI Lab en corresponderende auteur.
3 Ankergebaseerde grote taalmodellen
3.2 Op anker gebaseerde zelf-aandachtsnetwerken
3.3 Ankergebaseerde inferentie
4 Experimenten en 4.1 Onze implementatie
4.2 Gegevens- en trainingsprocedure
7 Conclusie, beperkingen, ethische verklaring en referenties
Een meer experimentele uitkomst
In ons onderzoek gebruiken we een diverse verzameling benchmarks met verschillende tekstlengtes om onze uitkomsten te evalueren, waaronder OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) en ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) en BoolQ (Clark et al., 2019). Deze benchmarks bieden een uitgebreide evaluatie van verschillende aspecten, waaronder redeneren, begrip, begrip van de fysieke wereld en het voorspellen van toekomstige gebeurtenissen. Belangrijk is dat ze teksten van verschillende lengtes bestrijken, wat een grondige beoordeling van de prestaties van ons model over diverse taken en tekstcomplexiteiten mogelijk maakt, variërend van kortere invoercontexten in OBQA tot langere teksten in BoolQ. Om de precisie en efficiëntie van onze modellen te meten, evalueren we ze over drie dimensies met behulp van drie verschillende metrieken voor zowel zero-shot- als five-shot-instellingen. Voor AnLLMAC in de five-shot-instelling nemen we het ankertoken op aan het einde van elke demonstratie.
• Nauwkeurigheid (Acc). Deze conventionele metriek wordt gebruikt om de voorspellingsnauwkeurigheid van modellen te meten. In overeenstemming met eerdere studies (Gao et al., 2023) kiezen we de opties met de hoogste waarschijnlijkheid als voorspellingen en berekenen we de nauwkeurigheid met behulp van de gouden standaardlabels.
• Keys/Values Caches Reduction (C⇓). In de context van de five-shot-evaluatie kunnen de demonstraties worden gecached in GPU-geheugen voor later hergebruik. Desalniettemin kunnen uitgebreide demonstraties een verhoogd geheugenverbruik vereisen. Deze metriek is ontworpen om de geheugenefficiëntie van de AnSAN-techniek te beoordelen.
• Inference Acceleration Ratio (T⇑). Net als Wang et al. (2023), waarbij we gebruikmaken van de gecachte sleutels/waarden, presenteren we de Inference Acceleration Ratio, die dient als een indicator van de inferentie-efficiëntie van de AnSAN-techniek.
Houd er rekening mee dat we eerst de resultaten van de volledige aandachtsinferentie voor alle modellen rapporteren en vervolgens de resultaten presenteren met de AnSAN-methode (+AnSAN) toegepast, waarbij sequentie-informatie wordt gecomprimeerd tot ankertokens.
Dit artikel is beschikbaar op arxiv onder de CC BY 4.0 DEED-licentie.