Tekijät:  (1) Jianhui Pang, Macaon yliopistosta, ja työ tehtiin, kun Jianhui Pang ja Fanghua Ye olivat harjoittelussa Tencent AI Labissa (nlp2ct.pangjh3@gmail.com);  (2) Fanghua Ye, University College London, ja työ tehtiin, kun Jianhui Pang ja Fanghua Ye harjoittelivat Tencent AI Labissa (fanghua.ye.19@ucl.ac.uk);  (3) Derek F. Wong, Macaon yliopisto;  (4) Longyue Wang, Tencent AI Lab ja vastaava kirjoittaja.  Linkkitaulukko   Tiivistelmä ja 1 Johdanto   2 Aiheeseen liittyvää työtä  3 ankkuripohjaista suurta kielimallia   3.1 Tausta   3.2 Ankkuripohjaiset itsetarkkailuverkot   3.3 Ankkuripohjainen päättely   4 kokeilua ja 4.1 toteutuksemme   4.2 Tiedot ja koulutusmenettely   4.3 Arviointi   5 tulosta   6 Analyysi   7 Johtopäätös, rajoitukset, eettinen lausunto ja viitteet   Lisää kokeellisia tuloksia   B Tietoasetukset  4.3 Arviointi  Tutkimuksessamme käytämme tulosten arvioimiseen monipuolista kokoelmaa vertailuarvoja, joiden tekstipituudet vaihtelevat, mukaan lukien OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) ja ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017) ja BoolQ (Clark et al., 2019). Nämä vertailuarvot tarjoavat kattavan arvion eri näkökohdista, kuten päättelystä, ymmärtämisestä, fyysisen maailman ymmärtämisestä ja tulevien tapahtumien ennustamisesta. Tärkeää on, että ne kattavat eripituisia tekstejä, mikä helpottaa mallimme suorituskyvyn perusteellista arviointia erilaisissa tehtävissä ja tekstin monimutkaisissa tilanteissa, jotka vaihtelevat OBQA:n lyhyemmistä syöttökonteksteista BoolQ:n pidempiin teksteihin. Mittaaksemme malliemme tarkkuutta ja tehokkuutta arvioimme ne kolmessa ulottuvuudessa käyttämällä kolmea erillistä mittaria sekä nolla- että viiden laukauksen asetuksille. AnLLMAC:lle viiden laukauksen asetuksessa sisällytämme ankkuritunnuksen jokaisen esittelyn loppuun.    Tätä tavanomaista mittaria käytetään mallien ennustetarkkuuden mittaamiseen. Aiempien tutkimusten (Gao et al., 2023) mukaisesti valitsemme ennusteiksi suurimmat todennäköisyydet omaavat vaihtoehdot ja laskemme tarkkuuden käyttämällä kultastandardin merkintöjä. • Tarkkuus (Acc).    (C⇓). Viiden otoksen arvioinnin yhteydessä esitykset voidaan tallentaa välimuistiin GPU-muistiin myöhempää käyttöä varten. Pidemmät esittelyt voivat kuitenkin vaatia lisää muistin kulutusta. Tämä mittari on suunniteltu arvioimaan AnSAN-tekniikan muistin tehokkuutta. • Avainten/arvojen välimuistin vähentäminen    (T⇑). Samanlainen kuin Wang et ai. (2023) hyödyntäen välimuistissa olevia avaimia/arvoja, esittelemme Inference Acceleration ration, joka toimii indikaattorina AnSAN-tekniikan päättelytehokkuudesta. • Päätelmäkiihtyvyyssuhde  Huomaa, että raportoimme ensin täyden huomion päättelytulokset kaikista malleista, sitten esitämme tulokset käyttämällä AnSAN-menetelmää (+AnSAN) ja pakkaamme sekvenssitiedot ankkuritunnisteiksi.  Tämä paperi on   CC BY 4.0 DEED -lisenssillä. saatavilla arxivissa

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

Tämä ääni on tuotettu tarinan alkuperäisellä kielellä!

AnLLM:iden benchmarking: näkemyksiä OpenBookQA:sta BoolQ:han

About Author

KOMMENTIT

RIPUTA TAGSIA

TÄMÄ ARTIKKELI ESITETTIIN

Related Stories

About Bitcoin And “Web 2.5,” HackerNoon’s First Documentary

The Spacecoin Writing Contest by Spacecoin and HackerNoon: Final Round Results 🎉

PENANCE

Tee Q1 markkinointi lasketaan: keskittyä, suorittaa, toimittaa

About Bitcoin And “Web 2.5,” HackerNoon’s First Documentary

The Spacecoin Writing Contest by Spacecoin and HackerNoon: Final Round Results 🎉

PENANCE

Tee Q1 markkinointi lasketaan: keskittyä, suorittaa, toimittaa

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps