paint-brush
AnLLM-leri deňeşdirmek: OpenBookQA-dan BoolQ-a çenli düşünjelertarapyndan@anchoring

AnLLM-leri deňeşdirmek: OpenBookQA-dan BoolQ-a çenli düşünjeler

tarapyndan Anchoring2m2024/10/10
Read on Terminal Reader

Örän uzyn; Okamak

Bu bölümde, pikirlenmek we düşünmek meselelerinde modeliň işine baha bermek üçin, OpenBookQA we BoolQ ýaly birnäçe ölçegleri ulanyp, AnLLM-lere baha berýäris. Takyklygy, ýadyň netijeliligini (Düwmeler / Gymmatlyk keşleriniň azalmagy) we görkezijiniň tizlenmesini ölçýäris. Netijeler, AnLAN-laryň netijeliligi we netijeliligini ýokarlandyrmak üçin AnSAN usulyny ulanyp, dürli kontekstde näderejede gowy işleýändigini görkezýär.
featured image - AnLLM-leri deňeşdirmek: OpenBookQA-dan BoolQ-a çenli düşünjeler
Anchoring HackerNoon profile picture
0-item

Uthorsazyjylar:

(1) Makao uniwersitetinden Jianhui Pang we Jianhui Pang we Fanghua Ye Tencent AI laboratoriýasynda ([email protected]) interwensiýa edeniňizde edildi;

(2) Fanghua Ye, London uniwersitet kolleji we Jianhui Pang we Fanghua Ye Tencent AI laboratoriýasyna ([email protected]) interwensiýa edeniňizde edildi;

(3) Derek F. Wong, Makao uniwersiteti;

(4) Longyue Wang, Tencent AI laboratoriýasy we degişli ýazyjy.

Salgylar tablisasy

Abstrakt we 1 Giriş

2 Baglanyşykly iş

3 Gämi esasly Uly Dil Modelleri

3.1 Maglumat

3.2 Gämi esasly öz-özüne üns beriş torlary

3.3 Gämi esasly maglumat

4 Synag we 4.1 Biziň durmuşa geçirişimiz

4.2 Maglumat we okuw tertibi

4.3 Baha bermek

5 Netije

6 Derňew

7 Netije, çäklendirmeler, etika beýany we salgylanmalar


Has tejribe netijeleri

B Maglumat sazlamalary

4.3 Baha bermek

Gözlegimizde, netijelerimize baha bermek üçin dürli tekst uzynlygy bolan dürli ölçegler toplumyny ulanýarys, şol sanda OpenBookQA (OBQA) (Mihaýlow we başg., 2018), WinoGrande (WG) (Sakaguchi we başg., 2021), ARC-aňsat. . , 2017) we BoolQ (Klark we başg., 2019). Bu görkezijiler pikirlenmek, düşünmek, fiziki dünýä düşünmek we geljekdäki wakalary çaklamak ýaly dürli taraplara giňişleýin baha bermegi üpjün edýär. Möhümi, olar dürli uzynlykdaky tekstleri öz içine alýar, OBQA-nyň gysga giriş şertlerinden başlap, BoolQ-daky uzyn tekstlere çenli dürli meseleler we tekst çylşyrymlylygy boýunça modelimiziň işine doly baha bermäge kömek edýär. Modellerimiziň takyklygyny we netijeliligini ölçemek üçin, nol atyş we bäş atyş sazlamalary üçin üç aýratyn ölçeg ulanyp, üç ölçeg boýunça baha berýäris. Bäş okly ýagdaýda AnLLMAC üçin, her demonstrasiýanyň ahyrynda labyr belligini goşýarys.


• Takyklyk (Acc). Bu adaty ölçeg, modelleriň çaklama takyklygyny kesgitlemek üçin ulanylýar. Öňki gözleglere (Gao we başg., 2023) laýyklykda, çaklamalar hökmünde iň ýokary ähtimallyklary saýlaýarys we altyn standart ýazgylary ulanyp takyklygy hasaplaýarys.


• Düwmeler / bahalar keş keşbini azaltmak (C⇓). Bäş okly baha bermegiň çäginde, görkezişler soňraky ulanmak üçin GPU ýadynda saklanyp bilner. Muňa garamazdan, uzaldylan görkezişler ýadyň sarp edilmegini talap edip biler. Bu ölçeg, AnSAN tehnikasynyň ýadyň netijeliligini bahalandyrmak üçin döredildi.


• Çalt tizlenme gatnaşygy (T⇑). Wang we ş.m. (2023), keş görnüşli düwmelerden / bahalardan peýdalanyp, AnSAN tehnikasynyň netijeliliginiň görkezijisi bolup hyzmat edýän Inferensiýa tizlenme gatnaşygyny hödürleýäris.


Ilki bilen ähli modeller üçin doly üns beriş netijelerini habar berýäris, soňra bolsa yzygiderli maglumatlary labyr belliklerine gysyp, ulanylýan AnSAN usuly (+ AnSAN) bilen hödürleýäris.


Bu kagyz, CC BY 4.0 DEED ygtyýarnamasy boýunça arxiv-de elýeterlidir .