paint-brush
Kulinganisha AnLLMs: Maarifa kutoka OpenBookQA hadi BoolQkwa@anchoring

Kulinganisha AnLLMs: Maarifa kutoka OpenBookQA hadi BoolQ

kwa Anchoring2m2024/10/10
Read on Terminal Reader

Ndefu sana; Kusoma

Katika sehemu hii, tunatathmini AnLLM kwa kutumia vigezo mbalimbali, ikijumuisha OpenBookQA na BoolQ, ili kutathmini utendakazi wa kielelezo kwenye kazi za hoja na ufahamu. Tunapima usahihi, ufanisi wa kumbukumbu (Kupunguza Vifunguo/Akiba za Thamani), na kuongeza kasi ya makisio. Matokeo yanaonyesha jinsi AnLLM hufanya kazi vizuri katika miktadha mbalimbali, kwa kutumia mbinu ya AnSAN ili kuongeza ufanisi na ufanisi.
featured image - Kulinganisha AnLLMs: Maarifa kutoka OpenBookQA hadi BoolQ
Anchoring HackerNoon profile picture
0-item

Waandishi:

(1) Jianhui Pang, kutoka Chuo Kikuu cha Macau, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);

(2) Fanghua Ye, Chuo Kikuu cha London, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Chuo Kikuu cha Macau;

(4) Longyue Wang, Tencent AI Lab, na mwandishi sambamba.

Jedwali la Viungo

Muhtasari na 1 Utangulizi

2 Kazi Zinazohusiana

Miundo 3 ya Lugha Kubwa yenye msingi wa Nanga

3.1 Usuli

3.2 Mitandao ya Kujizingatia yenye Anchor

3.3 Maelekezo yenye msingi wa Nanga

4 Majaribio na 4.1 Utekelezaji Wetu

4.2 Utaratibu wa Takwimu na Mafunzo

4.3 Tathmini

5 Matokeo

6 Uchambuzi

7 Hitimisho, Mapungufu, Taarifa ya Maadili, na Marejeleo


Matokeo Zaidi ya Majaribio

B Mipangilio ya Data

4.3 Tathmini

Katika uchunguzi wetu, tunatumia mkusanyo mbalimbali wa vigezo vyenye urefu tofauti wa maandishi ili kutathmini matokeo yetu, ikiwa ni pamoja na OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-rahisi. (ARC-e) na ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), na BoolQ (Clark et al., 2019). Vigezo hivi hutoa tathmini ya kina ya vipengele mbalimbali, ikiwa ni pamoja na hoja, ufahamu, uelewa wa ulimwengu wa kimwili, na kutabiri matukio ya baadaye. Muhimu zaidi, yanashughulikia maandishi ya urefu tofauti, kuwezesha tathmini ya kina ya utendakazi wa muundo wetu katika kazi mbalimbali na utata wa maandishi, kuanzia miktadha mifupi ya ingizo katika OBQA hadi maandishi marefu katika BoolQ. Ili kupima usahihi na ufanisi wa miundo yetu, tunaitathmini katika vipimo vitatu kwa kutumia vipimo vitatu tofauti kwa mipangilio ya risasi sifuri na tano. Kwa AnLLMAC katika mpangilio wa picha tano, tunajumuisha tokeni ya nanga mwishoni mwa kila onyesho.


• Usahihi (Acc). Kipimo hiki cha kawaida hutumika kupima usahihi wa utabiri wa miundo. Kwa mujibu wa tafiti za awali (Gao et al., 2023), tunachagua chaguo zilizo na uwezekano mkubwa zaidi kama utabiri na kukokotoa usahihi kwa kutumia lebo za viwango vya dhahabu.


• Kupunguza Akiba za Funguo/Thamani (C⇓). Katika muktadha wa tathmini ya picha tano, maonyesho yanaweza kuhifadhiwa katika kumbukumbu ya GPU kwa matumizi tena ya baadaye. Walakini, maonyesho ya muda mrefu yanaweza kuhitaji kuongezeka kwa matumizi ya kumbukumbu. Kipimo hiki kimeundwa ili kutathmini ufanisi wa kumbukumbu wa mbinu ya AnSAN.


• Uwiano wa Kuongeza Kasi ya Maelekezo (T⇑). Sawa na Wang et al. (2023), kwa herufi kubwa kwa funguo/thamani zilizoakibishwa, tunawasilisha uwiano wa kuongeza kasi ya Maelekezo, ambao hutumika kama kiashirio cha ufanisi wa makisio wa mbinu ya AnSAN.


Kumbuka kwamba tunaripoti kwanza matokeo kamili ya makisio ya usikivu kwa miundo yote, kisha tuwasilishe matokeo kwa kutumia mbinu ya AnSAN (+AnSAN), ikibana maelezo ya mfuatano kuwa tokeni za kuunga mkono.


Karatasi hii inapatikana kwenye arxiv chini ya leseni ya CC BY 4.0 DEED.