Waandishi:  (1) Jianhui Pang, kutoka Chuo Kikuu cha Macau, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab (nlp2ct.pangjh3@gmail.com);  (2) Fanghua Ye, Chuo Kikuu cha London, na kazi ilifanyika wakati Jianhui Pang na Fanghua Ye walipokuwa wakifanya kazi katika Tencent AI Lab (fanghua.ye.19@ucl.ac.uk);  (3) Derek F. Wong, Chuo Kikuu cha Macau;  (4) Longyue Wang, Tencent AI Lab, na mwandishi sambamba.  Jedwali la Viungo   Muhtasari na 1 Utangulizi   2 Kazi Zinazohusiana  Miundo 3 ya Lugha Kubwa yenye msingi wa Nanga   3.1 Usuli   3.2 Mitandao ya Kujizingatia yenye Anchor   3.3 Maelekezo yenye msingi wa Nanga   4 Majaribio na 4.1 Utekelezaji Wetu   4.2 Utaratibu wa Takwimu na Mafunzo   4.3 Tathmini   5 Matokeo   6 Uchambuzi   7 Hitimisho, Mapungufu, Taarifa ya Maadili, na Marejeleo   Matokeo Zaidi ya Majaribio   B Mipangilio ya Data  4.3 Tathmini  Katika uchunguzi wetu, tunatumia mkusanyo mbalimbali wa vigezo vyenye urefu tofauti wa maandishi ili kutathmini matokeo yetu, ikiwa ni pamoja na OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-rahisi. (ARC-e) na ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al. , 2017), na BoolQ (Clark et al., 2019). Vigezo hivi hutoa tathmini ya kina ya vipengele mbalimbali, ikiwa ni pamoja na hoja, ufahamu, uelewa wa ulimwengu wa kimwili, na kutabiri matukio ya baadaye. Muhimu zaidi, yanashughulikia maandishi ya urefu tofauti, kuwezesha tathmini ya kina ya utendakazi wa muundo wetu katika kazi mbalimbali na utata wa maandishi, kuanzia miktadha mifupi ya ingizo katika OBQA hadi maandishi marefu katika BoolQ. Ili kupima usahihi na ufanisi wa miundo yetu, tunaitathmini katika vipimo vitatu kwa kutumia vipimo vitatu tofauti kwa mipangilio ya risasi sifuri na tano. Kwa AnLLMAC katika mpangilio wa picha tano, tunajumuisha tokeni ya nanga mwishoni mwa kila onyesho.    Kipimo hiki cha kawaida hutumika kupima usahihi wa utabiri wa miundo. Kwa mujibu wa tafiti za awali (Gao et al., 2023), tunachagua chaguo zilizo na uwezekano mkubwa zaidi kama utabiri na kukokotoa usahihi kwa kutumia lebo za viwango vya dhahabu. • Usahihi (Acc).    (C⇓). Katika muktadha wa tathmini ya picha tano, maonyesho yanaweza kuhifadhiwa katika kumbukumbu ya GPU kwa matumizi tena ya baadaye. Walakini, maonyesho ya muda mrefu yanaweza kuhitaji kuongezeka kwa matumizi ya kumbukumbu. Kipimo hiki kimeundwa ili kutathmini ufanisi wa kumbukumbu wa mbinu ya AnSAN. • Kupunguza Akiba za Funguo/Thamani    (T⇑). Sawa na Wang et al. (2023), kwa herufi kubwa kwa funguo/thamani zilizoakibishwa, tunawasilisha uwiano wa kuongeza kasi ya Maelekezo, ambao hutumika kama kiashirio cha ufanisi wa makisio wa mbinu ya AnSAN. • Uwiano wa Kuongeza Kasi ya Maelekezo  Kumbuka kwamba tunaripoti kwanza matokeo kamili ya makisio ya usikivu kwa miundo yote, kisha tuwasilishe matokeo kwa kutumia mbinu ya AnSAN (+AnSAN), ikibana maelezo ya mfuatano kuwa tokeni za kuunga mkono.  Karatasi hii   chini ya leseni ya CC BY 4.0 DEED. inapatikana kwenye arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

Sauti hii imetolewa katika lugha asilia ya hadithi!

Kulinganisha AnLLMs: Maarifa kutoka OpenBookQA hadi BoolQ

About Author

MAONI

HANG TAGS

MAKALA HII ILIWASILISHWA NDANI

Related Stories

Speed up Swift compile time

Jinsi $ TRUTH token ya Swarm Network inapanga kukabiliana na taarifa mbaya kupitia uhakiki wa Blockchain

A PENDENT WORLD

Master Crypto Security: Your Complete Guide to Safe Wallet Management

Speed up Swift compile time

Jinsi $ TRUTH token ya Swarm Network inapanga kukabiliana na taarifa mbaya kupitia uhakiki wa Blockchain

A PENDENT WORLD

Master Crypto Security: Your Complete Guide to Safe Wallet Management

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps