Autorët:  (1) Qian Yang, Universiteti Zhejiang, Kontribut i barabartë. Kjo punë u krye gjatë praktikës së Qian Yang në Alibaba Group;  (2) Jin Xu, Grupi Alibaba, Kontribut i barabartë;  (3) Wenrui Liu, Universiteti Zhejiang;  (4) Yunfei Chu, Alibaba Group;  (5) Xiaohuan Zhou, Alibaba Group;  (6) Yichong Leng, Grupi Alibaba;  (7) Yuanjun Lv, Alibaba Group;  (8) Zhou Zhao, Grupi Alibaba dhe që korrespondon me Zhou Zhao (zhaozhou@zju.edu.cn);  (9) Yichong Leng, Universiteti Zhejiang  (10) Chang Zhou, Grupi Alibaba dhe që korrespondon me Chang Zhou (ericzhou.zc@alibaba-inc.com);  (11) Jingren Zhou, Alibaba Group.  Tabela e lidhjeve   Abstrakt dhe 1. Hyrje   2 Punë të ngjashme   3 AIR-Bench dhe 3.1 Përmbledhje   3.2 Standardi i themelimit   3.3 Standardi i bisedës   3.4 Strategjia e Vlerësimit  4 Eksperimente   4.1 Modelet   4.2 Rezultatet kryesore   4.3 Vlerësimi Njerëzor dhe 4.4 Studimi i Ablacionit të Paragjykimeve Pozicionale   5 Përfundime dhe Referenca   Një Rezultate të Detajuara të Standardit të Fondacionit   3.2 Standardi i themelimit    Ne mblodhëm mbi 19 mijë mostra të dhënash për dimensionin e themelit, duke përfshirë 19 nën-detyra të ndryshme. Burimi i të dhënave dhe statistikat  Burimi i të dhënave.  janë dhënë në tabelën 1. Për të siguruar një vlerësim të drejtë dhe gjithëpërfshirës të çdo aftësie, ne synuam një shpërndarje të barabartë të problemeve që lidhen me aftësi të ndryshme gjatë procesit të mbledhjes së të dhënave. Të gjitha burimet audio u morën nga nëngrupet origjinale të zhvillimit ose testimit për të parandaluar rrjedhjen e të dhënave.    Pyetja Q formohet duke bashkuar një pyetje q dhe zgjedhjet e kandidatit C. Për pyetjen q, ne kryesisht ndërtojmë pyetje përmes GPT-4 (OpenAI, 2023), me përjashtim të detyrave QA pasi grupet e të dhënave përmbajnë në thelb pyetje dhe ne mund të ri-drejtojmë drejtpërdrejt përdorin ato. Në mënyrë të veçantë, ne hartojmë kërkesën për detyrën e veçantë dhe ofrojmë tre pyetje si demonstrime. Më pas, GPT-4 gjeneron pyetje shtesë të ndryshme bazuar në këto inpute. Pyetjet e krijuara shqyrtohen manualisht dhe zgjidhen 50 pyetje të ndryshme për secilën detyrë. Ndryshueshmëria në formatin e pyetjes synon të vlerësojë aftësinë e modelit për të ndjekur udhëzimet në vend që të mbështetet tepër në shabllone specifike. Për secilën pyetje, ne gjenerojmë më tej zgjedhjet e kandidatit C nga burime të ndryshme: 1) Për detyrat me zgjedhje në grupet e të dhënave origjinale si AVQA (Yang et al., 2022), ne e ripërdorim drejtpërdrejt atë; 2) Për detyrat e klasifikimit, ne zgjedhim rastësisht opsionet nga grupi i paracaktuar i kategorive për të shërbyer si zgjedhje të kandidatëve; 3) Për detyra të tjera, ne i kërkojmë GPT-4 të gjenerojë zgjedhjet e kandidatit drejtpërdrejt, të përbërë nga një opsion i saktë dhe tre opsione të pasakta. Ne inkurajojmë që këto opsione të pasakta të ngjajnë me atë të duhurin, duke e bërë detyrën me një zgjedhje më sfiduese. Përgjigja e referencës është zgjedhja e saktë e artë. Për të shmangur njëanshmërinë e pozicionit, zgjedhjet e kandidatëve përzihen rastësisht Pyetje dhe referencë me një zgjedhje.  Ky dokument është   nën licencën CC BY 4.0 DEED. i disponueshëm në arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

Kjo audio është prodhuar në gjuhën origjinale të tregimit!

AIR-Bench Foundation: Mbi 19 mijë mostra të dhënash për vlerësim gjithëpërfshirës audio

About Author

KOMENTE

VARUR TAGS

KY ARTIKU U PARAQIT NË

Related Stories

Rrjeti SQD sapo vrau emetimet e tokenëve.Ja çfarë paguan 16 miliardë dollarë në DeFi TVL

Rrjeti SQD sapo vrau emetimet e tokenëve.Ja çfarë paguan 16 miliardë dollarë në DeFi TVL

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps