Autorët:
(1) Qian Yang, Universiteti Zhejiang, Kontribut i barabartë. Kjo punë u krye gjatë praktikës së Qian Yang në Alibaba Group;
(2) Jin Xu, Grupi Alibaba, Kontribut i barabartë;
(3) Wenrui Liu, Universiteti Zhejiang;
(4) Yunfei Chu, Alibaba Group;
(5) Xiaohuan Zhou, Alibaba Group;
(6) Yichong Leng, Grupi Alibaba;
(7) Yuanjun Lv, Alibaba Group;
(8) Zhou Zhao, Grupi Alibaba dhe që korrespondon me Zhou Zhao ([email protected]);
(9) Yichong Leng, Universiteti Zhejiang
(10) Chang Zhou, Grupi Alibaba dhe që korrespondon me Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.
3 AIR-Bench dhe 3.1 Përmbledhje
4 Eksperimente
4.3 Vlerësimi Njerëzor dhe 4.4 Studimi i Ablacionit të Paragjykimeve Pozicionale
Një Rezultate të Detajuara të Standardit të Fondacionit
Burimi i të dhënave. Ne mblodhëm mbi 19 mijë mostra të dhënash për dimensionin e themelit, duke përfshirë 19 nën-detyra të ndryshme. Burimi i të dhënave dhe statistikat
janë dhënë në tabelën 1. Për të siguruar një vlerësim të drejtë dhe gjithëpërfshirës të çdo aftësie, ne synuam një shpërndarje të barabartë të problemeve që lidhen me aftësi të ndryshme gjatë procesit të mbledhjes së të dhënave. Të gjitha burimet audio u morën nga nëngrupet origjinale të zhvillimit ose testimit për të parandaluar rrjedhjen e të dhënave.
Pyetje dhe referencë me një zgjedhje. Pyetja Q formohet duke bashkuar një pyetje q dhe zgjedhjet e kandidatit C. Për pyetjen q, ne kryesisht ndërtojmë pyetje përmes GPT-4 (OpenAI, 2023), me përjashtim të detyrave QA pasi grupet e të dhënave përmbajnë në thelb pyetje dhe ne mund të ri-drejtojmë drejtpërdrejt përdorin ato. Në mënyrë të veçantë, ne hartojmë kërkesën për detyrën e veçantë dhe ofrojmë tre pyetje si demonstrime. Më pas, GPT-4 gjeneron pyetje shtesë të ndryshme bazuar në këto inpute. Pyetjet e krijuara shqyrtohen manualisht dhe zgjidhen 50 pyetje të ndryshme për secilën detyrë. Ndryshueshmëria në formatin e pyetjes synon të vlerësojë aftësinë e modelit për të ndjekur udhëzimet në vend që të mbështetet tepër në shabllone specifike. Për secilën pyetje, ne gjenerojmë më tej zgjedhjet e kandidatit C nga burime të ndryshme: 1) Për detyrat me zgjedhje në grupet e të dhënave origjinale si AVQA (Yang et al., 2022), ne e ripërdorim drejtpërdrejt atë; 2) Për detyrat e klasifikimit, ne zgjedhim rastësisht opsionet nga grupi i paracaktuar i kategorive për të shërbyer si zgjedhje të kandidatëve; 3) Për detyra të tjera, ne i kërkojmë GPT-4 të gjenerojë zgjedhjet e kandidatit drejtpërdrejt, të përbërë nga një opsion i saktë dhe tre opsione të pasakta. Ne inkurajojmë që këto opsione të pasakta të ngjajnë me atë të duhurin, duke e bërë detyrën me një zgjedhje më sfiduese. Përgjigja e referencës është zgjedhja e saktë e artë. Për të shmangur njëanshmërinë e pozicionit, zgjedhjet e kandidatëve përzihen rastësisht
Ky dokument është i disponueshëm në arxiv nën licencën CC BY 4.0 DEED.