paint-brush
AIR-Bench Foundation: Mbi 19 mijë mostra të dhënash për vlerësim gjithëpërfshirës audionga@benchmarking
Histori e re

AIR-Bench Foundation: Mbi 19 mijë mostra të dhënash për vlerësim gjithëpërfshirës audio

nga Benchmarking2m2024/10/16
Read on Terminal Reader

Shume gjate; Te lexosh

Standardi bazë i AIR-Bench vlerëson 19 detyra audio duke përdorur mbi 19 mijë mostra. GPT-4 gjeneron pyetje të ndryshme, me zgjedhje të kandidatëve të dizajnuara për të sfiduar modelet.
featured image - AIR-Bench Foundation: Mbi 19 mijë mostra të dhënash për vlerësim gjithëpërfshirës audio
Benchmarking HackerNoon profile picture
0-item

Autorët:

(1) Qian Yang, Universiteti Zhejiang, Kontribut i barabartë. Kjo punë u krye gjatë praktikës së Qian Yang në Alibaba Group;

(2) Jin Xu, Grupi Alibaba, Kontribut i barabartë;

(3) Wenrui Liu, Universiteti Zhejiang;

(4) Yunfei Chu, Alibaba Group;

(5) Xiaohuan Zhou, Alibaba Group;

(6) Yichong Leng, Grupi Alibaba;

(7) Yuanjun Lv, Alibaba Group;

(8) Zhou Zhao, Grupi Alibaba dhe që korrespondon me Zhou Zhao ([email protected]);

(9) Yichong Leng, Universiteti Zhejiang

(10) Chang Zhou, Grupi Alibaba dhe që korrespondon me Chang Zhou ([email protected]);

(11) Jingren Zhou, Alibaba Group.

Tabela e lidhjeve

Abstrakt dhe 1. Hyrje

2 Punë të ngjashme

3 AIR-Bench dhe 3.1 Përmbledhje

3.2 Standardi i themelimit

3.3 Standardi i bisedës

3.4 Strategjia e Vlerësimit

4 Eksperimente

4.1 Modelet

4.2 Rezultatet kryesore

4.3 Vlerësimi Njerëzor dhe 4.4 Studimi i Ablacionit të Paragjykimeve Pozicionale

5 Përfundime dhe Referenca

Një Rezultate të Detajuara të Standardit të Fondacionit

3.2 Standardi i themelimit

Burimi i të dhënave. Ne mblodhëm mbi 19 mijë mostra të dhënash për dimensionin e themelit, duke përfshirë 19 nën-detyra të ndryshme. Burimi i të dhënave dhe statistikat


Tabela 1: Statistikat e standardit të fondacionit.


Tabela 2: Statistikat dhe shembujt e standardit të bisedës.


janë dhënë në tabelën 1. Për të siguruar një vlerësim të drejtë dhe gjithëpërfshirës të çdo aftësie, ne synuam një shpërndarje të barabartë të problemeve që lidhen me aftësi të ndryshme gjatë procesit të mbledhjes së të dhënave. Të gjitha burimet audio u morën nga nëngrupet origjinale të zhvillimit ose testimit për të parandaluar rrjedhjen e të dhënave.


Pyetje dhe referencë me një zgjedhje. Pyetja Q formohet duke bashkuar një pyetje q dhe zgjedhjet e kandidatit C. Për pyetjen q, ne kryesisht ndërtojmë pyetje përmes GPT-4 (OpenAI, 2023), me përjashtim të detyrave QA pasi grupet e të dhënave përmbajnë në thelb pyetje dhe ne mund të ri-drejtojmë drejtpërdrejt përdorin ato. Në mënyrë të veçantë, ne hartojmë kërkesën për detyrën e veçantë dhe ofrojmë tre pyetje si demonstrime. Më pas, GPT-4 gjeneron pyetje shtesë të ndryshme bazuar në këto inpute. Pyetjet e krijuara shqyrtohen manualisht dhe zgjidhen 50 pyetje të ndryshme për secilën detyrë. Ndryshueshmëria në formatin e pyetjes synon të vlerësojë aftësinë e modelit për të ndjekur udhëzimet në vend që të mbështetet tepër në shabllone specifike. Për secilën pyetje, ne gjenerojmë më tej zgjedhjet e kandidatit C nga burime të ndryshme: 1) Për detyrat me zgjedhje në grupet e të dhënave origjinale si AVQA (Yang et al., 2022), ne e ripërdorim drejtpërdrejt atë; 2) Për detyrat e klasifikimit, ne zgjedhim rastësisht opsionet nga grupi i paracaktuar i kategorive për të shërbyer si zgjedhje të kandidatëve; 3) Për detyra të tjera, ne i kërkojmë GPT-4 të gjenerojë zgjedhjet e kandidatit drejtpërdrejt, të përbërë nga një opsion i saktë dhe tre opsione të pasakta. Ne inkurajojmë që këto opsione të pasakta të ngjajnë me atë të duhurin, duke e bërë detyrën me një zgjedhje më sfiduese. Përgjigja e referencës është zgjedhja e saktë e artë. Për të shmangur njëanshmërinë e pozicionit, zgjedhjet e kandidatëve përzihen rastësisht


Ky dokument është i disponueshëm në arxiv nën licencën CC BY 4.0 DEED.