autoři:
(1) Qian Yang, Univerzita Zhejiang, rovný příspěvek. Tato práce byla provedena během stáže Qian Yang ve společnosti Alibaba Group;
(2) Jin Xu, Alibaba Group, rovný příspěvek;
(3) Wenrui Liu, Zhejiang University;
(4) Yunfei Chu, Alibaba Group;
(5) Xiaohuan Zhou, Alibaba Group;
(6) Yichong Leng, Alibaba Group;
(7) Yuanjun Lv, Alibaba Group;
(8) Zhou Zhao, Alibaba Group a odpovídající Zhou Zhao ([email protected]);
(9) Yichong Leng, Zhejiang University
(10) Chang Zhou, Alibaba Group a korespondent Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.
4 Experimenty
4.3 Lidské hodnocení a 4.4 Ablační studie pozičního zkreslení
Podrobné výsledky Foundation Benchmarku
Zdroj dat. Shromáždili jsme přes 19 000 vzorků dat pro dimenzi nadace, které zahrnují 19 různých dílčích úkolů. Zdroj dat a statistiky
jsou uvedeny v tabulce 1. Abychom zajistili spravedlivé a komplexní hodnocení každé schopnosti, zaměřili jsme se na rovnoměrné rozložení problémů souvisejících s různými schopnostmi během procesu sběru dat. Všechny zdroje zvuku byly získány z původních vývojových nebo testovacích podskupin, aby se zabránilo úniku dat.
Dotaz a reference s jednou volbou. Dotaz Q je tvořen zřetězením otázky q a možností kandidáta C. U otázky q vytváříme otázky hlavně pomocí GPT-4 (OpenAI, 2023), s výjimkou úloh QA, protože datové sady ve své podstatě obsahují otázky a můžeme je přímo re- používat je. Konkrétně navrhujeme výzvu pro konkrétní úkol a poskytujeme tři otázky jako ukázky. Následně GPT-4 generuje další různé otázky na základě těchto vstupů. Vygenerované otázky jsou ručně kontrolovány a pro každý úkol je vybráno 50 různých otázek. Variabilita formátu otázek má za cíl vyhodnotit schopnost modelu řídit se pokyny spíše než být příliš závislý na konkrétních šablonách. Pro každou otázku dále generujeme možnosti kandidátů C z různých zdrojů: 1) U úloh s možnostmi v původních souborech dat, jako je AVQA (Yang et al., 2022), je přímo znovu použijeme; 2) U klasifikačních úloh náhodně vybíráme možnosti z předem určené množiny kategorií, které slouží jako výběr kandidátů; 3) U ostatních úkolů vyzveme GPT-4, aby přímo vygeneroval výběr kandidátů, sestávající z jedné správné možnosti a tří nesprávných možností. Doporučujeme, aby se tyto nesprávné možnosti podobaly té správné, takže úkol s jednou volbou bude náročnější. Referenční odpověď je zlatá správná volba. Aby se předešlo zkreslení pozice, jsou volby kandidátů náhodně zamíchány
Tento dokument je dostupný na arxiv pod licencí CC BY 4.0 DEED.