autoři:  (1) Qian Yang, Univerzita Zhejiang, rovný příspěvek. Tato práce byla provedena během stáže Qian Yang ve společnosti Alibaba Group;  (2) Jin Xu, Alibaba Group, rovný příspěvek;  (3) Wenrui Liu, Zhejiang University;  (4) Yunfei Chu, Alibaba Group;  (5) Xiaohuan Zhou, Alibaba Group;  (6) Yichong Leng, Alibaba Group;  (7) Yuanjun Lv, Alibaba Group;  (8) Zhou Zhao, Alibaba Group a odpovídající Zhou Zhao (zhaozhou@zju.edu.cn);  (9) Yichong Leng, Zhejiang University  (10) Chang Zhou, Alibaba Group a korespondent Chang Zhou (ericzhou.zc@alibaba-inc.com);  (11) Jingren Zhou, Alibaba Group.  Tabulka odkazů   Abstrakt a 1. Úvod   2 Související práce   3 AIR-Bench a 3.1 Přehled   3.2 Základní benchmark   3.3 Srovnávací test chatu   3.4 Strategie hodnocení  4 Experimenty   4.1 Modely   4.2 Hlavní výsledky   4.3 Lidské hodnocení a 4.4 Ablační studie pozičního zkreslení   5 Závěr a odkazy   Podrobné výsledky Foundation Benchmarku   3.2 Základní benchmark    Shromáždili jsme přes 19 000 vzorků dat pro dimenzi nadace, které zahrnují 19 různých dílčích úkolů. Zdroj dat a statistiky  Zdroj dat.  jsou uvedeny v tabulce 1. Abychom zajistili spravedlivé a komplexní hodnocení každé schopnosti, zaměřili jsme se na rovnoměrné rozložení problémů souvisejících s různými schopnostmi během procesu sběru dat. Všechny zdroje zvuku byly získány z původních vývojových nebo testovacích podskupin, aby se zabránilo úniku dat.    Dotaz Q je tvořen zřetězením otázky q a možností kandidáta C. U otázky q vytváříme otázky hlavně pomocí GPT-4 (OpenAI, 2023), s výjimkou úloh QA, protože datové sady ve své podstatě obsahují otázky a můžeme je přímo re- používat je. Konkrétně navrhujeme výzvu pro konkrétní úkol a poskytujeme tři otázky jako ukázky. Následně GPT-4 generuje další různé otázky na základě těchto vstupů. Vygenerované otázky jsou ručně kontrolovány a pro každý úkol je vybráno 50 různých otázek. Variabilita formátu otázek má za cíl vyhodnotit schopnost modelu řídit se pokyny spíše než být příliš závislý na konkrétních šablonách. Pro každou otázku dále generujeme možnosti kandidátů C z různých zdrojů: 1) U úloh s možnostmi v původních souborech dat, jako je AVQA (Yang et al., 2022), je přímo znovu použijeme; 2) U klasifikačních úloh náhodně vybíráme možnosti z předem určené množiny kategorií, které slouží jako výběr kandidátů; 3) U ostatních úkolů vyzveme GPT-4, aby přímo vygeneroval výběr kandidátů, sestávající z jedné správné možnosti a tří nesprávných možností. Doporučujeme, aby se tyto nesprávné možnosti podobaly té správné, takže úkol s jednou volbou bude náročnější. Referenční odpověď je zlatá správná volba. Aby se předešlo zkreslení pozice, jsou volby kandidátů náhodně zamíchány Dotaz a reference s jednou volbou.  Tento dokument je   pod licencí CC BY 4.0 DEED. dostupný na arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

Tento zvuk je produkován v původním jazyce příběhu!

AIR-Bench Foundation: Více než 19 000 vzorků dat pro komplexní vyhodnocení zvuku

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps