Autors:  (1) Qian Yang, Universitat de Zhejiang, contribució igual. Aquest treball es va dur a terme durant les pràctiques de Qian Yang a Alibaba Group;  (2) Jin Xu, Alibaba Group, contribució igual;  (3) Wenrui Liu, Universitat de Zhejiang;  (4) Yunfei Chu, Grup Alibaba;  (5) Xiaohuan Zhou, Grup Alibaba;  (6) Yichong Leng, Alibaba Group;  (7) Yuanjun Lv, Grup Alibaba;  (8) Zhou Zhao, Alibaba Group i corresponent a Zhou Zhao (zhaozhou@zju.edu.cn);  (9) Yichong Leng, Universitat de Zhejiang  (10) Chang Zhou, Alibaba Group i corresponent a Chang Zhou (ericzhou.zc@alibaba-inc.com);  (11) Jingren Zhou, Alibaba Group.  Taula d'enllaços   Resum i 1. Introducció   2 Treball relacionat   3 AIR-Bench i 3.1 Visió general   3.2 Referent de la Fundació   3.3 Xat de referència   3.4 Estratègia d'avaluació  4 Experiments   4.1 Models   4.2 Principals resultats   4.3 Avaluació humana i 4.4 Estudi d'ablació del biaix posicional   5 Conclusió i referències   Resultats detallats del benchmark de la Fundació   3.2 Referent de la Fundació    Vam recollir més de 19.000 mostres de dades per a la dimensió de la base, que inclouen 19 subtasques diferents. La font de dades i les estadístiques  Font de dades.  es proporcionen a la Taula 1. Per garantir una avaluació justa i completa de cada capacitat, hem pretès una distribució uniforme dels problemes relacionats amb les diferents habilitats durant el procés de recollida de dades. Totes les fonts d'àudio es van obtenir dels subconjunts de desenvolupament o de prova originals per evitar la fuga de dades.    La consulta Q es forma mitjançant la concatenació d'una pregunta q i les opcions del candidat C. Per a la pregunta q, construïm preguntes principalment mitjançant GPT-4 (OpenAI, 2023), excepte per a les tasques de control de qualitat, ja que els conjunts de dades contenen preguntes de manera inherent i podem re- utilitzar-los. Concretament, dissenyem el missatge per a la tasca diferent i proporcionem tres preguntes com a demostracions. Posteriorment, GPT-4 genera preguntes addicionals diverses basades en aquestes entrades. Les preguntes generades es revisen manualment i es seleccionen 50 preguntes diferents per a cada tasca. La variabilitat en el format de la pregunta té com a objectiu avaluar la capacitat del model per seguir instruccions en lloc de dependre excessivament de plantilles específiques. Per a cada pregunta, generem més opcions candidates C a partir de diferents fonts: 1) Per a tasques amb opcions en conjunts de dades originals com AVQA (Yang et al., 2022), la reutilitzem directament; 2) Per a les tasques de classificació, seleccionem aleatòriament opcions del conjunt predeterminat de categories per servir com a opcions candidates; 3) Per a altres tasques, demanem a GPT-4 que generi directament les opcions candidates, que consisteixen en una opció correcta i tres opcions incorrectes. Recomanem que aquestes opcions incorrectes s'assemblen a la correcta, fent que la tasca d'elecció única sigui més difícil. La resposta de referència és l'opció correcta d'or. Per evitar el biaix de posició, les opcions dels candidats es barregen aleatòriament Consulta i referència d'opció única.  Aquest document està   sota la llicència CC BY 4.0 DEED. disponible a arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

Aquest àudio és produït a l'idioma original de la història!

Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

About Author

COMENTARIS

Etiquetes penjant

AQUEST ARTICLE VA SER PRESENTAT A

Related Stories

Generar líders de qualitat ASAP: HackerNoon's Content-Relevant Niche Ads FTW

How to Turn Year-End Reflections into Q1 Content Gold

Why Over-Explaining Your Tech Is Killing Your Content Strategy

How AWS, Bosch & Brave Reach 4M+ Tech Pros on HackerNoon

Generar líders de qualitat ASAP: HackerNoon's Content-Relevant Niche Ads FTW

How to Turn Year-End Reflections into Q1 Content Gold

Why Over-Explaining Your Tech Is Killing Your Content Strategy

How AWS, Bosch & Brave Reach 4M+ Tech Pros on HackerNoon

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps