Autors:
(1) Qian Yang, Universitat de Zhejiang, contribució igual. Aquest treball es va dur a terme durant les pràctiques de Qian Yang a Alibaba Group;
(2) Jin Xu, Alibaba Group, contribució igual;
(3) Wenrui Liu, Universitat de Zhejiang;
(4) Yunfei Chu, Grup Alibaba;
(5) Xiaohuan Zhou, Grup Alibaba;
(6) Yichong Leng, Alibaba Group;
(7) Yuanjun Lv, Grup Alibaba;
(8) Zhou Zhao, Alibaba Group i corresponent a Zhou Zhao ([email protected]);
(9) Yichong Leng, Universitat de Zhejiang
(10) Chang Zhou, Alibaba Group i corresponent a Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.
3 AIR-Bench i 3.1 Visió general
4 Experiments
4.3 Avaluació humana i 4.4 Estudi d'ablació del biaix posicional
Resultats detallats del benchmark de la Fundació
Font de dades. Vam recollir més de 19.000 mostres de dades per a la dimensió de la base, que inclouen 19 subtasques diferents. La font de dades i les estadístiques
es proporcionen a la Taula 1. Per garantir una avaluació justa i completa de cada capacitat, hem pretès una distribució uniforme dels problemes relacionats amb les diferents habilitats durant el procés de recollida de dades. Totes les fonts d'àudio es van obtenir dels subconjunts de desenvolupament o de prova originals per evitar la fuga de dades.
Consulta i referència d'opció única. La consulta Q es forma mitjançant la concatenació d'una pregunta q i les opcions del candidat C. Per a la pregunta q, construïm preguntes principalment mitjançant GPT-4 (OpenAI, 2023), excepte per a les tasques de control de qualitat, ja que els conjunts de dades contenen preguntes de manera inherent i podem re- utilitzar-los. Concretament, dissenyem el missatge per a la tasca diferent i proporcionem tres preguntes com a demostracions. Posteriorment, GPT-4 genera preguntes addicionals diverses basades en aquestes entrades. Les preguntes generades es revisen manualment i es seleccionen 50 preguntes diferents per a cada tasca. La variabilitat en el format de la pregunta té com a objectiu avaluar la capacitat del model per seguir instruccions en lloc de dependre excessivament de plantilles específiques. Per a cada pregunta, generem més opcions candidates C a partir de diferents fonts: 1) Per a tasques amb opcions en conjunts de dades originals com AVQA (Yang et al., 2022), la reutilitzem directament; 2) Per a les tasques de classificació, seleccionem aleatòriament opcions del conjunt predeterminat de categories per servir com a opcions candidates; 3) Per a altres tasques, demanem a GPT-4 que generi directament les opcions candidates, que consisteixen en una opció correcta i tres opcions incorrectes. Recomanem que aquestes opcions incorrectes s'assemblen a la correcta, fent que la tasca d'elecció única sigui més difícil. La resposta de referència és l'opció correcta d'or. Per evitar el biaix de posició, les opcions dels candidats es barregen aleatòriament
Aquest document està disponible a arxiv sota la llicència CC BY 4.0 DEED.