Autores:
(1) Qian Yang, Universidad de Zhejiang, contribución equivalente. Este trabajo se realizó durante la pasantía de Qian Yang en Alibaba Group;
(2) Jin Xu, Alibaba Group, contribución igual;
(3) Wenrui Liu, Universidad de Zhejiang;
(4) Yunfei Chu, Grupo Alibaba;
(5) Xiaohuan Zhou, Grupo Alibaba;
(6) Yichong Leng, Grupo Alibaba;
(7) Yuanjun Lv, Grupo Alibaba;
(8) Zhou Zhao, Alibaba Group y correspondiente a Zhou Zhao ([email protected]);
(9) Yichong Leng, Universidad de Zhejiang
(10) Chang Zhou, Alibaba Group y correspondiente a Chang Zhou ([email protected]);
(11) Jingren Zhou, Grupo Alibaba.
3 AIR-Bench y descripción general de 3.1
3.2 Punto de referencia de la fundación
3.3 Punto de referencia de chat
4 experimentos
4.3 Evaluación humana y 4.4 Estudio de ablación del sesgo posicional
Resultados detallados del estudio comparativo de la Fundación
Fuente de datos. Recopilamos más de 19 000 muestras de datos para la dimensión básica, que abarcan 19 subtareas diferentes. La fuente de datos y las estadísticas
Se proporcionan en la Tabla 1. Para garantizar una evaluación justa y completa de cada capacidad, buscamos una distribución uniforme de los problemas relacionados con las diferentes capacidades durante el proceso de recopilación de datos. Todas las fuentes de audio se obtuvieron de los subconjuntos de prueba o de desarrollo originales para evitar la fuga de datos.
Consulta y referencia de opción única. La consulta Q se forma concatenando una pregunta q y opciones candidatas C. Para la pregunta q, construimos principalmente preguntas a través de GPT-4 (OpenAI, 2023), excepto para las tareas de control de calidad, ya que los conjuntos de datos contienen preguntas de forma inherente y podemos reutilizarlas directamente. Específicamente, diseñamos el mensaje para la tarea en particular y proporcionamos tres preguntas como demostraciones. Posteriormente, GPT-4 genera preguntas diversas adicionales basadas en estas entradas. Las preguntas generadas se revisan manualmente y se seleccionan 50 preguntas diferentes para cada tarea. La variabilidad en el formato de las preguntas tiene como objetivo evaluar la capacidad del modelo para seguir instrucciones en lugar de depender demasiado de plantillas específicas. Para cada pregunta, generamos además opciones candidatas C a partir de diferentes fuentes: 1) Para tareas con opciones en conjuntos de datos originales como AVQA (Yang et al., 2022), las reutilizamos directamente; 2) Para tareas de clasificación, seleccionamos aleatoriamente opciones del conjunto predeterminado de categorías para que sirvan como opciones candidatas; 3) Para otras tareas, le pedimos a GPT-4 que genere opciones candidatas directamente, que consisten en una opción correcta y tres opciones incorrectas. Alentamos a que estas opciones incorrectas se asemejen a la correcta, lo que hace que la tarea de opción única sea más desafiante. La respuesta de referencia es la opción correcta de oro. Para evitar el sesgo de posición, las opciones candidatas se barajan aleatoriamente.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.