AIR-Bench Foundation: más de 19 000 muestras de datos para una evaluación integral del audio

por Benchmarking in Business Technology and Software2m2024/10/16

NSO

Demasiado Largo; Para Leer

El punto de referencia básico de AIR-Bench evalúa 19 tareas de audio utilizando más de 19 000 muestras. GPT-4 genera diversas preguntas, con opciones de candidatos diseñadas para desafiar los modelos.

featured image - AIR-Bench Foundation: más de 19 000 muestras de datos para una evaluación integral del audio

Autores:

(1) Qian Yang, Universidad de Zhejiang, contribución equivalente. Este trabajo se realizó durante la pasantía de Qian Yang en Alibaba Group;

(2) Jin Xu, Alibaba Group, contribución igual;

(3) Wenrui Liu, Universidad de Zhejiang;

(4) Yunfei Chu, Grupo Alibaba;

(5) Xiaohuan Zhou, Grupo Alibaba;

(6) Yichong Leng, Grupo Alibaba;

(7) Yuanjun Lv, Grupo Alibaba;

(8) Zhou Zhao, Alibaba Group y correspondiente a Zhou Zhao ([email protected]);

(9) Yichong Leng, Universidad de Zhejiang

(10) Chang Zhou, Alibaba Group y correspondiente a Chang Zhou ([email protected]);

(11) Jingren Zhou, Grupo Alibaba.

Tabla de enlaces

Resumen y 1. Introducción

2 Trabajos relacionados

3 AIR-Bench y descripción general de 3.1

3.2 Punto de referencia de la fundación

3.3 Punto de referencia de chat

3.4 Estrategia de evaluación

4 experimentos

4.1 Modelos

4.2 Resultados principales

4.3 Evaluación humana y 4.4 Estudio de ablación del sesgo posicional

5 Conclusión y referencias

Resultados detallados del estudio comparativo de la Fundación

3.2 Punto de referencia de la fundación

Fuente de datos. Recopilamos más de 19 000 muestras de datos para la dimensión básica, que abarcan 19 subtareas diferentes. La fuente de datos y las estadísticas

Se proporcionan en la Tabla 1. Para garantizar una evaluación justa y completa de cada capacidad, buscamos una distribución uniforme de los problemas relacionados con las diferentes capacidades durante el proceso de recopilación de datos. Todas las fuentes de audio se obtuvieron de los subconjuntos de prueba o de desarrollo originales para evitar la fuga de datos.

Consulta y referencia de opción única. La consulta Q se forma concatenando una pregunta q y opciones candidatas C. Para la pregunta q, construimos principalmente preguntas a través de GPT-4 (OpenAI, 2023), excepto para las tareas de control de calidad, ya que los conjuntos de datos contienen preguntas de forma inherente y podemos reutilizarlas directamente. Específicamente, diseñamos el mensaje para la tarea en particular y proporcionamos tres preguntas como demostraciones. Posteriormente, GPT-4 genera preguntas diversas adicionales basadas en estas entradas. Las preguntas generadas se revisan manualmente y se seleccionan 50 preguntas diferentes para cada tarea. La variabilidad en el formato de las preguntas tiene como objetivo evaluar la capacidad del modelo para seguir instrucciones en lugar de depender demasiado de plantillas específicas. Para cada pregunta, generamos además opciones candidatas C a partir de diferentes fuentes: 1) Para tareas con opciones en conjuntos de datos originales como AVQA (Yang et al., 2022), las reutilizamos directamente; 2) Para tareas de clasificación, seleccionamos aleatoriamente opciones del conjunto predeterminado de categorías para que sirvan como opciones candidatas; 3) Para otras tareas, le pedimos a GPT-4 que genere opciones candidatas directamente, que consisten en una opción correcta y tres opciones incorrectas. Alentamos a que estas opciones incorrectas se asemejen a la correcta, lo que hace que la tarea de opción única sea más desafiante. La respuesta de referencia es la opción correcta de oro. Para evitar el sesgo de posición, las opciones candidatas se barajan aleatoriamente.