paint-brush
AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звукак@benchmarking

AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звука

Слишком долго; Читать

Базовый тест AIR-Bench оценивает 19 аудиозадач с использованием более 19 тыс. образцов. GPT-4 генерирует разнообразные вопросы с вариантами выбора, разработанными для проверки моделей.
featured image - AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звука
Benchmarking in Business Technology and Software HackerNoon profile picture
0-item

Авторы:

(1) Цянь Ян, Чжэцзянский университет, Равный вклад. Эта работа была проведена во время стажировки Цянь Ян в Alibaba Group;

(2) Цзинь Сюй, Alibaba Group, Равный вклад;

(3) Венжуй Лю, Чжэцзянский университет;

(4) Юнфэй Чу, Alibaba Group;

(5) Сяохуань Чжоу, Alibaba Group;

(6) Ичонг Ленг, Alibaba Group;

(7) Юаньцзюнь Льв, Alibaba Group;

(8) Чжоу Чжао, Alibaba Group и корреспондент Чжоу Чжао ([email protected]);

(9) Ичун Ленг, Чжэцзянский университет

(10) Чан Чжоу, Alibaba Group и корреспондент Чан Чжоу ([email protected]);

(11) Цзинжэнь Чжоу, Alibaba Group.

Таблица ссылок

Аннотация и 1. Введение

2 Связанные работы

3 AIR-Bench и 3.1 Обзор

3.2 Базовый бенчмарк

3.3 Тест чата

3.4 Стратегия оценки

4 Эксперимента

4.1 Модели

4.2 Основные результаты

4.3 Оценка человека и 4.4 Исследование абляции позиционного смещения

5 Заключение и ссылки

Подробные результаты базового бенчмарка

3.2 Базовый бенчмарк

Источник данных. Мы собрали более 19 тыс. образцов данных для измерения фундамента, охватывающих 19 различных подзадач. Источник данных и статистика


Таблица 1: Статистика базового бенчмарка.


Таблица 2: Статистика и примеры бенчмарка чата.


приведены в Таблице 1. Чтобы обеспечить справедливую и всестороннюю оценку каждой возможности, мы стремились к равномерному распределению проблем, связанных с различными возможностями, в процессе сбора данных. Все аудиоисточники были получены из исходных подмножеств разработки или тестирования, чтобы предотвратить утечку данных.


Запрос с одним выбором и ссылка. Запрос Q формируется путем объединения вопроса q и вариантов выбора C. Для вопроса q мы в основном строим вопросы через GPT-4 (OpenAI, 2023), за исключением задач QA, поскольку наборы данных изначально содержат вопросы, и мы можем напрямую повторно использовать их. В частности, мы разрабатываем подсказку для отдельной задачи и предоставляем три вопроса в качестве демонстраций. Впоследствии GPT-4 генерирует дополнительные разнообразные вопросы на основе этих входных данных. Сгенерированные вопросы просматриваются вручную, и для каждой задачи выбирается 50 различных вопросов. Изменчивость формата вопроса направлена на оценку способности модели следовать инструкциям, а не на чрезмерную зависимость от определенных шаблонов. Для каждого вопроса мы дополнительно генерируем варианты выбора C из разных источников: 1) Для задач с выбором в исходных наборах данных, таких как AVQA (Yang et al., 2022), мы напрямую повторно используем его; 2) Для задач классификации мы случайным образом выбираем варианты из предопределенного набора категорий, которые будут служить в качестве вариантов выбора; 3) Для других задач мы предлагаем GPT-4 напрямую генерировать варианты выбора, состоящие из одного правильного варианта и трех неправильных вариантов. Мы поощряем эти неправильные варианты напоминать правильный, что делает задачу с одним выбором более сложной. Эталонным ответом является золотой правильный выбор. Чтобы избежать смещения позиции, варианты выбора случайным образом перемешиваются


Данная статья доступна на arxiv по лицензии CC BY 4.0 DEED.