Авторы:
(1) Цянь Ян, Чжэцзянский университет, Равный вклад. Эта работа была проведена во время стажировки Цянь Ян в Alibaba Group;
(2) Цзинь Сюй, Alibaba Group, Равный вклад;
(3) Венжуй Лю, Чжэцзянский университет;
(4) Юнфэй Чу, Alibaba Group;
(5) Сяохуань Чжоу, Alibaba Group;
(6) Ичонг Ленг, Alibaba Group;
(7) Юаньцзюнь Льв, Alibaba Group;
(8) Чжоу Чжао, Alibaba Group и корреспондент Чжоу Чжао ([email protected]);
(9) Ичун Ленг, Чжэцзянский университет
(10) Чан Чжоу, Alibaba Group и корреспондент Чан Чжоу ([email protected]);
(11) Цзинжэнь Чжоу, Alibaba Group.
4 Эксперимента
4.3 Оценка человека и 4.4 Исследование абляции позиционного смещения
Подробные результаты базового бенчмарка
Источник данных. Мы собрали более 19 тыс. образцов данных для измерения фундамента, охватывающих 19 различных подзадач. Источник данных и статистика
приведены в Таблице 1. Чтобы обеспечить справедливую и всестороннюю оценку каждой возможности, мы стремились к равномерному распределению проблем, связанных с различными возможностями, в процессе сбора данных. Все аудиоисточники были получены из исходных подмножеств разработки или тестирования, чтобы предотвратить утечку данных.
Запрос с одним выбором и ссылка. Запрос Q формируется путем объединения вопроса q и вариантов выбора C. Для вопроса q мы в основном строим вопросы через GPT-4 (OpenAI, 2023), за исключением задач QA, поскольку наборы данных изначально содержат вопросы, и мы можем напрямую повторно использовать их. В частности, мы разрабатываем подсказку для отдельной задачи и предоставляем три вопроса в качестве демонстраций. Впоследствии GPT-4 генерирует дополнительные разнообразные вопросы на основе этих входных данных. Сгенерированные вопросы просматриваются вручную, и для каждой задачи выбирается 50 различных вопросов. Изменчивость формата вопроса направлена на оценку способности модели следовать инструкциям, а не на чрезмерную зависимость от определенных шаблонов. Для каждого вопроса мы дополнительно генерируем варианты выбора C из разных источников: 1) Для задач с выбором в исходных наборах данных, таких как AVQA (Yang et al., 2022), мы напрямую повторно используем его; 2) Для задач классификации мы случайным образом выбираем варианты из предопределенного набора категорий, которые будут служить в качестве вариантов выбора; 3) Для других задач мы предлагаем GPT-4 напрямую генерировать варианты выбора, состоящие из одного правильного варианта и трех неправильных вариантов. Мы поощряем эти неправильные варианты напоминать правильный, что делает задачу с одним выбором более сложной. Эталонным ответом является золотой правильный выбор. Чтобы избежать смещения позиции, варианты выбора случайным образом перемешиваются
Данная статья доступна на arxiv по лицензии CC BY 4.0 DEED.