Авторы:  (1) Цянь Ян, Чжэцзянский университет, Равный вклад. Эта работа была проведена во время стажировки Цянь Ян в Alibaba Group;  (2) Цзинь Сюй, Alibaba Group, Равный вклад;  (3) Венжуй Лю, Чжэцзянский университет;  (4) Юнфэй Чу, Alibaba Group;  (5) Сяохуань Чжоу, Alibaba Group;  (6) Ичонг Ленг, Alibaba Group;  (7) Юаньцзюнь Льв, Alibaba Group;  (8) Чжоу Чжао, Alibaba Group и корреспондент Чжоу Чжао (zhaozhou@zju.edu.cn);  (9) Ичун Ленг, Чжэцзянский университет  (10) Чан Чжоу, Alibaba Group и корреспондент Чан Чжоу (ericzhou.zc@alibaba-inc.com);  (11) Цзинжэнь Чжоу, Alibaba Group.  Таблица ссылок   Аннотация и 1. Введение   2 Связанные работы   3 AIR-Bench и 3.1 Обзор   3.2 Базовый бенчмарк   3.3 Тест чата   3.4 Стратегия оценки  4 Эксперимента   4.1 Модели   4.2 Основные результаты   4.3 Оценка человека и 4.4 Исследование абляции позиционного смещения   5 Заключение и ссылки   Подробные результаты базового бенчмарка   3.2 Базовый бенчмарк    Мы собрали более 19 тыс. образцов данных для измерения фундамента, охватывающих 19 различных подзадач. Источник данных и статистика  Источник данных.  приведены в Таблице 1. Чтобы обеспечить справедливую и всестороннюю оценку каждой возможности, мы стремились к равномерному распределению проблем, связанных с различными возможностями, в процессе сбора данных. Все аудиоисточники были получены из исходных подмножеств разработки или тестирования, чтобы предотвратить утечку данных.    Запрос Q формируется путем объединения вопроса q и вариантов выбора C. Для вопроса q мы в основном строим вопросы через GPT-4 (OpenAI, 2023), за исключением задач QA, поскольку наборы данных изначально содержат вопросы, и мы можем напрямую повторно использовать их. В частности, мы разрабатываем подсказку для отдельной задачи и предоставляем три вопроса в качестве демонстраций. Впоследствии GPT-4 генерирует дополнительные разнообразные вопросы на основе этих входных данных. Сгенерированные вопросы просматриваются вручную, и для каждой задачи выбирается 50 различных вопросов. Изменчивость формата вопроса направлена на оценку способности модели следовать инструкциям, а не на чрезмерную зависимость от определенных шаблонов. Для каждого вопроса мы дополнительно генерируем варианты выбора C из разных источников: 1) Для задач с выбором в исходных наборах данных, таких как AVQA (Yang et al., 2022), мы напрямую повторно используем его; 2) Для задач классификации мы случайным образом выбираем варианты из предопределенного набора категорий, которые будут служить в качестве вариантов выбора; 3) Для других задач мы предлагаем GPT-4 напрямую генерировать варианты выбора, состоящие из одного правильного варианта и трех неправильных вариантов. Мы поощряем эти неправильные варианты напоминать правильный, что делает задачу с одним выбором более сложной. Эталонным ответом является золотой правильный выбор. Чтобы избежать смещения позиции, варианты выбора случайным образом перемешиваются Запрос с одним выбором и ссылка.  Данная статья   по лицензии CC BY 4.0 DEED. доступна на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

Этот звук создан на языке оригинала истории!

AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звука

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Невидимые слои: почему интервью с пользователями являются незаменимым активом

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Невидимые слои: почему интервью с пользователями являются незаменимым активом

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps