Авторы:
(1) Николас Фарн, корпорация Microsoft {Microsoft Corporation {[email protected]};
(2) Ричард Шин, корпорация Microsoft {[email protected]}.
Выводы, воспроизводимость и ссылки.
D. Нюансы сравнения предыдущих работ
Большие языковые модели (LLM) продемонстрировали значительные улучшения в навыках рассуждения и принятия решений и могут поддерживать естественный диалог с пользователями. Многие недавние работы направлены на то, чтобы дополнить помощников на основе LLM внешними инструментами, чтобы они могли получать доступ к частной или актуальной информации и выполнять действия от имени пользователей. Чтобы лучше измерить производительность этих помощников, в этой статье представлен ToolTalk — тест, состоящий из сложных намерений пользователя, требующих многоэтапного использования инструмента, определяемого посредством диалога. ToolTalk содержит 28 инструментов, сгруппированных в 7 плагинов, и включает в себя полную симулированную реализацию каждого инструмента, что позволяет полностью автоматизировать оценку помощников, основанную на обратной связи по выполнению. ToolTalk также уделяет особое внимание инструментам, которые влияют на мир извне, а не только инструментам для ссылок или поиска информации. Мы оцениваем GPT-3.5 и GPT-4 на ToolTalk, в результате чего показатели успеха составляют 26% и 50% соответственно. Наш анализ ошибок выявляет три основные категории и предлагает некоторые будущие направления для улучшения.
Мы выпускаем ToolTalk по адресу https://github.com/microsoft/ToolTalk.
Большие языковые модели (LLM) могут выполнять впечатляющие задачи в понимании, генерации и других задачах естественного языка, связанных с манипулированием текстом. После соответствующих настроек после предварительного обучения они могут свободно и естественно общаться с пользователями. Однако сфера таких разговоров по-прежнему ограничена тем, что у LLM нет доступа к знаниям за пределами их учебных данных, они демонстрируют ограниченные математические рассуждения и вычислительные способности и иным образом не могут взаимодействовать с внешним миром.
Чтобы преодолеть эти ограничения, в различных предыдущих работах предлагалось интегрировать чат-ботов на базе LLM с возможностью использования таких инструментов, как поисковые системы (Накано и др., 2022), калькуляторы или веб-API (Миалон и др., 2023). Для достижения значимого прогресса в использовании инструментов необходимы соответствующие тесты и наборы оценочных данных, которые могут полностью протестировать эти системы с помощью реалистичных и сложных разговоров. В этой статье мы представляем ToolTalk как шаг к этой цели. ToolTalk состоит из 78 разговоров с общим числом 178 поворотов, в которых используются 28 уникальных инструментов, сгруппированных в 7 категорий, а также методология оценки, предназначенная для измерения точности использования инструментов.
При разработке ToolTalk мы учитывали несколько соображений, чтобы наилучшим образом имитировать типичные разговоры, которые пользователь может пожелать вести с помощником на базе LLM. Во-первых, мы хотели убедиться, что ToolTalk является диалоговым и допускает несколько раундов диалога между пользователем и помощником для достижения одного намерения; отражая то, что пользователи не всегда хотят сформулировать свой полный запрос в одном высказывании и могут добавлять дополнительные уточнения или вносить исправления после получения обратной связи от помощника. Это позволяет нам включать намерения пользователя, требующие сложной серии вызовов инструментов, без неестественно длинных высказываний. Во-вторых, мы включаем набор реальных вызовов инструментов, которые должны были выполняться для каждого высказывания пользователя, подходящие для использования в автоматизированной оценке и сравнении с вызовами инструментов, предсказанными помощником. В-третьих, ToolTalk включает в себя исполняемые реализации каждого инструмента, включенного в набор данных, чтобы облегчить оценку помощников, которые могут учитывать результаты предыдущих вызовов инструмента, чтобы решить, какой из них делать следующим. В-четвертых, ToolTalk включает в себя инструменты, предназначенные для выполнения побочных эффектов (таких как отправка электронных писем или добавление/удаление событий календаря), которые мы называем «инструментами действий», а не просто выполнение запросов к базе данных (например, поиск электронных писем, содержащих определенное ключевое слово). ). Такие инструменты действий необходимы, если помощник хочет автоматизировать задачи пользователя.
Мы адаптируем нашу методологию оценки к особенностям конструкции нашего набора данных, выходя за рамки обычных показателей, таких как точность точного совпадения. В частности, мы отдельно рассматриваем вызовы инструментов действия и бездействия, учитывая, что неправильные вызовы инструментов действия, такие как отправка сообщения не тому человеку, могут иметь особенно негативные последствия для пользователя. С другой стороны, если помощник выполняет как правильные вызовы инструментов бездействия, так и некоторые неправильные посторонние вызовы, посторонние все равно могут предоставить пользователю полезную информацию (даже если это не то, что пользователь напрямую запросил). Таким образом, мы используем отзыв вызовов инструментов и частоту неправильных действий в качестве основных показателей в рамках одного разговора и определяем понятие успеха на уровне разговора.
Мы применяем ToolTalk к двум помощникам, реализованным с использованием поддержки вызова функций API завершения чата OpenAI с моделями GPT-3.5 и GPT-4. Мы обнаружили, что gpt-3.5-turbo-0613 и gpt-4-0613 достигают уровня успеха на уровне разговора 26% и 50% соответственно, демонстрируя, что использование инструмента в разговорной обстановке по-прежнему является сложной задачей даже для некоторых из самых новейшие модели. Затем мы проводим дальнейший анализ, чтобы определить причины, по которым GPT-3.5 и GPT-4 не работают при разговоре. Мы обнаружили, что и GPT-3.5, и GPT-4 могут галлюцинировать аргументы, не понимать документацию и даже прямо заявлять, что выполнили задачу, не вызывая никаких инструментов.
Наша статья вносит следующий вклад:
• Мы представляем диалоговый набор данных для помощников, использующих инструменты на базе LLM, содержащий широкий спектр инструментов и примеры диалогов с фактическими аннотациями для вызовов инструментов, которые позволяют выполнять автоматическую оценку.
• Мы гарантируем, что набор данных содержит многоходовые диалоги, требующие использования нескольких инструментов, включая инструменты с побочными эффектами, чтобы лучше моделировать, как пользователи могут взаимодействовать с помощником, использующим инструменты.
• Мы разрабатываем методологию оценки, отражающую различия между инструментами с побочными эффектами и инструментами без них.
• Мы оцениваем помощников, созданных с использованием GPT-3.5 и GPT-4, используя наш набор данных, и анализируем их ошибки, выявляя такие проблемы, как галлюцинаторные аргументы и неправильно понятая документация.
Этот документ доступен на arxiv под лицензией CC 4.0.