Авторы:
(1) Кексун Чжан, Калифорнийский университет в Санта-Барбаре и равный вклад;
(2) Хунцяо Чен, Средняя школа Нортвуда и равный вклад;
(3) Лей Ли, Университет Карнеги-Меллон;
(4) Уильям Ян Ван, Калифорнийский университет, Санта-Барбара.
В эксперименте II мы показываем, как TOOLDEC обобщает невидимые инструменты без дополнительных обучающих данных и документации по инструментам. Мы сравниваем TOOLDEC с двумя сильными базовыми показателями: ToolkenGPT (Hao et al., 2023) как репрезентативным подходом тонкой настройки и RestGPT (Song et al., 2023) как репрезентативным подходом к контекстному обучению. Мы провели эксперименты с тремя тестами — FuncQA (Hao et al., 2023) и KAMEL (Kalo & Fichtel, 2022) и RestBench (Song et al., 2023). Эти тесты требуют разнообразных наборов инструментов из самых разных областей, включая математические рассуждения, ответы на вопросы и реальные веб-сервисы. Наши результаты показывают, что во всех трех областях TOOLDEC способен эффективно обобщать новые инструменты без тонкой настройки на дополнительных данных.
ToolkenGPT — это подход к тонкой настройке использования инструментов, который изучает специальный токен для каждого инструмента. Чтобы обобщить новые инструменты, ToolkenGPT по-прежнему нуждается в дополнительных данных и дополнительной тонкой настройке с использованием новых инструментов. Мы демонстрируем, что TOOLDEC, настроенный на заданный набор видимых инструментов, не нуждается в дополнительных данных и дальнейшей тонкой настройке для внедрения невидимых инструментов. Мы сравниваем TOOLDEC и базовые версии, настраивая их на один и тот же набор инструментов, обозначенный как «видимые инструменты», а затем оцениваем их производительность на «невидимых инструментах».
Чтобы гарантировать справедливое сравнение, мы имитируем метод планирования ToolkenGPT, чтобы решить проблему «когда использовать инструменты». В частности, мы настраиваем встраивание одного специального токена <T> для представления всех инструментов, уменьшая размер дополнительного словаря до 1. Как только <T> сгенерирован, начинается вызов инструмента.
Мы предлагаем LLM сгенерировать имя инструмента. Генерация имени этого инструмента управляется конечным автоматом, построенным на основе списка всех доступных инструментов. Затем это имя инструмента снова подключается к контексту, чтобы начать генерацию аргументов. Мы показываем пример этого процесса в Приложении A.2.
Мы выбрали небольшое подмножество «увиденных инструментов» из всех доступных инструментов и настроили встраивание только с демонстрацией инструментов из выбранного подмножества. Мы точно настроили базовый уровень, используя то же подмножество. Затем мы оценили наш метод и базовые показатели задач, в которых используются невидимые инструменты в подмножестве, чтобы продемонстрировать способность TOOLDEC к обобщению.
Тест по математическим функциям. Для оценки нашего метода мы используем многошаговые вопросы FuncQA. Инструменты FuncQA, такие как permutate, gcd, power, представляют собой математические функции, которые строго ограничивают свои аргументы числами в определенных диапазонах. Мы выбираем 4 из 13 инструментов в качестве видимого подмножества, чтобы настроить базовый уровень и оценить различные подходы к оставшимся 9 невидимым инструментам.
Тест на отношения графа знаний. Чтобы дополнительно изучить возможность обобщения TOOLDEC на более широкий набор инструментов, мы также оцениваем KAMEL (Kalo & Fichtel, 2022), набор данных «вопрос-ответ», содержащий в общей сложности 234 отношения знаний, которые напоминают характеристики API (например, количество детей). Дополнительные примеры можно найти в Приложении A.4. Инструментов в KAMEL намного больше, чем в FuncQA. Они также более сложны и разнообразны, поскольку количество аргументов их инструментов варьируется от 1 до 3, а их типы включают строки, местоположения, даты, числа и другие специальные типы. Мы выбираем 30 из 234 инструментов в качестве видимого подмножества и оцениваем по 4 различным наборам оценок, состоящим из 30, 60, 100 и 234 инструментов соответственно. Следуя Хао и др. (2023) мы используем подсказку, малократный и нулевой импульс в качестве дополнительных базовых показателей. (1) Подсказки основаны на внутренних знаниях LLM, поскольку инструмент не предоставлен. (2) Несколько кадров демонстрируют использование инструмента на примерах из нескольких кадров. (3) Zero-shot предоставляет описания всех доступных инструментов в контексте. Поскольку набор данных для обучения и оценки KAMEL использует один и тот же шаблон вопросов для каждого инструмента, что часто не соответствует действительности в реальных условиях, мы сравниваем TOOLDEC только с ToolkenGPT, обученным на синтетическом наборе данных, предложенном в исходном исследовании. Мы используем точность вызовов инструментов в качестве показателя, который определяется долей ответов, которые вызывают правильное отношение знаний.
RestGPT (Song et al., 2023) — это подход к контекстному обучению, который изучает использование инструментов на основе контекстной документации инструментов. Мы демонстрируем способность обобщения RestGPT, расширенного с помощью TOOLDEC, показывая, что RestGPT с TOOLDEC может достичь большей точности без контекстной документации, чем базовый уровень RestGPT с документацией. Поскольку TOOLDEC необходим доступ к следующему распределению токенов, мы используем RestGPT на основе Vicuna (Zheng et al., 2023) в качестве базового уровня. Для нашего метода мы убираем из командной строки всю документацию по инструменту, оставляя только инструкции для рассуждений.
Тестирование API для реальных веб-сервисов. Мы оцениваем с помощью RestBench (Song et al., 2023). Он состоит из задач в реальных сценариях, включая TMDB, веб-сайт с информацией о фильмах, и Spotify, онлайн-музыкальный проигрыватель. Эти задачи непосредственно основаны на инструкциях реальных пользователей, и для их решения требуется множество инструментов в виде RESTful API. API-интерфейсы RESTful являются фактическим стандартом для веб-сервисов (Li et al., 2016), которые используют методы HTTP для управления ресурсами. Решения на основе истины аннотируются людьми в виде цепочек вызовов инструментов. Мы оцениваем наш метод и базовый уровень на TMDB, который состоит из 55 API-интерфейсов RESTful. Поскольку методы HTTP, такие как GET и POST, имеют формат, отличный от формата вызова инструмента, формат аргументов инструмента TOOLDEC. Мы переписали эти API, чтобы они соответствовали этому формату. Мы используем скорость правильного пути (CP%), предложенную в оригинальной статье, в качестве показателя для измерения точности. Доля правильных путей — это доля выходных данных модели, которые содержат правильный путь вызова инструмента, аннотированный людьми.
Обобщение невидимых математических функций. На рисунке 5а мы представляем результаты FuncQA. В то время как ToolkenGPT и TOOLDEC достигли одинаковой точности при выполнении задач, в которых использовались только видимые инструменты, ToolkenGPT не смог обобщить результаты на невидимые инструменты, что привело к значительному падению производительности. С другой стороны, TOOLDEC смог поддерживать сопоставимую точность даже на невидимых инструментах и добиться в 8 раз большей точности при решении многошаговых задач, что подчеркивает его универсальность. Следовательно, TOOLDEC значительно превзошёл ToolkenGPT по общей точности.
Обобщение невидимых функций графа знаний. Мы представляем наши результаты по KAMEL на рисунке 5b. По мере увеличения количества доступных инструментов два метода ICL пострадали от ограничения длины контекста (Hao et al., 2023) и значительно снизили точность. ToolkenGPT, настроенный на первые 30 инструментов, также не смог распространиться на большее количество инструментов. Подсказки сохраняли стабильно низкую точность, поскольку не зависели от контекстной документации инструмента. С другой стороны, TOOLDEC смог сохранить свою точность, даже когда количество невидимых инструментов достигло 204.
Обобщение для невидимых веб-сервисов. Результаты RestBench представлены в таблице 5. TOOLDEC позволил модели использовать API веб-сервисов без контекстной документации, сократив размер приглашения с 1974 токенов до всего лишь 880 токенов. Тем не менее, TOOLDEC по-прежнему значительно превосходит базовый показатель с точки зрения правильности, определяемой соотношением правильных путей (CP%), подняв его на 8 пунктов. Эти результаты показывают, что TOOLDEC также может улучшить возможность обобщения использования инструментов контекстного обучения в реальных веб-приложениях.
Результаты всех трех настроек показывают, что TOOLDEC не только помогает инструментам тонкой настройки LLM обобщать без дополнительных обучающих данных, но также помогает инструментам контекстного обучения LLM обобщать без контекстной документации. Эта возможность TOOLDEC была доказана в трех различных областях.
Этот документ доступен на arxiv под лицензией CC 4.0 DEED.