Авторы:  (1) Кексун Чжан, Калифорнийский университет в Санта-Барбаре и равный вклад;  (2) Хунцяо Чен, Средняя школа Нортвуда и равный вклад;  (3) Лей Ли, Университет Карнеги-Меллон;  (4) Уильям Ян Ван, Калифорнийский университет, Санта-Барбара.  Таблица ссылок   Аннотация и введение   Связанных с работой   ToolDec: использование инструмента LLM посредством декодирования конечных состояний   Эксперимент: ToolDec устраняет синтаксические ошибки   Эксперимент: ToolDec обеспечивает универсальный выбор инструментов   Заключение и ссылки   Приложение  4. ЭКСПЕРИМЕНТ I: TOOLDEC УСТРАНЯЕТ СИНТАКСИСНЫЕ ОШИБКИ  В этом разделе мы покажем, что TOOLDEC может устранять синтаксические ошибки при генерации вызовов инструментов. Мы выбрали два последних базовых уровня — ToolLLM и ToolkenGPT, представляющие парадигму контекстного обучения и тонкой настройки, чтобы продемонстрировать возможности TOOLDEC. Поскольку настройки использования инструментов для двух базовых показателей различны и не могут быть применены друг к другу, мы тестируем производительность TOOLDEC отдельно для двух базовых показателей, используя тесты из оригинальных статей. Путем обширных экспериментов мы показываем, что TOOLDEC может полностью устранить синтаксические ошибки, что приводит к повышению точности и сокращению времени вывода.  4.1 БАЗОВЫЕ ПОЛОЖЕНИЯ И ОЦЕНКИ    ToolLLM — это подход к контекстному обучению языковых моделей, дополненных инструментами. Для использования инструментов он использует настроенную на инструкции модель LLaMA-7B (Touvron et al., 2023). Учитывая инструкцию на естественном языке для задачи, зависящей от инструмента, средство извлечения API сначала извлекает небольшое подмножество соответствующих функций. Текстовое описание и схема этих соответствующих функций доступны в контексте. Затем ToolLLM выполняет многоэтапный процесс рассуждения, используя функции для получения окончательного ответа. ToolLLM (Цинь и др., 2023).  ToolLLM оценивается с помощью   набора данных, предложенного в той же статье. ToolEval содержит задачи, включающие огромный набор (более 10 000) общедоступных API REST. Для оценки нашего метода мы используем самые сложные подмножества ToolEval — I2-Category и I3-Instruction. Они содержат задачи, для решения которых требуются сложные и невидимые инструменты из нескольких категорий (таких как геолокация, дата/время и другие). В среднем для задачи категории I2 требуется 6,76 инструментов, а для задачи категории I3 — 8,24 инструмента. ToolEval имеет два основных показателя:   измеряет процент задач, для которых модель дает ответ за определенное количество шагов рассуждения.   использует автоматический оценщик, основанный на LLM, который следует заранее определенному набору критериев для лучшего пути. Он сравнивает качество и правильность базовых ответов с эталонным ответом, полученным ChatGPT. Цинь и др. (2023) обнаружили, что автоматический оценщик имеет высокую корреляцию 75,8% с аннотаторами-людьми. Помимо этих двух показателей, мы также измеряем   — долю задач, в которых имеется хотя бы одна ошибка, связанная с инструментом. ToolEval, Процент успешности WinRate коэффициент ошибок инструмента    ToolkenGPT — это подход к тонкой настройке использования инструментов. ToolkenGPT представляет каждый инструмент как специальный токен и оптимизирует только внедрение токенов инструментов для их использования. Во время вывода ToolkenGPT вызывает инструмент, как только прогнозируется соответствующий специальный токен. Во время вызова инструмента он передает аргументы, обучаясь на контекстных демонстрациях. ToolkenGPT использует LLaMA-33B (Touvron et al., 2023) в качестве базовой модели.  ToolkenGPT (Хао и др., 2023).  4.2 ИНТЕГРАЦИЯ TOOLDEC С БАЗОВЫМИ МОДЕЛЯМИ    Следуя Цинь и др. (2023) мы используем ReAct (Yao et al., 2023) для планирования вызовов инструментов ToolLLM. Это соответствует второму случаю переключения режимов в разделе 3.2. FSM для ToolLLM состоит из трех частей. Во-первых, это формат FSM, который реализует синтаксис ReAct «Мысль, Действие, Действие». После декодирования «Действие:» этот автомат переходит в начальное состояние имени функции FSM, что гарантирует, что декодированное имя функции всегда допустимо. Мы также создали аргумент функции FSM на основе JSON. Мы позволили LLM обдумать 5 шагов, прежде чем он должен объявить завершающее действие, которое будет считаться «пройденным». ИнструментLLM+TOOLDEC.    Поскольку ToolkenGPT использует специальные токены для вызова инструментов, TOOLDEC применяется только для обеспечения синтаксиса аргументов. В этом эксперименте наш автомат гарантирует, что каждый аргумент является допустимым числом и аргументы разделены запятыми. Это также гарантирует, что фактическое количество аргументов, переданных функции, будет именно тем числом, которое ей необходимо. Мы сравнили TOOLDEC с двумя вариантами базового уровня в работе Hao et al. (2023), один с обратным следом, другой без. Backtrace пытается избежать неудачных вызовов инструмента, позволяя LLM вернуться и попробовать следующий возможный токен вместо неудачного вызова инструмента. Чтобы оценить TOOLDEC, мы сообщаем среднее время вывода на одну проблему и частоту ошибок инструмента в дополнение к точности. ИнструменткенGPT+TOOLDEC.  4.3 РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА    В Таблице 3 показаны результаты компании TOOLDEC в исследовании ToolEval. Компания TOOLDEC достигла 55% побед по категории I2 и 60% по инструкциям I3. В качестве замены исходному алгоритму декодирования TOOLDEC устранил все три типа ошибок, связанных с инструментом, и достиг наилучшего процента побед и проходимости, даже превзойдя ChatGPT. TOOLDEC совершенствует инструмент контекстного обучения LLM.  Высокая частота ошибок инструмента в базовых версиях предполагает, что даже после точной настройки инструкций ToolLLM по-прежнему не имеет возможности точно вызывать внешние инструменты из документации инструмента. Эта неспособность более заметна, когда имеется большое разнообразие доступных инструментов, как в I3-Instruction. Более того, эти ошибки существенно повлияли на способность модели выполнять задачи.   На рисунке 4 мы представляем частоту ошибок каждого типа ошибок в двух тестах. Для ToolLLM ошибка имени, то есть вызов несуществующего инструмента, была наиболее распространенной синтаксической ошибкой при вызове инструмента. Компания TOOLDEC полностью устранила все три ошибки.   Поскольку галлюцинация имени функции является наиболее распространенной ошибкой, связанной с инструментом, немного лучшим базовым вариантом было смягчить ее с помощью нечеткого сопоставления по суффиксу. Мы представляем результаты базового плана с нечетким сопоставлением как ToolLLM + Fuzzy Matching и без него как ToolLLM. Это смягчение увеличило процент проходимости, но мало повлияло на процент побед, как видно из Таблицы 3, поскольку часто можно было выбрать неправильные API, когда модель не могла точно вызвать нужный ей инструмент. В целом, наши эксперименты с ToolLLM показывают, что TOOLDEC очень эффективен при LLM для контекстного обучения. В следующем базовом тесте ToolkenGPT мы показываем, что TOOLDEC также полезен для точной настройки инструментов LLM.    В таблице 4 показаны результаты FuncQAmulti. Хотя ToolkenGPT исключает возможность вызова несуществующих имен инструментов за счет тонкой настройки специального встраивания токена, он все равно может страдать от других синтаксических ошибок, о чем свидетельствует уровень ошибок инструмента в 27,9%. В качестве замены TOOLDEC повысил точность ToolkenGPT, но при этом стал намного быстрее в выводе. Хотя ToolkenGPT + backtrace достиг немного большей точности, чем TOOLDEC, на тестирование разных инструментов ушло в два раза больше времени. Обратите внимание: поскольку TOOLDEC устранил все ошибки инструмента, не было ни одного неудачного вызова инструмента для повторной попытки обратной трассировки. Результаты подчеркивают актуальность ошибок, связанных с инструментами, и применимость TOOLDEC как для недавнего контекстного обучения, так и для тонкой настройки LLM, дополненных инструментами. TOOLDEC совершенствует инструменты точной настройки LLM.  Этот документ   под лицензией CC 4.0 DEED. доступен на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Этот звук создан на языке оригинала истории!

Синтаксические ошибки и универсальное использование инструмента для LLM: ToolDec устраняет синтаксические ошибки

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Telegram: мост Крипто-острова на материк

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Telegram: мост Крипто-острова на материк

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps