paint-brush
Uso de ferramenta generalizável e livre de erros de sintaxe para LLMs: ToolDec elimina erros de sintaxepor@textmodels
247 leituras

Uso de ferramenta generalizável e livre de erros de sintaxe para LLMs: ToolDec elimina erros de sintaxe

Muito longo; Para ler

Os pesquisadores propõem o TOOLDEC, uma decodificação guiada por máquina de estado finito para LLMs, reduzindo erros e melhorando o uso da ferramenta.
featured image - Uso de ferramenta generalizável e livre de erros de sintaxe para LLMs: ToolDec elimina erros de sintaxe
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Kexun Zhang, UC Santa Bárbara e contribuição igual;

(2) Hongqiao Chen, Northwood High School e contribuição igual;

(3) Lei Li, Universidade Carnegie Mellon;

(4) William Yang Wang,UC Santa Bárbara.

Tabela de links

4. EXPERIMENTO I: TOOLDEC ELIMINA ERROS DE SINTAXE

Nesta seção mostramos que o TOOLDEC pode eliminar erros de sintaxe ao gerar chamadas de ferramenta. Selecionamos duas linhas de base recentes, ToolLLM e ToolkenGPT, representativas da aprendizagem in-context e do paradigma de ajuste fino, para mostrar a capacidade do TOOLDEC. Como as configurações de uso de ferramentas para as duas linhas de base são diferentes e não podem ser aplicadas uma à outra, testamos o desempenho do TOOLDEC separadamente para as duas linhas de base usando os benchmarks dos artigos originais. Através de extensos experimentos, mostramos que o TOOLDEC pode eliminar completamente erros sintáticos, resultando em melhor precisão e menor tempo de inferência.

4.1 LINHAS DE BASE E BENCHMARKS

ToolLLM (Qin et al., 2023). ToolLLM é uma abordagem de aprendizagem em contexto para modelos de linguagem aumentada por ferramentas. Ele utiliza um modelo LLaMA-7B ajustado por instrução (Touvron et al., 2023) para usar ferramentas. Dada a instrução em linguagem natural de uma tarefa dependente de ferramenta, um recuperador de API primeiro recupera um pequeno subconjunto de funções relevantes. A descrição textual e o esquema dessas funções relevantes são disponibilizados no contexto. Em seguida, o ToolLLM passa por um processo de raciocínio em várias etapas usando as funções para produzir uma resposta final.


ToolLLM é avaliado em ToolEval, um conjunto de dados proposto no mesmo artigo. ToolEval contém tarefas que envolvem um conjunto enorme (mais de 10.000) de APIs REST disponíveis publicamente. Usamos os subconjuntos mais difíceis de ToolEval para avaliar nosso método – Categoria I2 e Instrução I3. Eles contêm tarefas que precisam de ferramentas complexas e invisíveis de múltiplas categorias (como geolocalização, data/hora e outras) para serem resolvidas. Em média, uma tarefa da categoria I2 precisa de 6,76 ferramentas e uma tarefa da categoria I3 precisa de 8,24 ferramentas. ToolEval tem duas métricas principais: Taxa de aprovação mede a porcentagem de tarefas para as quais o modelo atinge uma resposta dentro de uma certa quantidade de etapas de raciocínio. Win Rate utiliza um avaliador automático desenvolvido por um LLM seguindo um conjunto predefinido de critérios para um caminho melhor. Ele compara a qualidade e a exatidão das respostas iniciais com a resposta de referência produzida pelo ChatGPT. Qin et al. (2023) constata que o avaliador automático tem uma alta correlação de 75,8% com anotadores humanos. Além dessas duas métricas, também medimos a Taxa de Erros da Ferramenta , a proporção de tarefas que apresentam pelo menos um erro relacionado à ferramenta.


ToolkenGPT (Hao et al., 2023). ToolkenGPT é uma abordagem de ajuste fino para o uso de ferramentas. ToolkenGPT representa cada ferramenta como um token especial e otimiza apenas a incorporação dos tokens de ferramenta para uso da ferramenta. Durante a inferência, o ToolkenGPT invoca uma ferramenta assim que o token especial correspondente é previsto. Durante uma chamada de ferramenta, ela transmite argumentos aprendendo com demonstrações no contexto. ToolkenGPT usa LLaMA-33B (Touvron et al., 2023) como modelo base.


Tabela 3: Resultados no ToolEval. O ToolLLM aprimorado pelo TOOLDEC superou as linhas de base do ToolLLM em todas as métricas. TOOLDEC eliminou todos os erros da ferramenta e foi até capaz de vencer ligeiramente o ChatGPT.


4.2 INTEGRAÇÃO DO TOOLDEC COM OS MODELOS BASE

FerramentaLLM+TOOLDEC. Seguindo Qin et al. (2023), utilizamos ReAct (Yao et al., 2023) para planejar as chamadas de ferramenta do ToolLLM. Isto está de acordo com o segundo caso de mudança de modo na Seção 3.2. Existem três partes no FSM para ToolLLM. Primeiro, um formato FSM que impõe a sintaxe “Pensamento, Ação, Entrada de Ação” do ReAct. Após decodificar “Action:”, este FSM faz a transição para o estado inicial do nome da função FSM, o que garante que um nome de função decodificado seja sempre válido. Também construímos um argumento de função baseado em JSON FSM. Permitimos que os LLMs raciocinassem 5 etapas antes de chamar a ação final para ser considerada “aprovada”.


ToolkenGPT+TOOLDEC. Como o ToolkenGPT utiliza tokens especiais para chamar ferramentas, o TOOLDEC é aplicado apenas para garantir a sintaxe dos argumentos. Neste experimento, nosso FSM garante que cada argumento é um número válido e os argumentos são separados por vírgulas. Também garante que o número real de argumentos passados para uma função é exatamente o número necessário para ela. Comparamos o TOOLDEC com duas variantes da linha de base em Hao et al. (2023), um com backtrace e outro sem. O Backtrace tenta evitar chamadas de ferramenta com falha, permitindo que o LLM volte e tente o próximo token provável, no lugar da chamada de ferramenta com falha. Para avaliar o TOOLDEC, relatamos o tempo médio de inferência por problema e as taxas de erro da ferramenta, além da precisão.

4.3 RESULTADOS EXPERIMENTAIS

TOOLDEC aprimora LLMs de ferramentas de aprendizagem em contexto. A Tabela 3 mostra o desempenho do TOOLDEC no ToolEval. A TOOLDEC alcançou uma taxa de vitória de 55% na categoria I2 e uma taxa de vitória de 60% na instrução I3. Como um substituto imediato do algoritmo de decodificação original, o TOOLDEC eliminou todos os três tipos de erros relacionados à ferramenta e alcançou a melhor taxa de vitórias e aprovação, superando até mesmo o ChatGPT.


A alta taxa de erro da ferramenta nas linhas de base sugere que, mesmo após o ajuste fino das instruções, o ToolLLM ainda não tem a capacidade de invocar com precisão ferramentas externas a partir da documentação da ferramenta. Esta incapacidade fica mais exposta quando existe uma grande variedade de ferramentas disponíveis, como no I3-Instrução. Além disso, esses erros impactaram significativamente a capacidade do modelo de concluir tarefas.


Figura 4: Taxas de erro dos três tipos de erros relacionados à ferramenta em relação ao número total de chamadas de ferramenta. TOOLDEC reduziu todos os três erros relacionados à ferramenta a zero.


Apresentamos as taxas de erro de cada tipo de erro em dois benchmarks na Figura 4. Para ToolLLMs, erro de nome, ou seja, chamar uma ferramenta inexistente, foi o erro sintático mais comum em uma chamada de ferramenta. TOOLDEC eliminou completamente todos os três erros.



Sendo a alucinação do nome da função o erro relacionado à ferramenta mais prevalente, uma linha de base um pouco melhor seria mitigá-la com correspondência difusa por sufixo. Apresentamos os resultados da linha de base com correspondência difusa como ToolLLM + Fuzzy Matching, e sem correspondência como ToolLLM. Essa mitigação aumentou a taxa de aprovação, mas teve pouco impacto na taxa de vitória, como fica evidente na Tabela 3, porque muitas vezes era possível escolher APIs erradas quando um modelo não conseguia chamar com precisão a ferramenta desejada. No geral, nossos experimentos no ToolLLM demonstram que o TOOLDEC é altamente eficaz em LLMs de aprendizagem em contexto. Através da próxima linha de base, ToolkenGPT, mostramos que o TOOLDEC também é benéfico para LLMs de ferramentas ajustadas.


TOOLDEC aprimora LLMs de ferramentas de ajuste fino. A Tabela 4 mostra os resultados no FuncQAmulti. Embora o ToolkenGPT elimine a possibilidade de chamar nomes de ferramentas inexistentes ajustando a incorporação de um token especial, ele ainda pode sofrer de outros erros sintáticos, o que é demonstrado pela taxa de erro da ferramenta de 27,9%. Como substituto imediato, o TOOLDEC aumentou a precisão do ToolkenGPT e ao mesmo tempo foi muito mais rápido na inferência. Embora o ToolkenGPT + backtrace tenha alcançado uma precisão um pouco melhor do que o TOOLDEC, ele usou 2x mais tempo para testar ferramentas diferentes. Observe que, como o TOOLDEC eliminou todos os erros da ferramenta, não houve chamadas de ferramenta com falha para o backtrace tentar novamente. Os resultados ressaltam a relevância dos erros relacionados à ferramenta e a aplicabilidade do TOOLDEC tanto para a aprendizagem contextual recente quanto para o ajuste fino de LLMs aumentados por ferramentas.


Este artigo está disponível no arxiv sob licença CC 4.0 DEED.