Autores:
(1) Kexun Zhang, UC Santa Bárbara e contribuição igual;
(2) Hongqiao Chen, Northwood High School e contribuição igual;
(3) Lei Li, Universidade Carnegie Mellon;
(4) William Yang Wang,UC Santa Bárbara.
No Experimento II, mostramos como o TOOLDEC generaliza para ferramentas inéditas sem dados de treinamento adicionais e documentação da ferramenta. Comparamos o TOOLDEC com duas linhas de base fortes – ToolkenGPT (Hao et al., 2023) como uma abordagem representativa de ajuste fino, e RestGPT (Song et al., 2023) como uma abordagem representativa de aprendizagem no contexto. Conduzimos experimentos em três benchmarks – FuncQA (Hao et al., 2023) e KAMEL (Kalo & Fichtel, 2022) e RestBench (Song et al., 2023). Esses benchmarks exigem diversos conjuntos de ferramentas de domínios muito diferentes, incluindo raciocínio matemático, resposta a perguntas de conhecimento e serviços web do mundo real. Em todos os três domínios, nossos resultados mostram que o TOOLDEC é capaz de generalizar com eficiência para novas ferramentas sem ajustes finos em dados extras.
ToolkenGPT é uma abordagem de ajuste fino para o uso de ferramentas que aprende um token especial para cada ferramenta. Para generalizar para novas ferramentas, o ToolkenGPT ainda precisa de dados adicionais e ajustes extras envolvendo o uso de novas ferramentas. Demonstramos que o TOOLDEC, uma vez ajustado em um determinado conjunto de ferramentas visíveis, não precisa de dados adicionais e de ajustes adicionais para adotar ferramentas invisíveis. Comparamos o TOOLDEC e as linhas de base ajustando-os no mesmo subconjunto de ferramentas, denotadas como “ferramentas vistas”, e depois avaliamos seu desempenho em “ferramentas invisíveis”.
Para garantir uma comparação justa, imitamos o método de planejamento do ToolkenGPT para resolver o problema de “quando usar ferramentas”. Especificamente, ajustamos a incorporação de um único token especial <T> para representar todas as ferramentas, reduzindo o tamanho do vocabulário extra para 1. Depois que <T> é gerado, uma chamada de ferramenta começa.
Solicitamos ao LLM que gere um nome de ferramenta. A geração deste nome de ferramenta é guiada por um FSM construído a partir de uma lista de todas as ferramentas disponíveis. Este nome de ferramenta é então inserido novamente no contexto para iniciar a geração de argumentos. Mostramos um exemplo deste processo no Apêndice A.2.
Selecionamos um pequeno subconjunto de “ferramentas vistas” dentre todas as ferramentas disponíveis e ajustamos a incorporação apenas com demonstrações das ferramentas no subconjunto selecionado. Ajustamos a linha de base usando o mesmo subconjunto. Em seguida, avaliamos nosso método e as linhas de base em tarefas que envolvem ferramentas inéditas no subconjunto para demonstrar a capacidade de generalização do TOOLDEC.
Referência em funções matemáticas. Usamos perguntas multi-hop FuncQA para avaliar nosso método. Ferramentas no FuncQA, como permutar, mdc, potência são funções matemáticas que limitam estritamente seus argumentos a serem números em determinados intervalos. Selecionamos 4 das 13 ferramentas como o subconjunto visto para ajustar a linha de base e avaliar diferentes abordagens nas 9 ferramentas invisíveis restantes.
Referência em relações com gráficos de conhecimento. Para investigar melhor a generalização do TOOLDEC em um conjunto maior de ferramentas, também avaliamos o KAMEL (Kalo & Fichtel, 2022), um conjunto de dados de resposta a perguntas contendo um total de 234 relações de conhecimento que se assemelham às características das APIs (por exemplo, número de filhos). Mais exemplos podem ser encontrados no Apêndice A.4. As ferramentas do KAMEL são muito mais do que as do FuncQA. Eles também são mais complexos e diversos porque o número de argumentos para suas ferramentas varia de 1 a 3, e seus tipos incluem strings, locais, datas, números e outros tipos ad-hoc. Selecionamos 30 de 234 ferramentas como o subconjunto visto e avaliamos em 4 conjuntos de avaliação diferentes, com 30, 60, 100 e 234 ferramentas, respectivamente. Seguindo Hao et al. (2023), usamos prompting, poucos disparos e disparo zero como linhas de base extras. (1) A solicitação depende do conhecimento interno do LLM, uma vez que nenhuma ferramenta foi fornecida. (2) Few-shot demonstra o uso de ferramentas através de exemplos de poucos disparos. (3) Zero-shot fornece descrições de todas as ferramentas disponíveis no contexto. Como o conjunto de dados de treinamento e avaliação do KAMEL compartilha o mesmo modelo de pergunta para cada ferramenta, o que muitas vezes não é verdade em ambientes do mundo real, comparamos o TOOLDEC apenas com o ToolkenGPT treinado no conjunto de dados sintético proposto pelo estudo original. Usamos a precisão das chamadas de ferramentas como métrica, que é determinada pela proporção de respostas que invocam a relação de conhecimento correta.
RestGPT (Song et al., 2023) é uma abordagem de aprendizagem no contexto que aprende o uso da ferramenta a partir da documentação da ferramenta no contexto. Demonstramos a capacidade de generalização do RestGPT aprimorado pelo TOOLDEC, mostrando que RestGPT com TOOLDEC pode obter melhor precisão sem documentação no contexto do que a linha de base do RestGPT com documentação. Como o TOOLDEC precisa de acesso à próxima distribuição de tokens, usamos RestGPT baseado em Vicuna (Zheng et al., 2023) como linha de base. Para o nosso método, retiramos toda a documentação da ferramenta do prompt, deixando apenas as instruções de raciocínio.
Referência em APIs para serviços da Web do mundo real. Avaliamos no RestBench (Song et al., 2023). Consiste em tarefas em cenários do mundo real, incluindo o TMDB, um site para informações sobre filmes, e o Spotify, um reprodutor de música online. Essas tarefas vêm diretamente de instruções de usuários reais e requerem várias ferramentas na forma de APIs RESTful para serem resolvidas. APIs RESTful são o padrão de fato para serviços web (Li et al., 2016) que usam métodos HTTP para manipular recursos. As soluções básicas são anotadas por humanos na forma de cadeias de chamadas de ferramentas. Avaliamos nosso método e a linha de base no TMDB, que consiste em 55 APIs RESTful. Como os métodos HTTP como GET e POST possuem um formato diferente da chamada de ferramenta, formato de argumentos de ferramenta do TOOLDEC. Reescrevemos essas APIs para seguir esse formato. Usamos a taxa de caminho correto (CP%) proposta pelo artigo original como métrica para medir a precisão. A taxa de caminho correto é a proporção de saídas do modelo que contém o caminho de chamada de ferramenta correto anotado por humanos.
Generalização para funções matemáticas invisíveis. Na Figura 5a apresentamos os resultados do FuncQA. Embora o ToolkenGPT e o TOOLDEC tenham alcançado precisões semelhantes em tarefas que envolviam apenas ferramentas visíveis, o ToolkenGPT não conseguiu generalizar para ferramentas invisíveis, resultando em uma queda significativa de desempenho. Por outro lado, o TOOLDEC foi capaz de manter uma precisão comparável mesmo em ferramentas invisíveis e alcançar uma precisão 8x melhor em problemas multi-hop, ressaltando sua generalização. Consequentemente, o TOOLDEC superou significativamente o ToolkenGPT em precisão total.
Generalização para funções invisíveis do Knowledge Graph. Apresentamos nossos resultados no KAMEL na Figura 5b. À medida que o número de ferramentas disponíveis aumentou, os dois métodos ICL sofreram com o limite de comprimento do contexto (Hao et al., 2023) e experimentaram uma queda significativa na precisão. O ToolkenGPT, ajustado nas primeiras 30 ferramentas, também não conseguiu generalizar para mais ferramentas. A solicitação manteve uma precisão baixa e estável porque não dependia da documentação da ferramenta no contexto. Por outro lado, o TOOLDEC conseguiu manter a sua precisão mesmo quando a quantidade de ferramentas invisíveis atingiu 204.
Generalização para serviços da Web invisíveis. Os resultados no RestBench são relatados na Tabela 5. O TOOLDEC permitiu que o modelo usasse APIs de serviços da web sem documentação contextual, reduzindo o tamanho do prompt de 1.974 tokens para apenas 880 tokens. No entanto, o TOOLDEC ainda superou significativamente a linha de base em termos de acerto indicado pela razão do caminho correto (CP%), aumentando-a em 8 pontos. Estes resultados sugerem que o TOOLDEC também pode melhorar a generalização do uso de ferramentas de aprendizagem em contexto em aplicações web do mundo real.
Os resultados de todas as três configurações indicam que o TOOLDEC não apenas ajuda a generalizar LLMs de ferramentas de ajuste fino sem dados de treinamento extras, mas também ajuda LLMs de ferramentas de aprendizagem no contexto a generalizar sem documentação no contexto. Esta capacidade do TOOLDEC foi comprovada em três domínios diferentes.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.