paint-brush
Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec permite la selección de herramientas generalizablespor@textmodels

Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec permite la selección de herramientas generalizables

Demasiado Largo; Para Leer

Los investigadores proponen TOOLDEC, una decodificación guiada por máquina de estado finito para LLM, que reduce los errores y mejora el uso de las herramientas.
featured image - Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec permite la selección de herramientas generalizables
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Kexun Zhang, UC Santa Barbara y contribución de Equal;

(2) Hongqiao Chen, Escuela Secundaria Northwood y Contribución Igual;

(3) Lei Li, Universidad Carnegie Mellon;

(4) William Yang Wang, UC Santa Bárbara.

Tabla de enlaces

5. EXPERIMENTO II: TOOLDEC PERMITE LA SELECCIÓN GENERALIZABLE DE HERRAMIENTAS

En el Experimento II, mostramos cómo TOOLDEC se generaliza a herramientas invisibles sin datos de entrenamiento ni documentación de herramientas adicionales. Comparamos TOOLDEC con dos líneas de base sólidas: ToolkenGPT (Hao et al., 2023) como un enfoque de ajuste representativo y RestGPT (Song et al., 2023) como un enfoque representativo de aprendizaje en contexto. Realizamos experimentos en tres puntos de referencia: FuncQA (Hao et al., 2023) y KAMEL (Kalo & Fichtel, 2022) y RestBench (Song et al., 2023). Estos puntos de referencia requieren diversos conjuntos de herramientas de dominios muy diferentes, incluido el razonamiento matemático, la respuesta a preguntas de conocimiento y los servicios web del mundo real. En los tres dominios, nuestros resultados muestran que TOOLDEC es capaz de generalizar eficientemente a nuevas herramientas sin necesidad de realizar ajustes en datos adicionales.

5.1 LÍNEA DE BASE DE AJUSTE FINO: TOOLKENGPT

ToolkenGPT es un enfoque de ajuste del uso de herramientas que aprende un token especial para cada herramienta. Para generalizar a nuevas herramientas, ToolkenGPT aún necesita datos adicionales y ajustes adicionales que impliquen el uso de nuevas herramientas. Demostramos que TOOLDEC, una vez ajustado en un conjunto determinado de herramientas vistas, no necesita datos adicionales ni ajustes adicionales para adoptar herramientas invisibles. Comparamos TOOLDEC y las líneas de base ajustándolas en el mismo subconjunto de herramientas, denominadas "herramientas vistas", y luego evaluamos su rendimiento en "herramientas invisibles".


Para garantizar una comparación justa, imitamos el método de planificación de ToolkenGPT para resolver el problema de "cuándo utilizar las herramientas". Específicamente, ajustamos la incorporación de un único token especial <T> para representar todas las herramientas, reduciendo el tamaño del vocabulario adicional a 1. Una vez que se genera <T>, comienza una llamada a la herramienta.


Solicitamos a LLM que genere un nombre de herramienta. La generación de este nombre de herramienta está guiada por un FSM construido a partir de una lista de todas las herramientas disponibles. Luego, el nombre de esta herramienta se vuelve a conectar al contexto para iniciar la generación de argumentos. Mostramos un ejemplo de este proceso en el Apéndice A.2.


Seleccionamos un pequeño subconjunto de "herramientas vistas" de todas las herramientas disponibles y ajustamos la integración solo con demostraciones de las herramientas en el subconjunto seleccionado. Ajustamos la línea de base usando el mismo subconjunto. Luego, evaluamos nuestro método y las líneas de base en tareas que involucran herramientas invisibles en el subconjunto para demostrar la capacidad de generalización de TOOLDEC.


Punto de referencia sobre funciones matemáticas. Utilizamos preguntas de saltos múltiples de FuncQA para evaluar nuestro método. Las herramientas de FuncQA, como permutate, mcd y power, son funciones matemáticas que limitan estrictamente sus argumentos para que sean números en ciertos rangos. Seleccionamos 4 de 13 herramientas como el subconjunto visto para ajustar la línea de base y evaluar diferentes enfoques en las 9 herramientas invisibles restantes.


Punto de referencia sobre relaciones de gráficos de conocimiento. Para investigar más a fondo la generalización de TOOLDEC en un conjunto más amplio de herramientas, también evaluamos KAMEL (Kalo & Fichtel, 2022), un conjunto de datos de preguntas y respuestas que contiene un total de 234 relaciones de conocimiento que se asemejan a las características de las API (por ejemplo, número de niños). Se pueden encontrar más ejemplos en el Apéndice A.4. Las herramientas de KAMEL son muchas más que las de FuncQA. También son más complejos y diversos porque el número de argumentos de sus herramientas varía de 1 a 3, y sus tipos incluyen cadenas, ubicaciones, fechas, números y otros tipos ad hoc. Seleccionamos 30 de 234 herramientas como el subconjunto visto y evaluamos en 4 conjuntos de evaluación diferentes, con 30, 60, 100 y 234 herramientas, respectivamente. Siguiendo a Hao et al. (2023), utilizamos indicaciones, pocos intentos y cero intentos como puntos de referencia adicionales. (1) Las indicaciones se basan en el conocimiento interno de LLM, ya que no se proporcionó ninguna herramienta. (2) Pocas tomas demuestra el uso de herramientas a través de ejemplos de pocas tomas. (3) Zero-shot proporciona descripciones de todas las herramientas disponibles en contexto. Dado que el conjunto de datos de capacitación y evaluación de KAMEL comparte la misma plantilla de preguntas para cada herramienta, lo que a menudo no es cierto en entornos del mundo real, comparamos TOOLDEC solo con ToolkenGPT entrenado en el conjunto de datos sintéticos propuesto por el estudio original. Utilizamos la precisión de las llamadas a herramientas como métrica, que está determinada por la proporción de respuestas que invocan la relación de conocimiento correcta.

5.2 LÍNEA DE BASE DEL APRENDIZAJE EN CONTEXTO: RESTGPT

RestGPT (Song et al., 2023) es un enfoque de aprendizaje en contexto que aprende el uso de herramientas a partir de la documentación de herramientas en contexto. Demostramos la capacidad de generalización de RestGPT mejorado con TOOLDEC al mostrar que RestGPT con TOOLDEC puede lograr una mayor precisión sin documentación en contexto que la línea base de RestGPT con documentación. Dado que TOOLDEC necesita acceso a la próxima distribución de tokens, utilizamos RestGPT basado en Vicuña (Zheng et al., 2023) como base. Para nuestro método, eliminamos toda la documentación de la herramienta del mensaje, dejando solo las instrucciones para el razonamiento.


Punto de referencia sobre API para servicios web del mundo real. Evaluamos en RestBench (Song et al., 2023). Consiste en tareas en escenarios del mundo real, incluido TMDB, un sitio web de información sobre películas, y Spotify, un reproductor de música en línea. Estas tareas provienen directamente de instrucciones de usuarios reales y requieren múltiples herramientas en forma de API RESTful para resolverlas. Las API RESTful son el estándar de facto para los servicios web (Li et al., 2016) que utilizan métodos HTTP para manipular recursos. Las soluciones de verdad fundamental son anotadas por humanos en forma de cadenas de llamadas de herramientas. Evaluamos nuestro método y la línea base en TMDB, que consta de 55 API RESTful. Dado que los métodos HTTP como GET y POST tienen un formato diferente al de la llamada a la herramienta, el formato de argumentos de la herramienta es TOOLDEC. Reescribimos estas API para seguir este formato. Utilizamos la tasa de ruta correcta (CP%) propuesta por el artículo original como métrica para medir la precisión. La tasa de ruta correcta es la proporción de resultados del modelo que contienen la ruta de llamada de herramienta correcta anotada por humanos.

5.3 RESULTADOS DEL EXPERIMENTO

Generalización a funciones matemáticas invisibles. En la Figura 5a, presentamos los resultados de FuncQA. Si bien ToolkenGPT y TOOLDEC lograron precisiones similares en tareas que involucraban solo herramientas visibles, ToolkenGPT no logró generalizar a herramientas invisibles, lo que resultó en una caída significativa del rendimiento. Por otro lado, TOOLDEC pudo mantener una precisión comparable incluso en herramientas invisibles y lograr una precisión 8 veces mayor en problemas de múltiples saltos, lo que subraya su generalización. En consecuencia, TOOLDEC superó significativamente a ToolkenGPT en precisión total.


Tabla 5: Resultados en RestBench. La línea de base necesita un mensaje mucho más largo con documentación de herramientas en contexto para aprender a usar las herramientas, mientras que nuestro método no. Sin embargo, nuestro método todavía tiene una relación de ruta correcta (CP%) mucho más alta que la línea base.


Figura 5: Resultados en KAMEL y FuncQA. A medida que aumentó la cantidad de herramientas invisibles, todas las líneas de base experimentaron una caída significativa en el rendimiento. Pero TOOLDEC mantuvo un alto rendimiento similar, aunque solo había visto un pequeño subconjunto (30 de 234 en KAMEL y 4 de 13 en FuncQA) de herramientas.


Generalización a funciones de gráficos de conocimiento invisibles. Presentamos nuestros resultados en KAMEL en la Figura 5b. A medida que aumentó el número de herramientas disponibles, los dos métodos ICL sufrieron el límite de longitud del contexto (Hao et al., 2023) y experimentaron una caída significativa en la precisión. ToolkenGPT, ajustado en las primeras 30 herramientas, tampoco pudo generalizarse a más herramientas. Las indicaciones mantuvieron una precisión baja y estable porque no dependían de la documentación de la herramienta en contexto. Por otro lado, TOOLDEC pudo mantener su precisión incluso cuando la cantidad de herramientas invisibles llegó a 204.


Generalización a servicios web invisibles. Los resultados en RestBench se informan en la Tabla 5. TOOLDEC habilitó el modelo para usar API de servicios web sin documentación en contexto, reduciendo el tamaño del mensaje de 1974 tokens a solo 880 tokens. Sin embargo, TOOLDEC aún superó significativamente la línea de base en términos de corrección indicada por la relación de trayectoria correcta (CP), incrementándola en 8 puntos. Estos resultados sugieren que TOOLDEC también puede mejorar la generalización del uso de herramientas de aprendizaje en contexto en aplicaciones web del mundo real.


Los resultados de las tres configuraciones indican que TOOLDEC no solo ayuda a que los LLM de herramientas de ajuste se generalicen sin datos de capacitación adicionales, sino que también ayuda a que los LLM de herramientas de aprendizaje en contexto se generalicen sin documentación en contexto. Esta capacidad de TOOLDEC ha sido probada en tres dominios diferentes.


Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.