paint-brush
Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec elimina los errores de sintaxispor@textmodels
143 lecturas

Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec elimina los errores de sintaxis

Demasiado Largo; Para Leer

Los investigadores proponen TOOLDEC, una decodificación guiada por máquina de estado finito para LLM, que reduce los errores y mejora el uso de las herramientas.
featured image - Uso de herramientas generalizables y sin errores de sintaxis para LLM: ToolDec elimina los errores de sintaxis
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Kexun Zhang, UC Santa Barbara y contribución de Equal;

(2) Hongqiao Chen, Escuela Secundaria Northwood y Contribución Igual;

(3) Lei Li, Universidad Carnegie Mellon;

(4) William Yang Wang, UC Santa Bárbara.

Tabla de enlaces

4. EXPERIMENTO I: TOOLDEC ELIMINA ERRORES DE SINTÁXIS

En esta sección, mostramos que TOOLDEC puede eliminar errores de sintaxis al generar llamadas a herramientas. Seleccionamos dos líneas de base recientes, ToolLLM y ToolkenGPT, representativas del aprendizaje en contexto y el paradigma de ajuste, para mostrar la capacidad de TOOLDEC. Dado que las configuraciones de uso de herramientas para las dos líneas de base son diferentes y no se pueden aplicar entre sí, probamos el rendimiento de TOOLDEC por separado para las dos líneas de base utilizando los puntos de referencia de los artículos originales. A través de extensos experimentos, demostramos que TOOLDEC puede eliminar por completo los errores sintácticos, lo que resulta en una mayor precisión y un tiempo de inferencia más corto.

4.1 LÍNEAS DE BASE Y PUNTOS DE REFERENCIA

ToolLLM (Qin et al., 2023). ToolLLM es un enfoque de aprendizaje en contexto para modelos de lenguaje aumentados con herramientas. Utiliza un modelo LLaMA-7B ajustado por instrucciones (Touvron et al., 2023) para utilizar herramientas. Dada la instrucción en lenguaje natural de una tarea que depende de una herramienta, un recuperador de API primero recupera un pequeño subconjunto de funciones relevantes. La descripción textual y el esquema de estas funciones relevantes están disponibles en el contexto. Luego, ToolLLM pasa por un proceso de razonamiento de varios pasos utilizando las funciones para producir una respuesta final.


ToolLLM se evalúa en ToolEval, un conjunto de datos propuesto en el mismo artículo. ToolEval contiene tareas que involucran un conjunto masivo (más de 10,000) de API REST disponibles públicamente. Usamos los subconjuntos más difíciles de ToolEval para evaluar nuestro método: I2-Category e I3-Instrucción. Contienen tareas que necesitan herramientas complejas e invisibles de múltiples categorías (como geolocalización, fecha/hora y otras) para resolverse. En promedio, una tarea de categoría I2 necesita 6,76 herramientas y una tarea de categoría I3 necesita 8,24 herramientas. ToolEval tiene dos métricas principales: Tasa de aprobación mide el porcentaje de tareas para las cuales el modelo alcanza una respuesta dentro de una cierta cantidad de pasos de razonamiento. Win Rate utiliza un evaluador automático impulsado por un LLM que sigue un conjunto predefinido de criterios para un mejor camino. Compara la calidad y exactitud de las respuestas de referencia con la respuesta de referencia producida por ChatGPT. Qin y cols. (2023) encuentra que el evaluador automático tiene una alta correlación del 75,8% con los anotadores humanos. Además de estas dos métricas, también medimos la tasa de error de la herramienta , la proporción de tareas que tienen al menos un error relacionado con la herramienta.


ToolkenGPT (Hao et al., 2023). ToolkenGPT es un enfoque de ajuste del uso de herramientas. ToolkenGPT representa cada herramienta como un token especial y optimiza solo la incorporación de los tokens de herramienta para su uso. Durante la inferencia, ToolkenGPT invoca una herramienta una vez que se predice el token especial correspondiente. Durante una llamada a una herramienta, pasa argumentos aprendiendo de demostraciones en contexto. ToolkenGPT utiliza LLaMA-33B (Touvron et al., 2023) como modelo base.


Tabla 3: Resultados de ToolEval. ToolLLM mejorado con TOOLDEC superó a ToolLLM en todas las métricas. TOOLDEC eliminó todos los errores de la herramienta e incluso pudo superar ligeramente a ChatGPT.


4.2 INTEGRACIÓN DE TOOLDEC CON LOS MODELOS BASE

HerramientaLLM+TOOLDEC. Siguiendo a Qin et al. (2023), utilizamos ReAct (Yao et al., 2023) para planificar las llamadas a herramientas de ToolLLM. Esto se ajusta al segundo caso de cambio de modo en la Sección 3.2. Hay tres partes en el FSM de ToolLLM. Primero, un formato FSM que aplica la sintaxis "Pensamiento, acción, entrada de acción" de ReAct. Después de decodificar "Acción:", este FSM pasa al estado inicial del nombre de función FSM, lo que garantiza que un nombre de función decodificado siempre sea válido. También construimos un argumento de función FSM basado en JSON. Permitimos que los LLM razonaran 5 pasos antes de que deban llamar a la acción final para que se considere "aprobado".


HerramientaGPT+TOOLDEC. Dado que ToolkenGPT utiliza tokens especiales para llamar a las herramientas, TOOLDEC solo se aplica para garantizar la sintaxis de los argumentos. En este experimento, nuestro FSM garantiza que cada argumento sea un número válido y que los argumentos estén separados por comas. También garantiza que la cantidad real de argumentos pasados a una función sea exactamente la cantidad que necesita. Comparamos TOOLDEC con dos variantes de la línea base en Hao et al. (2023), uno con retroceso y otro sin él. Backtrace intenta evitar llamadas fallidas a la herramienta al permitir que el LLM regrese y pruebe el siguiente token probable, en lugar de la llamada fallida a la herramienta. Para evaluar TOOLDEC, informamos el tiempo promedio de inferencia por problema y las tasas de error de la herramienta, además de la precisión.

4.3 RESULTADOS EXPERIMENTALES

TOOLDEC mejora los LLM de herramientas de aprendizaje en contexto. La Tabla 3 muestra el desempeño de TOOLDEC en ToolEval. TOOLDEC logró una tasa de ganancia del 55 % en la categoría I2 y una tasa de ganancia del 60 % en la instrucción I3. Como reemplazo directo del algoritmo de decodificación original, TOOLDEC eliminó los tres tipos de errores relacionados con la herramienta y logró la mejor tasa de ganancia y tasa de aprobación, incluso superando a ChatGPT.


La alta tasa de error de las herramientas de las líneas base sugiere que incluso después del ajuste de las instrucciones, ToolLLM todavía carece de la capacidad de invocar con precisión herramientas externas desde la documentación de la herramienta. Esta incapacidad queda más expuesta cuando hay una gran variedad de herramientas disponibles, como en I3-Instrucción. Además, estos errores afectaron significativamente la capacidad del modelo para completar tareas.


Figura 4: Tasas de error de los tres tipos de errores relacionados con herramientas en relación con el número total de llamadas a herramientas. TOOLDEC redujo a cero los tres errores relacionados con las herramientas.


Presentamos las tasas de error de cada tipo de error en dos puntos de referencia en la Figura 4. Para ToolLLM, el error de nombre, es decir, llamar a una herramienta inexistente, fue el error sintáctico más común en una llamada de herramienta. TOOLDEC eliminó por completo los tres errores.



Dado que la alucinación del nombre de la función es el error más frecuente relacionado con la herramienta, una línea de base ligeramente mejor fue mitigarlo con una coincidencia aproximada por sufijo. Presentamos los resultados de la línea base con coincidencia difusa como ToolLLM + Fuzzy Matching, y sin ella como ToolLLM. Esta mitigación aumentó la tasa de aprobación, pero tuvo poco impacto en la tasa de éxito, como se evidencia en la Tabla 3, porque a menudo se podían elegir API incorrectas cuando un modelo no podía llamar con precisión a la herramienta que quería. En general, nuestros experimentos con ToolLLM demuestran que TOOLDEC es muy eficaz en los LLM de aprendizaje en contexto. A través de la siguiente línea de base, ToolkenGPT, mostramos que TOOLDEC también es beneficioso para perfeccionar los LLM de herramientas.


TOOLDEC mejora los LLM de herramientas de ajuste fino. La Tabla 4 muestra los resultados en FuncQAmulti. Aunque ToolkenGPT elimina la posibilidad de llamar a nombres de herramientas inexistentes mediante el ajuste de una incrustación de token especial, aún puede sufrir otros errores sintácticos, como lo demuestra la tasa de error de la herramienta del 27,9%. Como reemplazo directo, TOOLDEC aumentó la precisión de ToolkenGPT y al mismo tiempo fue mucho más rápido en la inferencia. Aunque ToolkenGPT + backtrace logró una precisión ligeramente mejor que TOOLDEC, utilizó el doble de tiempo para probar diferentes herramientas. Tenga en cuenta que, dado que TOOLDEC eliminó todos los errores de herramientas, no hubo llamadas fallidas a herramientas para volver a intentarlo. Los resultados subrayan la relevancia de los errores relacionados con las herramientas y la aplicabilidad de TOOLDEC tanto para el aprendizaje en contexto reciente como para los LLM mejorados con herramientas de ajuste.


Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.