paint-brush
ToolTalk: Evaluación comparativa del futuro de los asistentes de inteligencia artificial que utilizan herramientaspor@botbeat
170 lecturas

ToolTalk: Evaluación comparativa del futuro de los asistentes de inteligencia artificial que utilizan herramientas

Demasiado Largo; Para Leer

ToolTalk es un punto de referencia para evaluar a los asistentes de IA en el uso de herramientas complejas a través del diálogo, lo que revela el rendimiento superior de GPT-4 sobre GPT-3.5, pero destaca los desafíos actuales, como argumentos alucinados y documentación incomprendida.
featured image - ToolTalk: Evaluación comparativa del futuro de los asistentes de inteligencia artificial que utilizan herramientas
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Nicholas Farn, Corporación Microsoft {Microsoft Corporation {[email protected]};

(2) Richard Shin, Corporación Microsoft {[email protected]}.

Tabla de enlaces

Resumen e introducción

Diseño de conjunto de datos

Metodología de evaluación

Experimentos y análisis

Trabajo relacionado

Conclusión, reproducibilidad y referencias.

A. Lista completa de herramientas

B. Aviso de escenario

C. Consultas poco realistas

D. Matices al comparar trabajos anteriores

ABSTRACTO

Los modelos de lenguajes grandes (LLM) han mostrado mejoras masivas en las habilidades de razonamiento y toma de decisiones y pueden mantener conversaciones naturales con los usuarios. Muchos trabajos recientes buscan complementar los asistentes basados en LLM con herramientas externas para que puedan acceder a información privada o actualizada y realizar acciones en nombre de los usuarios. Para medir mejor el rendimiento de estos asistentes, este documento presenta ToolTalk, un punto de referencia que consiste en intenciones complejas del usuario que requieren el uso de herramientas de varios pasos especificado a través del diálogo. ToolTalk contiene 28 herramientas agrupadas en 7 complementos e incluye una implementación simulada completa de cada herramienta, lo que permite una evaluación totalmente automatizada de los asistentes que dependen de la retroalimentación de la ejecución. ToolTalk también enfatiza las herramientas que afectan externamente al mundo en lugar de solo herramientas para hacer referencia o buscar información. Evaluamos GPT-3.5 y GPT-4 en ToolTalk, lo que arroja tasas de éxito del 26 % y 50 % respectivamente. Nuestro análisis de los errores revela tres categorías principales y sugiere algunas direcciones futuras para mejorar.

Lanzamos ToolTalk en https://github.com/microsoft/ToolTalk.

1. INTRODUCCIÓN

Los modelos de lenguaje grande (LLM) pueden realizar hazañas impresionantes en la comprensión y generación del lenguaje natural y otras tareas que implican la manipulación de texto. Con los ajustes adecuados después del entrenamiento previo, pueden mantener conversaciones fluidas y naturales con los usuarios. Sin embargo, el alcance de tales conversaciones todavía está limitado porque los LLM carecen de acceso a conocimientos fuera de sus datos de capacitación, exhiben razonamiento matemático y habilidades computacionales limitadas y no pueden interactuar con el mundo exterior.


Para superar estas limitaciones, varios trabajos previos han propuesto integrar chatbots basados en LLM con la capacidad de utilizar herramientas como motores de búsqueda (Nakano et al., 2022), calculadoras o API web (Mialon et al., 2023). Lograr un progreso significativo en el uso de herramientas requiere puntos de referencia relevantes y conjuntos de datos de evaluación que puedan ejercitar plenamente estos sistemas con conversaciones realistas y desafiantes. En este artículo, presentamos ToolTalk como un paso hacia este objetivo. ToolTalk consta de 78 conversaciones con 178 turnos en total, que utilizan 28 herramientas únicas agrupadas en 7 categorías, junto con una metodología de evaluación diseñada para medir el uso preciso de las herramientas.


Varias consideraciones influyeron en nuestro diseño de ToolTalk para simular mejor las conversaciones típicas que un usuario podría desear tener con un asistente basado en LLM. Primero, queríamos asegurarnos de que ToolTalk sea conversacional y permita múltiples rondas de diálogo entre el usuario y el asistente para una única intención; lo que refleja cómo es posible que los usuarios no siempre deseen formular su solicitud completa en una sola expresión y pueden agregar calificadores adicionales o emitir correcciones después de recibir algunos comentarios del asistente. Esto nos permite incluir intenciones de usuario que requieren una serie compleja de invocaciones de herramientas sin tener expresiones anormalmente largas. En segundo lugar, incluimos un conjunto de llamadas a herramientas reales que deberían haberse realizado para cada expresión del usuario, adecuadas para su uso en una evaluación automatizada en comparación con las llamadas a herramientas predichas por un asistente. En tercer lugar, ToolTalk incluye implementaciones ejecutables de cada herramienta incluida en el conjunto de datos, para facilitar la evaluación de los asistentes que pueden considerar los resultados de invocaciones de herramientas anteriores para decidir cuáles hacer a continuación. En cuarto lugar, ToolTalk incluye herramientas destinadas a tener efectos secundarios (como enviar correos electrónicos o agregar o eliminar eventos del calendario), a las que nos referimos como "herramientas de acción", en lugar de solo realizar consultas en bases de datos (como buscar correos electrónicos que contengan una palabra clave en particular). ). Estas herramientas de acción son necesarias si el asistente quiere automatizar las tareas del usuario.


Adaptamos nuestra metodología de evaluación a los detalles del diseño de nuestro conjunto de datos, yendo más allá de las métricas comunes como la precisión de la coincidencia exacta. En particular, consideramos por separado las invocaciones de herramientas de acción y de no acción, considerando que las invocaciones incorrectas a herramientas de acción, como enviar un mensaje a la persona equivocada, pueden tener efectos particularmente negativos para el usuario. Por otro lado, si el asistente realiza invocaciones correctas de herramientas que no son de acción y algunas extrañas incorrectas, las extrañas aún pueden proporcionar información útil al usuario (incluso si no es lo que el usuario solicitó directamente). Como tal, utilizamos el recuerdo de invocación de herramientas y la tasa de acción incorrecta como métricas principales dentro de un solo turno de conversación, y definimos una noción de éxito a nivel de conversación.


Aplicamos ToolTalk en dos asistentes implementados utilizando el soporte de llamadas a funciones de la API de finalización de chat de OpenAI con los modelos GPT-3.5 y GPT-4. Descubrimos que gpt-3.5-turbo-0613 y gpt-4-0613 logran una tasa de éxito a nivel de conversación del 26% y 50% respectivamente, lo que demuestra que el uso de herramientas en un entorno conversacional sigue siendo una tarea difícil incluso para algunos de los más modelos de última generación. Luego realizamos análisis adicionales para determinar las razones por las cuales GPT-3.5 y GPT-4 fallan en las conversaciones. Descubrimos que tanto GPT-3.5 como GPT-4 pueden alucinar argumentos, no comprender la documentación e incluso afirmar abiertamente haber realizado una tarea sin recurrir a ninguna herramienta.


Nuestro artículo hace las siguientes contribuciones:


• Presentamos un conjunto de datos conversacionales para asistentes basados en LLM que utilizan herramientas, que contiene una amplia gama de herramientas y conversaciones de ejemplo con anotaciones reales sobre el terreno para invocaciones de herramientas que permiten una evaluación automatizada.


• Nos aseguramos de que el conjunto de datos contenga conversaciones de varios turnos que requieran el uso de múltiples herramientas, incluidas herramientas con efectos secundarios, para simular mejor cómo los usuarios pueden interactuar con un asistente que usa herramientas.


• Desarrollamos una metodología de evaluación que refleja las diferencias entre herramientas con efectos secundarios y herramientas sin ellos.


• Evaluamos asistentes creados con GPT-3.5 y GPT-4 utilizando nuestro conjunto de datos y analizamos sus errores, encontrando problemas como argumentos alucinados y documentación incomprendida.


Este documento está disponible en arxiv bajo licencia CC 4.0.