Autores:
(1) Sirui Hong, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(2) Yizhang Lin, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(3) Bang Liu, Universite de Montreal & Mila y estos autores aparecen enumerados en orden alfabético;
(4) Bangbang Liu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(5) Binhao Wu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(6) Danyang Li, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(7) Jiaqi Chen, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;
(8) Jiayi Zhang, de la Universidad Renmin de China y estos autores contribuyeron igualmente a este trabajo;
(9) Jinlin Wang, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(10) Li Zhang, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;
(11) Lingyao Zhang, estos autores contribuyeron igualmente a este trabajo;
(12) Min Yang, 5Instituto de Tecnología Avanzada de Shenzhen, Academia de Ciencias de China y estos autores contribuyeron igualmente a este trabajo;
(13) Mingchen Zhuge, AI Initiative, Universidad de Ciencia y Tecnología Rey Abdullah y estos autores contribuyeron igualmente a este trabajo;
(14) Taicheng Guo, de la Universidad de Notre Dame y estos autores contribuyeron igualmente a este trabajo;
(15) Tuo Zhou, de la Universidad de Hong Kong y estos autores contribuyeron igualmente a este trabajo;
(16) Wei Tao, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;
(17) Wenyi Wang, Iniciativa de IA, Universidad de Ciencia y Tecnología Rey Abdullah y estos autores contribuyeron igualmente a este trabajo;
(18) Xiangru Tang, de la Universidad de Yale y estos autores contribuyeron igualmente a este trabajo;
(19) Xiangtao Lu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;
(20) Xiawu Zheng, de la Universidad de Xiamen y estos autores contribuyeron igualmente a este trabajo;
(21) Xinbing Liang, DeepWisdom, Universidad Normal del Este de China y estos autores contribuyeron igualmente a este trabajo;
(22) Yaying Fei, de la Universidad Tecnológica de Beijing, y estos autores contribuyeron igualmente a este trabajo;
(23) Yuheng Cheng, de la Universidad China de Hong Kong, Shenzhen y estos autores contribuyeron igualmente a este trabajo;
(24) Zongze Xu, DeepWisdom, Universidad de Hohai y estos autores contribuyeron igualmente a este trabajo;
(25) Chenglin Wu, DeepWisdom y un autor correspondiente.
Nota del editor: Esta es la parte 1 de 5 de un estudio de investigación que detalla el desarrollo de Data Interpreter, una solución para diversas tareas de ciencia de datos y del mundo real. Lea el resto a continuación.
3 Metodología y 3.1 Planificación dinámica con Estructura Jerárquica
A. Resultados adicionales
B. Resultados de la implementación
C. Detalles de los conjuntos de datos
Los agentes basados en modelos de lenguaje grande (LLM) han demostrado una eficacia notable. Sin embargo, su rendimiento puede verse comprometido en escenarios de ciencia de datos que requieren ajuste de datos en tiempo real, experiencia en optimización debido a dependencias complejas entre varias tareas y la capacidad de identificar errores lógicos para un razonamiento preciso. En este estudio, presentamos el Intérprete de datos, una solución diseñada para resolver con código que enfatiza tres técnicas fundamentales para aumentar la resolución de problemas en la ciencia de datos: 1) planificación dinámica con estructuras de gráficos jerárquicos para la adaptabilidad de datos en tiempo real; 2) integración de herramientas de forma dinámica para mejorar la competencia del código durante la ejecución, enriqueciendo la experiencia necesaria; 3) identificación de inconsistencias lógicas en la retroalimentación y mejora de la eficiencia a través del registro de la experiencia. Evaluamos el Intérprete de datos en varias tareas de ciencia de datos y del mundo real. En comparación con las líneas base de código abierto, demostró un rendimiento superior, mostrando mejoras significativas en las tareas de aprendizaje automático, aumentando de 0,86 a 0,95. Además, mostró un aumento del 26 % en el conjunto de datos MATH y una notable mejora del 112 % en las tareas abiertas. La solución se publicará en https://github.com/geekan/MetaGPT.
Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han permitido que los agentes se destaquen en una amplia gama de aplicaciones, demostrando su adaptabilidad y eficacia (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b). Estos agentes potenciados por LLM han influido significativamente en áreas como la ingeniería de software (Hong et al., 2023), la navegación en escenarios complejos de mundo abierto (Wang et al., 2023; Chen et al., 2024a), la facilitación de estructuras colaborativas de múltiples agentes para tareas multimodales (Zhuge et al., 2023), la mejora de la capacidad de respuesta de los asistentes virtuales (Lu et al., 2023), la optimización de la inteligencia grupal (Zhuge et al., 2024) y la contribución a la investigación científica (Tang et al., 2024).
Estudios recientes se centraron en mejorar las capacidades de resolución de problemas de estos agentes mediante la mejora de su proceso de razonamiento, con el objetivo de aumentar la sofisticación y la eficiencia (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al., 2024; Wei et al., 2022). Sin embargo, los problemas científicos centrados en los datos, incluido el aprendizaje automático, el análisis de datos y la resolución de problemas matemáticos, presentan desafíos únicos que aún deben abordarse. El proceso de aprendizaje automático implica pasos de manejo de tareas complejos y largos, caracterizados por dependencias intrincadas entre múltiples tareas. Esto requiere la intervención de expertos para la optimización del proceso y el ajuste dinámico en caso de falla o actualización de datos. A menudo, es un desafío para los LLM proporcionar la solución correcta en un solo intento. Además, estos problemas exigen un razonamiento preciso y una verificación exhaustiva de los datos (RomeraParedes et al., 2023), lo que plantea desafíos adicionales al marco de agente basado en LLM.
Además, trabajos existentes como (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) abordan problemas centrados en datos a través de métodos de resolución de problemas basados en código, conocidos como el paradigma del intérprete, que combina la descomposición de requisitos estáticos con la ejecución de código. Sin embargo, surgen varios desafíos clave al emplear estos marcos en tareas prácticas de ciencia de datos: 1) Intensidad de dependencia de los datos: la complejidad inherente a la ciencia de datos surge de la intrincada interacción entre varios pasos, que están sujetos a cambios en tiempo real (Liu et al., 2021). Para obtener resultados precisos, la limpieza de datos y la ingeniería de características integral son requisitos previos antes de desarrollar cualquier modelo de aprendizaje automático. Por lo tanto, es fundamental monitorear los cambios de datos y ajustar dinámicamente a los datos y variables transformados. El proceso de modelado de aprendizaje automático, que abarca la selección de características, el entrenamiento del modelo y la evaluación, involucra un amplio espectro de operadores de procesamiento y espacios de búsqueda (Zheng et al., 2021). El desafío radica en generar y resolver todo el código de proceso simultáneamente. 2) Conocimientos de dominio refinados: el conocimiento especializado y las prácticas de codificación de los científicos de datos son fundamentales para abordar los desafíos relacionados con los datos. Este conocimiento, que suele estar integrado en códigos y datos propietarios, a menudo permanece inaccesible para los LLM actuales. Por ejemplo, generar código para la transformación de datos en dominios específicos, como la energía o la geología, puede representar un desafío para los LLM sin la experiencia de dominio requerida. Las metodologías existentes dependen predominantemente de los LLM, una dependencia que puede agilizar el proceso pero potencialmente comprometer el rendimiento. 3) Requisitos lógicos rigurosos: actualmente, los intérpretes como (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) incorporan capacidades de ejecución de código y captura de errores para mejorar el rendimiento de la resolución de problemas. Sin embargo, a menudo descuidan la ejecución sin errores, considerándola erróneamente como correcta. Si bien las tareas básicas de programación se pueden agilizar y dependen de la retroalimentación de ejecución inmediata cuando se delinean los requisitos, los problemas de ciencia de datos a menudo plantean requisitos ambiguos, irregulares y no bien definidos, lo que dificulta la comprensión de los LLM. En consecuencia, las soluciones de código generadas por LLM para la resolución de tareas pueden contener ambigüedades que requieren una validación rigurosa de la solidez lógica, que se extienda más allá de la mera retroalimentación de ejecución.
Para abordar los desafíos antes mencionados, presentamos un agente basado en LLM, llamado Data Interpreter, diseñado específicamente para el campo de la ciencia de datos. Este agente sigue un enfoque de planificación-código-verificación para cumplir con los requisitos humanos al dividir las tareas, ejecutar el código y verificar la retroalimentación. Específicamente, proponemos 1) Planificación dinámica con estructura jerárquica: Nuestro Data Interpreter emplea estructuras de gráficos jerárquicos para comprender las complejidades inherentes a la ciencia de datos de manera más efectiva. Un enfoque de planificación dinámica lo equipa con la adaptabilidad a las variaciones de tareas, lo que demuestra ser especialmente eficiente en el monitoreo de cambios de datos y la gestión de dependencias de variables intrincadas inherentes a los problemas de la ciencia de datos. 2) Utilización y generación de herramientas: Mejoramos la competencia en codificación al integrar varios fragmentos de código creados por humanos y crear herramientas personalizadas para tareas específicas más allá de las capacidades centradas en la API. Este proceso implica la combinación automática de diversas herramientas con código autogenerado. Utiliza la ejecución a nivel de tarea para construir y expandir de forma independiente su biblioteca de herramientas, simplificar el uso de herramientas y realizar la reestructuración del código según sea necesario. 3) Mejora del razonamiento con detección de errores lógicos: se basa en el puntaje de confianza derivado de los resultados de ejecución y las validaciones basadas en pruebas, que son esenciales para un escenario sin excepciones. Detecta inconsistencias entre la solución de código y la ejecución del código de prueba y compara múltiples pruebas para reducir los errores lógicos. A lo largo del proceso de ejecución y razonamiento, se registran las experiencias a nivel de tarea, que comprenden principalmente metadatos y trayectorias de tiempo de ejecución, que incluyen tanto éxitos como fracasos.
Como se muestra en la Figura 1, nuestro Intérprete de Datos supera significativamente a los marcos de código abierto existentes. En comparación con estos valores de referencia, el Intérprete de Datos muestra un rendimiento superior, con una mejora del 10,3 % (de 0,86 a 0,95) en las tareas de aprendizaje automático y una mejora del 26 % en el conjunto de datos MATH, lo que demuestra unas sólidas capacidades de resolución de problemas. En las tareas abiertas, su rendimiento se ha más que duplicado, lo que marca un aumento del 112 %, lo que demuestra su eficacia para abordar un amplio espectro de desafíos.
Resumimos nuestras contribuciones de la siguiente manera:
• Proponemos un marco de planificación dinámico con estructuras jerárquicas, mejorando la adaptabilidad y la capacidad de resolución de problemas en tareas de ciencia de datos.
• Mejoramos la competencia y la eficiencia de la codificación en los LLM mediante la introducción de la integración automatizada de herramientas para la utilización y generación de herramientas.
• Mejoramos el razonamiento integrando la verificación y la experiencia, mejorando así la precisión y la eficiencia de la resolución de problemas.
• Nuestros experimentos demuestran que nuestro intérprete de datos supera los puntos de referencia existentes en tareas de aprendizaje automático, problemas matemáticos y tareas abiertas, estableciendo así un nuevo estándar de rendimiento.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.