Autores:  (1) Sirui Hong, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (2) Yizhang Lin, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (3) Bang Liu, Universite de Montreal & Mila y estos autores aparecen enumerados en orden alfabético;  (4) Bangbang Liu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (5) Binhao Wu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (6) Danyang Li, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (7) Jiaqi Chen, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;  (8) Jiayi Zhang, de la Universidad Renmin de China y estos autores contribuyeron igualmente a este trabajo;  (9) Jinlin Wang, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (10) Li Zhang, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;  (11) Lingyao Zhang, estos autores contribuyeron igualmente a este trabajo;  (12) Min Yang, 5Instituto de Tecnología Avanzada de Shenzhen, Academia de Ciencias de China y estos autores contribuyeron igualmente a este trabajo;  (13) Mingchen Zhuge, AI Initiative, Universidad de Ciencia y Tecnología Rey Abdullah y estos autores contribuyeron igualmente a este trabajo;  (14) Taicheng Guo, de la Universidad de Notre Dame y estos autores contribuyeron igualmente a este trabajo;  (15) Tuo Zhou, de la Universidad de Hong Kong y estos autores contribuyeron igualmente a este trabajo;  (16) Wei Tao, de la Universidad de Fudan y estos autores contribuyeron igualmente a este trabajo;  (17) Wenyi Wang, Iniciativa de IA, Universidad de Ciencia y Tecnología Rey Abdullah y estos autores contribuyeron igualmente a este trabajo;  (18) Xiangru Tang, de la Universidad de Yale y estos autores contribuyeron igualmente a este trabajo;  (19) Xiangtao Lu, DeepWisdom y estos autores contribuyeron igualmente a este trabajo;  (20) Xiawu Zheng, de la Universidad de Xiamen y estos autores contribuyeron igualmente a este trabajo;  (21) Xinbing Liang, DeepWisdom, Universidad Normal del Este de China y estos autores contribuyeron igualmente a este trabajo;  (22) Yaying Fei, de la Universidad Tecnológica de Beijing, y estos autores contribuyeron igualmente a este trabajo;  (23) Yuheng Cheng, de la Universidad China de Hong Kong, Shenzhen y estos autores contribuyeron igualmente a este trabajo;  (24) Zongze Xu, DeepWisdom, Universidad de Hohai y estos autores contribuyeron igualmente a este trabajo;  (25) Chenglin Wu, DeepWisdom y un autor correspondiente.   Nota del editor: Esta es la parte 1 de 5 de un estudio de investigación que detalla el desarrollo de Data Interpreter, una solución para diversas tareas de ciencia de datos y del mundo real. Lea el resto a continuación.  Tabla de enlaces   Resumen y 1 Introducción   2 Trabajos relacionados   3 Metodología y 3.1 Planificación dinámica con Estructura Jerárquica  3.2 Utilización y generación de herramientas  3.3 Mejorar el razonamiento con la verificación y la experiencia   4 experimentos  4.1 Configuración experimental  4.2 Resultado principal  4.3 Estudio de ablación   5 Conclusión y referencias  A. Resultados adicionales  B. Resultados de la implementación  C. Detalles de los conjuntos de datos  ABSTRACTO  Los agentes basados en modelos de lenguaje grande (LLM) han demostrado una eficacia notable. Sin embargo, su rendimiento puede verse comprometido en escenarios de ciencia de datos que requieren ajuste de datos en tiempo real, experiencia en optimización debido a dependencias complejas entre varias tareas y la capacidad de identificar errores lógicos para un razonamiento preciso. En este estudio, presentamos el Intérprete de datos, una solución diseñada para resolver con código que enfatiza tres técnicas fundamentales para aumentar la resolución de problemas en la ciencia de datos: 1) planificación dinámica con estructuras de gráficos jerárquicos para la adaptabilidad de datos en tiempo real; 2) integración de herramientas de forma dinámica para mejorar la competencia del código durante la ejecución, enriqueciendo la experiencia necesaria; 3) identificación de inconsistencias lógicas en la retroalimentación y mejora de la eficiencia a través del registro de la experiencia. Evaluamos el Intérprete de datos en varias tareas de ciencia de datos y del mundo real. En comparación con las líneas base de código abierto, demostró un rendimiento superior, mostrando mejoras significativas en las tareas de aprendizaje automático, aumentando de 0,86 a 0,95. Además, mostró un aumento del 26 % en el conjunto de datos MATH y una notable mejora del 112 % en las tareas abiertas. La solución se publicará en https://github.com/geekan/MetaGPT.  1 INTRODUCCIÓN  Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han permitido que los agentes se destaquen en una amplia gama de aplicaciones, demostrando su adaptabilidad y eficacia (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b). Estos agentes potenciados por LLM han influido significativamente en áreas como la ingeniería de software (Hong et al., 2023), la navegación en escenarios complejos de mundo abierto (Wang et al., 2023; Chen et al., 2024a), la facilitación de estructuras colaborativas de múltiples agentes para tareas multimodales (Zhuge et al., 2023), la mejora de la capacidad de respuesta de los asistentes virtuales (Lu et al., 2023), la optimización de la inteligencia grupal (Zhuge et al., 2024) y la contribución a la investigación científica (Tang et al., 2024).  Estudios recientes se centraron en mejorar las capacidades de resolución de problemas de estos agentes mediante la mejora de su proceso de razonamiento, con el objetivo de aumentar la sofisticación y la eficiencia (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al., 2024; Wei et al., 2022). Sin embargo, los problemas científicos centrados en los datos, incluido el aprendizaje automático, el análisis de datos y la resolución de problemas matemáticos, presentan desafíos únicos que aún deben abordarse. El proceso de aprendizaje automático implica pasos de manejo de tareas complejos y largos, caracterizados por dependencias intrincadas entre múltiples tareas. Esto requiere la intervención de expertos para la optimización del proceso y el ajuste dinámico en caso de falla o actualización de datos. A menudo, es un desafío para los LLM proporcionar la solución correcta en un solo intento. Además, estos problemas exigen un razonamiento preciso y una verificación exhaustiva de los datos (RomeraParedes et al., 2023), lo que plantea desafíos adicionales al marco de agente basado en LLM.   Además, trabajos existentes como (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) abordan problemas centrados en datos a través de métodos de resolución de problemas basados en código, conocidos como el paradigma del intérprete, que combina la descomposición de requisitos estáticos con la ejecución de código. Sin embargo, surgen varios desafíos clave al emplear estos marcos en tareas prácticas de ciencia de datos:   la complejidad inherente a la ciencia de datos surge de la intrincada interacción entre varios pasos, que están sujetos a cambios en tiempo real (Liu et al., 2021). Para obtener resultados precisos, la limpieza de datos y la ingeniería de características integral son requisitos previos antes de desarrollar cualquier modelo de aprendizaje automático. Por lo tanto, es fundamental monitorear los cambios de datos y ajustar dinámicamente a los datos y variables transformados. El proceso de modelado de aprendizaje automático, que abarca la selección de características, el entrenamiento del modelo y la evaluación, involucra un amplio espectro de operadores de procesamiento y espacios de búsqueda (Zheng et al., 2021). El desafío radica en generar y resolver todo el código de proceso simultáneamente.   el conocimiento especializado y las prácticas de codificación de los científicos de datos son fundamentales para abordar los desafíos relacionados con los datos. Este conocimiento, que suele estar integrado en códigos y datos propietarios, a menudo permanece inaccesible para los LLM actuales. Por ejemplo, generar código para la transformación de datos en dominios específicos, como la energía o la geología, puede representar un desafío para los LLM sin la experiencia de dominio requerida. Las metodologías existentes dependen predominantemente de los LLM, una dependencia que puede agilizar el proceso pero potencialmente comprometer el rendimiento.   actualmente, los intérpretes como (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) incorporan capacidades de ejecución de código y captura de errores para mejorar el rendimiento de la resolución de problemas. Sin embargo, a menudo descuidan la ejecución sin errores, considerándola erróneamente como correcta. Si bien las tareas básicas de programación se pueden agilizar y dependen de la retroalimentación de ejecución inmediata cuando se delinean los requisitos, los problemas de ciencia de datos a menudo plantean requisitos ambiguos, irregulares y no bien definidos, lo que dificulta la comprensión de los LLM. En consecuencia, las soluciones de código generadas por LLM para la resolución de tareas pueden contener ambigüedades que requieren una validación rigurosa de la solidez lógica, que se extienda más allá de la mera retroalimentación de ejecución. 1) Intensidad de dependencia de los datos: 2) Conocimientos de dominio refinados: 3) Requisitos lógicos rigurosos:  Para abordar los desafíos antes mencionados, presentamos un agente basado en LLM, llamado Data Interpreter, diseñado específicamente para el campo de la ciencia de datos. Este agente sigue un enfoque de planificación-código-verificación para cumplir con los requisitos humanos al dividir las tareas, ejecutar el código y verificar la retroalimentación. Específicamente, proponemos   Nuestro Data Interpreter emplea estructuras de gráficos jerárquicos para comprender las complejidades inherentes a la ciencia de datos de manera más efectiva. Un enfoque de planificación dinámica lo equipa con la adaptabilidad a las variaciones de tareas, lo que demuestra ser especialmente eficiente en el monitoreo de cambios de datos y la gestión de dependencias de variables intrincadas inherentes a los problemas de la ciencia de datos.   Mejoramos la competencia en codificación al integrar varios fragmentos de código creados por humanos y crear herramientas personalizadas para tareas específicas más allá de las capacidades centradas en la API. Este proceso implica la combinación automática de diversas herramientas con código autogenerado. Utiliza la ejecución a nivel de tarea para construir y expandir de forma independiente su biblioteca de herramientas, simplificar el uso de herramientas y realizar la reestructuración del código según sea necesario.   se basa en el puntaje de confianza derivado de los resultados de ejecución y las validaciones basadas en pruebas, que son esenciales para un escenario sin excepciones. Detecta inconsistencias entre la solución de código y la ejecución del código de prueba y compara múltiples pruebas para reducir los errores lógicos. A lo largo del proceso de ejecución y razonamiento, se registran las experiencias a nivel de tarea, que comprenden principalmente metadatos y trayectorias de tiempo de ejecución, que incluyen tanto éxitos como fracasos. 1) Planificación dinámica con estructura jerárquica: 2) Utilización y generación de herramientas: 3) Mejora del razonamiento con detección de errores lógicos:  Como se muestra en la Figura 1, nuestro Intérprete de Datos supera significativamente a los marcos de código abierto existentes. En comparación con estos valores de referencia, el Intérprete de Datos muestra un rendimiento superior, con una mejora del 10,3 % (de 0,86 a 0,95) en las tareas de aprendizaje automático y una mejora del 26 % en el conjunto de datos MATH, lo que demuestra unas sólidas capacidades de resolución de problemas. En las tareas abiertas, su rendimiento se ha más que duplicado, lo que marca un aumento del 112 %, lo que demuestra su eficacia para abordar un amplio espectro de desafíos.  Resumimos nuestras contribuciones de la siguiente manera:  • Proponemos un marco de planificación dinámico con estructuras jerárquicas, mejorando la adaptabilidad y la capacidad de resolución de problemas en tareas de ciencia de datos.  • Mejoramos la competencia y la eficiencia de la codificación en los LLM mediante la introducción de la integración automatizada de herramientas para la utilización y generación de herramientas.  • Mejoramos el razonamiento integrando la verificación y la experiencia, mejorando así la precisión y la eficiencia de la resolución de problemas.  • Nuestros experimentos demuestran que nuestro intérprete de datos supera los puntos de referencia existentes en tareas de aprendizaje automático, problemas matemáticos y tareas abiertas, estableciendo así un nuevo estándar de rendimiento.  Este artículo está   bajo la licencia CC BY 4.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Huge Data Tech

Este audio es producido en el idioma original de la historia!

Demasiado Largo; Para Leer

Esta nueva herramienta de inteligencia artificial afirma resolver problemas de datos mejor que cualquier otra cosa: esta es la razón por la que es importante

Esta nueva herramienta de inteligencia artificial afirma resolver problemas de datos mejor que cualquier otra cosa: esta es la razón por la que es importante

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps