Författare:
(1) Sirui Hong, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(2) Yizhang Lin, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(3) Bang Liu, Universite de Montreal & Mila och dessa författare är listade i alfabetisk ordning;
(4) Bangbang Liu, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(5) Binhao Wu, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(6) Danyang Li, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(7) Jiaqi Chen, Fudan University och dessa författare bidrog lika mycket till detta arbete;
(8) Jiayi Zhang, Renmin University of China och dessa författare bidrog lika mycket till detta arbete;
(9) Jinlin Wang, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(10) Li Zhang, Fudan University och dessa författare bidrog lika mycket till detta arbete;
(11) Lingyao Zhang, dessa författare bidrog lika mycket till detta arbete;
(12) Min Yang, 5Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences och dessa författare bidrog lika mycket till detta arbete;
(13) Mingchen Zhuge, AI Initiative, King Abdullah University of Science and Technology och dessa författare bidrog lika mycket till detta arbete;
(14) Taicheng Guo, University of Notre Dame och dessa författare bidrog lika mycket till detta arbete;
(15) Tuo Zhou, University of Hong Kong och dessa författare bidrog lika mycket till detta arbete;
(16) Wei Tao, Fudan University och dessa författare bidrog lika mycket till detta arbete;
(17) Wenyi Wang, AI Initiative, King Abdullah University of Science and Technology och dessa författare bidrog lika mycket till detta arbete;
(18) Xiangru Tang, Yale University och dessa författare bidrog lika mycket till detta arbete;
(19) Xiangtao Lu, DeepWisdom och dessa författare bidrog lika mycket till detta arbete;
(20) Xiawu Zheng, Xiamen University och dessa författare bidrog lika mycket till detta arbete;
(21) Xinbing Liang, DeepWisdom, East China Normal University och dessa författare bidrog lika mycket till detta arbete;
(22) Yaying Fei, Beijings tekniska universitet och dessa författare bidrog lika mycket till detta arbete;
(23) Yuheng Cheng, The Chinese University of Hong Kong, Shenzhen och dessa författare bidrog lika mycket till detta arbete;
(24) Zongze Xu, DeepWisdom, Hohai University och dessa författare bidrog lika mycket till detta arbete;
(25) Chenglin Wu, DeepWisdom och en motsvarande författare.
Redaktörens anmärkning: Detta är del 1 av 5 av en forskningsstudie som beskriver utvecklingen av Data Interpreter, en lösning för olika datavetenskap och verkliga uppgifter. Läs resten nedan.
3 Metodik och 3.1 Dynamisk planering med hierarkisk struktur
A. Ytterligare resultat
B. Implementeringsresultat
C. Uppgifter om datamängder
Large Language Model (LLM)-baserade agenter har visat anmärkningsvärd effektivitet. Deras prestanda kan dock äventyras i datavetenskapliga scenarier som kräver datajustering i realtid, expertis inom optimering på grund av komplexa beroenden mellan olika uppgifter och förmågan att identifiera logiska fel för exakta resonemang. I den här studien introducerar vi Data Interpreter, en lösning utformad för att lösa med kod som betonar tre centrala tekniker för att utöka problemlösning inom datavetenskap: 1) dynamisk planering med hierarkiska grafstrukturer för dataanpassning i realtid; 2) verktygsintegration dynamiskt för att förbättra kodfärdigheten under exekvering, vilket berikar erforderlig expertis; 3) logisk inkonsekvensidentifiering i feedback och effektivitetsförbättring genom upplevelseregistrering. Vi utvärderar datatolken på olika datavetenskapliga och verkliga uppgifter. Jämfört med baslinjer med öppen källkod visade den överlägsen prestanda, uppvisade betydande förbättringar i maskininlärningsuppgifter, ökande från 0,86 till 0,95. Dessutom visade den en 26% ökning av MATH-datauppsättningen och en anmärkningsvärd 112% förbättring av öppna uppgifter. Lösningen kommer att släppas på https://github.com/geekan/MetaGPT.
Large Language Models (LLM) har gjort det möjligt för agenter att utmärka sig i ett brett spektrum av tillämpningar, vilket visar deras anpassningsförmåga och effektivitet (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b). Dessa LLM-drivna agenter har avsevärt påverkat områden som mjukvaruteknik (Hong et al., 2023), navigering i komplexa scenarier med öppen värld (Wang et al., 2023; Chen et al., 2024a), underlättat samarbetsstrukturer för flera agenter för multimodala uppgifter (Zhuge et al., 2023), förbättra lyhördheten hos virtuella assistenter (Lu et al., 2023), optimera gruppintelligens (Zhuge et al., 2024) och bidra till vetenskaplig forskning (Tang et al., 2024).
Nyligen genomförda studier fokuserade på att förbättra problemlösningsförmågan hos dessa agenter genom att förbättra deras resonemangsprocess, med sikte på ökad sofistikering och effektivitet (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al. ., 2024; Wei et al., 2022). Datacentrerade vetenskapliga problem, inklusive maskininlärning, dataanalys och matematisk problemlösning, presenterar dock unika utmaningar som återstår att ta itu med. Maskininlärningsprocessen involverar komplexa, långa uppgiftshanteringssteg, kännetecknade av intrikata beroenden mellan flera uppgifter. Detta kräver expertingripande för processoptimering och dynamisk justering i händelse av fel eller datauppdateringar. Det är ofta en utmaning för LLM:er att tillhandahålla den korrekta lösningen i ett enda försök. Dessutom kräver dessa problem exakta resonemang och noggrann dataverifiering (RomeraParedes et al., 2023), vilket innebär ytterligare utmaningar för det LLM-baserade agentramverket.
Dessutom tar befintliga verk som (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) upp datacentriska problem genom kodbaserade problemlösningsmetoder, känd som tolkparadigmet, som kombinerar statisk kravupplösning med kodexekvering. Men flera viktiga utmaningar uppstår när man använder dessa ramverk i praktiska datavetenskapliga uppgifter: 1) Databeroendeintensitet: Den komplexitet som är inneboende i datavetenskap uppstår från det intrikata samspelet mellan olika steg, som är föremål för förändringar i realtid (Liu et al. , 2021). För korrekta resultat är datarensning och omfattande funktionsteknik en förutsättning innan någon maskininlärningsmodell utvecklas. Därför är det viktigt att övervaka dataförändringar och dynamiskt anpassa sig till de transformerade data och variabler. Modelleringsprocessen för maskininlärning, som omfattar funktionsval, modellträning och utvärdering, involverar ett brett spektrum av bearbetningsoperatörer och sökutrymmen (Zheng et al., 2021). Utmaningen ligger i att generera och lösa hela processkoden samtidigt. 2) Förfinad domänkunskap: Dataforskarnas specialiserade kunskap och kodningsmetoder är avgörande för att hantera datarelaterade utmaningar. Vanligtvis inbäddad i proprietär kod och data, förblir denna kunskap ofta otillgänglig för nuvarande LLM:er. Till exempel kan generering av kod för datatransformation inom specifika domäner som energi eller geologi utgöra en utmaning för LLM:er utan den erforderliga domänexpertisen. Befintliga metoder beror huvudsakligen på LLM, ett beroende som kan effektivisera processen men potentiellt äventyra prestandan. 3) Rigorösa logikkrav: För närvarande har tolkar som (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) funktioner för kodexekvering och felfångst för att förbättra problemlösningsprestanda. Men de försummar ofta felfri exekvering och anser felaktigt att det är korrekt. Även om grundläggande programmeringsuppgifter kan strömlinjeformas och är beroende av omedelbar återkoppling när kraven definieras, utgör datavetenskapliga problem ofta tvetydiga, oregelbundna och inte väldefinierade krav, vilket gör det svårt för LLM:er att förstå. Följaktligen kan LLM-genererade kodlösningar för uppgiftslösning innehålla oklarheter som kräver rigorös validering av logisk sundhet, som sträcker sig längre än bara exekveringsfeedback.
För att ta itu med de ovannämnda utmaningarna introducerar vi en LLM-baserad agent, kallad Data Interpreter, designad specifikt för området datavetenskap. Denna agent följer en plan-kod-verifiera strategi för att uppfylla mänskliga krav genom att bryta ner uppgifter, exekvera kod och verifiera feedback. Specifikt föreslår vi 1) Dynamisk planering med hierarkisk struktur: Vår datatolk använder hierarkiska grafstrukturer för att mer effektivt förstå datavetenskapens inneboende komplexitet. En dynamisk planeringsmetod förser den med anpassningsförmågan till uppgiftsvariationer, vilket visar sig vara särskilt effektivt för att övervaka dataförändringar och hantera komplicerade variabelberoenden som är inneboende i datavetenskapliga problem. 2) Verktygsanvändning och generering: Vi förbättrar kodningsförmågan genom att integrera olika mänskligt författade kodavsnitt och skapa anpassade verktyg för specifika uppgifter utöver bara API-fokuserade funktioner. Denna process involverar automatisk kombination av olika verktyg med egengenererad kod. Den använder exekvering på uppgiftsnivå för att självständigt bygga och utöka sitt verktygsbibliotek, förenkla verktygsanvändning och utföra kodomstrukturering vid behov. 3) Förbättra resonemang med logisk buggmedveten: Detta är baserat på konfidenspoängen som härrör från exekveringsresultat och testdrivna valideringar, som är avgörande för ett undantagsfritt scenario. Den upptäcker inkonsekvenser mellan kodlösningen och exekvering av testkod och jämför flera försök för att minska logiska fel. Under hela exekverings- och resonemangsprocessen registreras upplevelser på uppgiftsnivå, i första hand bestående av metadata och runtime-bana, som inkluderar både framgångar och misslyckanden.
Som visas i figur 1 överträffar vår datatolk avsevärt befintliga ramverk med öppen källkod. Jämfört med dessa baslinjer uppvisar datatolken överlägsen prestanda, med 10,3 % (från 0,86 till 0,95) förbättringar i maskininlärningsuppgifter och 26 % förbättring av MATH-datauppsättningen, vilket visar robusta problemlösningsförmåga. I öppna uppgifter har dess prestanda mer än fördubblats, vilket markerar en ökning med 112 %, vilket visar på dess effektivitet när det gäller att hantera ett brett spektrum av utmaningar.
Vi sammanfattar våra bidrag så här:
• Vi föreslår ett dynamiskt planeringsramverk med hierarkiska strukturer, vilket förbättrar anpassningsförmåga och problemlösningsförmåga i datavetenskapliga uppgifter.
• Vi förbättrar färdigheten och effektiviteten av kodning i LLM:er genom att införa automatiserad verktygsintegration för verktygsanvändning och generering.
• Vi förbättrar resonemang genom att integrera verifiering och erfarenhet, och därigenom förbättra noggrannheten och effektiviteten i problemlösning.
• Våra experiment visar att vår datatolk överträffar befintliga riktmärken i maskininlärningsuppgifter, matematiska problem och öppna uppgifter, vilket sätter en ny standard för prestanda.
Detta dokument är tillgängligt på arxiv under CC BY 4.0 DEED-licens.