AutoDev: Automated AI-Driven Devlopman

Autè yo: Michele Tufano (Microsoft, Redmond, Etazini) Anisha Agarwal (Microsoft, Redmond, peyi Etazini) Jinu Jang (Microsoft, Redmond, peyi Etazini) Roshanak Zilouchian (Microsoft, Redmond, USA) Neel Sundaresan (Microsoft, Redmond, peyi Etazini) Autè yo: Michele Tufano (Microsoft, Redmond, Etazini) Anisha Agarwal (Microsoft, Redmond, peyi Etazini) Jinu Jang (Microsoft, Redmond, peyi Etazini) Roshanak Zilouchian (Microsoft, Redmond, peyi Etazini) Neel Sundaresan (Microsoft, Redmond, peyi Etazini) Abstraksyon Peyizaj la nan devlopman lojisyèl te swiv yon chanjman paradigm ak aparans an nan asistans AI-powered, egzanp pa GitHub Copilot. Sepandan, solisyon ki deja egziste pa sèvi ak tout kapasite potansyèl ki disponib nan yon IDE tankou konstriksyon, tès, egzekite kòd, git operasyon, elatriye Se poutèt sa, yo limite pa kapasite limit yo, sitou konsantre sou sijesyon koutim ak manipilasyon dosye nan yon interface ki baze sou chat. Pou kouvri kouch sa a, nou prezante AutoDev, yon sistèm devlopman lojisyèl konplètman otomatik ki baze sou AI, ki fèt pou Planifikasyon ak egzekisyon nan travay enjenyè lojisyèl konplike. AutoDev pèmèt itilizatè yo defini objektif enjenyè lojisyèl konplèks, ki yo bay AutoDev a Ajan AI otonòm pou reyalize. Sa yo Ajan AI ka fè operasyon divès kalite sou yon baz kòd, ki gen ladan editasyon dosye, retrè, pwosesis bati, egzekisyon, tès, ak operasyon git. Yo tou gen aksè nan dosye, pwodiksyon kompile, bati ak tès log, zouti analiz estatik, ak plis ankò. Sa a pèmèt Ajan AI fè travay nan yon fason konplètman otomatik ak yon konpreyansyon konplè nan enfòmasyon kontekstif ki nesesè. Anplis de sa, AutoDev etabli yon anviwònman devlopman an sekirite pa limite tout Autonomye Nan evalyasyon nou an, nou te teste AutoDev sou dataset la HumanEval, jwenn rezilta pwomèt ak 91.5% ak 87.8% nan Pass@1 pou jenerasyon kòd ak tès jenerasyon respektivman, demontre efikasite li nan otomatize travay enjenyè lojisyèl pandan y ap kenbe yon anviwònman devlopman an sekirite ak kontwole pa itilizatè. 1 Entwodiksyon Kòm devlopè ap adopte asistan AI tankou ChatGPT pou travay devlopè yo, ogmantasyon pwodiksyon vin evidan. Asistan kodaj AI yo te avanse plis nan anviwònman devlopman entegre (IDE) tankou GitHub Copilot [ ], kote yo ofri pwopozisyon kòd tou de nan interfaces chat ak dirèkteman nan dosye. 2 Sepandan, sa yo asistans kodaj AI, malgre entegre yo nan IDE, ekspoze fonksyonalite limite ak manke konsyans kontextual[ nan ]. Yo souvan pa sèvi ak tout kapasite IDE tankou invoking linters, kompilatè, oswa executing command-line operasyon, ak kòm yon rezilta, devlopè toujou bezwen manyen valide syntax ak asire korektè a nan kòd AI-genere, kouri baz la kòd, ak inspekte log erè. 3 6 AutoDev kouvri kouch sa a pa ofri ajan AI otonòm kapasite pou egzekite aksyon tankou edite dosye, re-trieval, bati, tès, ak CLI lòd dirèkteman nan depo a pou reyalize objektif definye pa itilizatè a, ak sa ki pèmèt konplèks travay konplike otonòmman. AutoDev ofri karakteristik kle sa yo: (i) kapasite nan kontwole ak jesyon konvèsasyon itilizatè ak ajan AI atravè yon , (ii) yon bibliyotèk nan Customized pou reyalize yon varyete de kòd ak objektif ki gen rapò ak SE, (iii) kapasite yo planifye divès kalite ajan AI yo travay kolaborativman nan direksyon pou yon objektif komen atravè yon , ak (iv) kapasite yo kouri kòd ak kouri tès atravè yon . Manadjè konvèsasyon Zouti Planifikatè Anviwònman evalyasyon Figi illustre yon egzanp segondè nan AutoDev travay flux la. itilizatè a defini yon objektif (pou egzanp, tès yon metòd espesifik). Agents la AI ekri tès nan yon dosye nouvo ak inisyalize lòd egzèsis tès la, tout nan yon anviwònman evalyasyon an sekirite. pwodiksyon an nan egzèsis la tès la, ki gen ladan anrejistrasyon, Lè sa a, se entegre nan konvèsyon an. Agents la AI analize pwodiksyon sa a, trigger yon lòd retrè, entegre enfòmasyon yo retire pa edite dosye a, ak re-invoque egzèsis la tès. Finalman, anviwònman an bay feedback sou siksè a nan egzèsis la tès ak konplèksyon nan objektif la nan itilizatè 1 Tout pwosesis la se oryante pa AutoDev otonòmman, pa mande pou pa gen okenn entwodiksyon devlopè soti nan mete objektif la ini-tial. An kontrè, ak asistans kodaj AI ki deja egziste entegre nan IDE, devlopè yo ta dwe manyen egzekite tès (pou egzanp, kouri pytest), bay log erè nan interface a chat AI, posibman identifye plis enfòmasyon kontekstif yo dwe entegre, ak repete aksyon validasyon pou asire siksè tès la apre AI kreye kòd revize. AutoDev inspire soti nan travay anvan yo nan jaden an nan ajan AI otonòm. Pou egzanp, AutoGen [ ] se yon anviwònman ki oryante kouri modèl lang ak fasilite konvèsasyon ant miltip ajan. AutoDev elaji AutoGen pa ale soti nan jesyon konvèsasyon ak pèmèt ajan yo dirèkteman interaksyon ak depo a kòd la, egzekite lòd ak aksyon otònman. Anplis de sa, AutoDev bati sou Auto-GPT [ ], yon open-source ajan AI pou ekzekisyon travay otonòm pa ofri kòd ak kapasite IDE espesifik yo pèmèt ekzekisyon nan travay konplèks enjenyè lojisyèl. 22 8 Nan evalyasyon nou an, nou evalye kapasite yo nan AutoDev us-ing dataset la HumanEval[ ], orijinèlman fèt pou kreye kòd soti nan deskripsyon lang natirèl (docstrings). Anplis de sa, nou ogmante evalyasyon an yo gen ladan travay la kreye ka tès, montre versatilite a nan AutoDev nan ranplase divès objektif enjenyè lojisyèl. Rezilta yo demontre pèfòmans pwomèt, ak AutoDev reyalize pousantaj etonan nan 91.5% ak 87.8% pou Pass@1 pou kreye kòd ak kreye tès respektivman. Rezilta sa yo enspire efikasite a nan AutoDev nan otomatize travay enjenyè lojisyèl pandan y ap kenbe yon anviwònman devlopman an sekirite ak kontwole pa itilizatè. 5 2 AutoDev konsepsyon konsepsyon an ki montre nan Fig. Yon fwa konfigirasyon yo inisyal yo te konplè, AutoDev òganize kapasite li yo nan kat gwoup: yon Manadjè konvèsasyon ki swiv ak jere konvèsasyon itilizatè a ak ajan; yon Bibliyotèk zouti kote yon varyete de kòd ak zouti ki gen rapò ak IDE yo disponib pou ajan yo, yon Agents Planner ki planifye agans divès kalite, ak yon anviwònman evalyasyon ki pèmèt operasyon egzekisyon. Nan anba a nou eksplike chak kapasite nan detaye. 2 2.1 Règ, aksyon ak konfigirasyon objektif Yon itilizatè inisyalize pwosesis la pa konfigirasyon règ ak aksyon nan dosye yo yaml. Fèy sa yo definye lòd ki disponib (aksyon) ke ajan AI ka fè. itilizatè yo ka sèvi ak anviwònman default oswa pèmèt fin-gratis pa pèmèt / desann lòd espesifik, Customize AutoDev pou bezwen espesifik yo. Sa a etap konfigirasyon pèmèt kontwòl presizyon sou kapasite a nan ajan AI la. Nan etap sa a, itilizatè a ka defini nimewo a ak konpòtman nan ajan AI a, bay responsablite espesifik, pèmèt, ak aksyon ki disponib. Pou egzanp, itilizatè a ka defini yon "Developer" ajan ak yon "Reviewer" ajan, ki kolaboratif travay sou yon objektif. Kòm yon egzanp, itilizatè a ka mande yo kreye ka tès ak asire w ke yo se sentaksyonèlman korektè, pase, ak ki pa gen bugs (ki gen ladan edite dosye, kouri test suite, kouri tès sentaksyon ak zouti rezoud bugs). 2.2 Manadjè konvèsasyon Manadjè konvèsasyon, ki responsab pou inisyalize istwa a konvèsasyon an, jwe yon wòl enpòtan nan swen jesyon segondè-nivo nan konvèsasyon an kounye a. Li sove travay la deside lè yo sispann pwosesis la ak asire kominikasyon san danje ant itilizatè a, ajan AI, ak sistèm an jeneral. Li kenbe yon objè konvèsasyon ki gen ladan mesaj yo nan ajan yo AI ak rezilta a nan aksyon yo nan anviwònman an evalyasyon. Parser entèprete repons yo ki te kreye pa ajan yo, ekstrè lòd ak argòm nan yon fòma pre-defini. Li asire ke enstriksyon yo se fòme kòrèkteman, valide nimewo a ak akòzite a nan argòm yo (pou egzanp, yon lòd edisyon dosye mande pou argòm la pwa dosye a). Nan ka nan erè parse, mesaj erè yo enjecte nan konvèsasyon an, anpeche aksyon plis sou depo a. Komand yo ki te parse avèk siksè yo anseye plis, pa egzekite otorizasyon espesifik ajan ak fè tcheke semantik adisyonèl. Li asire ke aksyon yo ki sijere konplè ak otorizasyon yo ki nan grenn nan itilizatè a. Si komand la pase revizyon, manad 2.2.1 Parser. Modil la Organizer pwodiksyon pwosesis pwodiksyon an resevwa soti nan anviwònman an evalyasyon. Li chwazi enfòmasyon enpòtan, tankou estati oswa erè, opsyonèlman rezime kontni ki enpòtan, ak ajoute yon mesaj byen estrikti nan istwa konvèsasyon an. Sa a asire ke itilizatè a gen yon dosye klè ak òganize nan aksyon yo ak rezilta yo nan Au-toDev. 2.2.2 Output Organizer. Konvèsasyon Manadjè inisyalize konvèsasyon an ak anviwònman yo. Agent Planifikatè òganize ajan AI yo kolabore sou travay la ak voye lòd yo nan Manadjè konvèsasyon an. Manadjè konvèsasyon analize lòd sa yo ak rele Bibliyotèk zouti, ki ofri aksyon divès kalite ki ka fè sou depo a. Aksyon yo nan ajan yo te kouri nan yon anviwònman Docker an sekirite, ak pwodiksyon an retire nan Manadjè konvèsasyon, ki entegre li nan konvèsasyon an kouri. Sa a pwosesis iteratif kontinye jiska travay la se avèk siksè konplete. Figure 2. Manadjè konvèsasyon deside lè yo fini konvèsasyon an. Sa a ka rive lè yon ajan sinyal konplè nan travay la (stop komando), konvèsasyon an rive nan yon kantite maksimòm iterasyon / token definye pa itilizatè a, oswa pwoblèm detekte oswa nan pwosesis la oswa nan anviwònman an evalyasyon. konsepsyon konplè nan AutoDev asire yon apwòch sistèm ak kontwole nan devlopman ki baze sou AI. 2.2.3 Conversation Conclusion. 2.3 Agents Planifye Agents, konfigirasyon ak pèsonèl pèsonèl ak yon seri de commands ki disponib, opere kolaborativman fè travay divès kalite. Planifikatè a sèvi ak algorithms kolaborasyon divès kalite, tankou Round Robin, Token-Based, oswa Priority-Based, yo detèmine òganizasyon an ak fason yo kontribye nan konvèsasyon an. Espesifikman, algorithms planifikatè gen ladan, men pa limit nan: (i) kolaborasyon Round Robin, ki rele chak ajan nan yon seri, ki pèmèt chak moun yo fè yon nimewo predetermined nan operasyon; (ii) kolaborasyon token-base, ki pèmèt yon ajan antreprann operasyon miltip jiska li emèt yon token ki signifye konplèksyon nan travay yo Agents, ki konsiste de Big Language Models (LLMs) tankou OpenAI GPT-4 ak Small Language Models (SLMs) optimisé pou jenerasyon kòd, kominikasyon atravè tèks lang natirèl. Agents sa yo resevwa objektif ak istwa konvèsasyon soti nan Agents Scheduler, reponn ak aksyon yo espesifye pa Règ ak Aksyon konfigirasyon. Chak agent, ak konfigirasyon inik li yo, kontribye nan pwogrè an jeneral nan reyalize objektif la nan itilizatè a. 2.3.1 Agents. 2.4 Bibliyotèk zouti Bibliyotèk zouti nan AutoDev bay yon seri de lòd ki pèmèt ajan yo fè operasyon divès kalite sou depo a. Komand sa yo fèt yo enkapsule aksyon konplèks, zouti, ak utilite ki anba a yon estrikti komando senp ak entelijan. Pou egzanp, enkyetid ki gen rapò ak konstriksyon ak egzèsis tès yo abstrai soti nan lòd senp tankou konstriksyon ak tès . • nan : Kategori sa a gen ladan lòd pou edite dosye, ki gen ladan kòd, konfigirasyon, ak dokiman. Utilite yo nan kategori sa a, tankou ekri, edit, mete, ak retire, ofri nivo divès kalite granularity. Agents ka fè aksyon ki soti nan ekri dosye tout antye modifye liy espesifik nan yon dosye. Pou egzanp, komand la ekri , pèmèt ajan yo rewite yon seri liy ak nouvo kontni. File Editing - Retrieval: Nan kategori sa a, utilite yo retrieval varye soti nan zouti CLI baz tankou grep, jwenn, ak ls nan teknik ki pi sofistike ki baze sou embedding. Teknoloji sa yo pèmèt Agents pou rechèch nan snippets kòd menm jan an, amelyore kapasite yo pou retrete enfòmasyon ki enpòtan soti nan baz la kòd. Pou egzanp, komand la retrete pèmèt Agent la fè retrete ki baze sou embedding nan snippets menm jan ak kontni bay. Build & Execution: Komand yo nan kategori sa a pèmèt ajan yo kompile, bati, ak kouri baz la kòd nan efò ak commands senp ak entelijan. Komand yo nan lage-nivo build se abstraksyon, ranfòse pwosesis la nan enfrastrikti an anviwònman evalyasyon. Examples nan komand nan kategori sa a gen ladan: bati, kouri . Tès & Validasyon: Komande sa yo pèmèt ajan yo tès baz la kòd pa kouri yon sèl ka tès, yon dosye tès espesifik, oswa tout seri tès la. Ajan yo ka fè aksyon sa yo san yo pa depann sou lòd ki ba-nivo espesifik pou yon ankadreman tès espesifik. kategori sa a gen ladan tou zouti validasyon tankou linters ak sèvis piblik detekte bugs. Examples of commands in this category include: syntax which checks the syntax correctness, and test which runs the entire test suite. Git: Peye-grann pèmèt pou operasyon git ka konfigirasyon pa itilizatè a. Sa a gen ladan operasyon tankou commits, pouse, ak fusion. Pou egzanp, ajan ka bay pèmèt yo fè sèlman lokal commits oswa, si nesesè, pouse chanjman nan depo orijinal la. Kominikasyon: Agents ka invoke yon seri komando ki fèt yo fasilite kominikasyon ak lòt ajan ak / oswa itilizatè a. Anplis de sa, komando a pale pèmèt voye mesaj lang natirèl (pa entèdi kòm komando pou aksyon depo), komando a mande se itilize pou mande feedback itilizatè a, ak komando a fèmen interrupts pwosesis la, sanble atansyon nan objektif la oswa imobilye a nan ajan yo kontinye. Bibliyotèk Zouti nan AutoDev se konsa bay yon seri versatile ak aksesib zouti pou ajan AI pou interaksyon ak baz la kòd ak kominikasyon efikas nan anviwònman an devlopman kolaboratif. 2.5 Anviwònman evalyasyon Running within a Docker container, the Evaluation Environment allows secure execution of file editing, retrieval, build, execution, and testing commands. It abstracts away the complexity of low-level commands, providing a simplified interface for agents. The Evaluation Environment returns standard output/error to the Output Organizer module. 2.6 mete tout bagay ansanm itilizatè a inisyalize konvèsasyon an pa spesifye objektif la ak anviwònman ki gen rapò. Manadjè konvèsasyon an inisyalize yon objè konvèsasyon, konsolide mesaj soti nan tou de ajan AI ak anviwònman an evalyasyon. Lè sa a, manadjè konvèsasyon an voye konvèsasyon an nan Agents Scheduler, ki responsab pou koordinasyon aksyon yo nan ajan AI. Nan rol yo kòm ajan AI yo, modèl lang (Great oswa Small LMs) sijere lòd atravè interaksyon tèks. Commands Interface gen ladan yon seri divès kalite fonksyonalite, ki gen ladan Editing dosye, Retrieval, Build and Execution, Tester, ak Git operasyon. Sa yo komando yo sijere Lè sa a, parse pa Chakman Manadjè, ki Lè sa a, dirije yo nan anviwònman an evalyasyon pou egzekisyon sou baz la kòd. Ekzekisyon an nan lòd sa yo rive nan limit yo an sekirite nan anviwònman an evalyasyon, enkapsule nan yon kontni Docker. Apre ekzekisyon an, aksyon yo ki rezilta a se senpman entegre nan istwa a konvèsasyon an, kontribye nan iterasyon ki pita. Sa a pwosesis iteratif rete jiska travay la konsidere konplè pa ajan yo, intervansyon itilizatè rive, oswa limite a maksimòm iterasyon rive. konsepsyon an nan AutoDev asire yon òkès sistematik ak an sekirite nan ajan AI pou reyalize travay konplèks enjenyè lojisyèl nan yon fason otonòm ak kontwole pa itilizatè a. 3 konsepsyon empirik Nan evalyasyon empirik nou an, nou vle evalye kapasite yo ak efikasite nan AutoDev nan travay enjenyè lojisyèl, egzamine si li ka amelyore pèfòmans a nan yon modèl AI plis pase inferans senp. Anplis de sa, nou enterese nan evalye pri a nan AutoDev nan kantite etap, apèl inferans, ak token. Nou definye twa kesyon rechèch eksperyans: Rechèch Questions RQ1: Ki jan efikas se AutoDev nan travay yo kreye kòd? 2. RQ2: Ki jan efikas se AutoDev nan test jenerasyon travay? RQ3: Ki jan efikas se AutoDev nan ranpli travay? RQ1: Ki jan efikas se AutoDev nan travay yo kreye kòd? Pou rezoud RQ1, nou evalye pèfòmans nan AutoDev nan yon travay jenerasyon kòd lè l sèvi avèk dataset la de solisyon pwoblèm nan HumanEval nan Python. Sa a dataset gen ladan 164 pwoblèm pwogramasyon manyen, chak ki gen yon signature fonksyon, doktrin, kò, ak yon mwayèn de 7.7 tès inite. Nan evalyasyon nou an, AutoDev se bay ak yon dosye pati ki gen signature fonksyon ak doktrin, ak objektif la nan aplike metòd la. Nou evalye efikasite a nan AutoDev lè l sèvi avèk metrik la Pass@k, kote k reprezante kantite eseye yo te fè. Yon pwoblèm rezoud avèk siksè se definye kòm youn kote Au-toDev kreye kòd la nan kò a nan metòd la, satisfè tout tès yo ekri pa moun. Yon eseye korespondan ak yon konvèsasyon AutoDev tout antye, ki enplike plizyè apèl inferans ak etap. Sa a kontraste ak lòt apwòch, tankou dirèkteman invoke GPT-4, ki tipikman enplike yon sèl apèl inferans. Detay sou apèl ak etap inferans plizyè yo eksplore plis nan RQ3. Pou evalyasyon sa a, nou mete k = 1, se konsa kalkil Pass@1, konsidere sèlman siksè a te rive nan premye eseye RQ2: Ki jan efikas se AutoDev nan test jenerasyon travay? Pou kesyon sa a rechèch, nou modifye dataset la HumanEval yo evalye kapasite yo nan AutoDev nan jenerasyon tès. Nou konsidere solisyon an ki te ekri pa moun ak retire tès yo ki te bay pa moun ki te ekri. AutoDev se mande yo kreye ka tès pou metòd la fokal ak evalye ki baze sou siksè tès la, invokasyon nan metòd la fokal, ak kouvri tès. Nou rapòte Pass@1, konsidere tès yo siksè si yo pase ak rele metòd la fokal. Anplis de sa, nou konpare kouvri a nan tès yo nan AutoDev ak moun ki te ekri pa moun. RQ3: Ki jan efikas se AutoDev nan ranpli travay? Nan kesyon sa a rechèch, nou rechèch efikasite a nan AutoDev nan konplete travay SE. Nou analize kantite etap oswa konpòtman apèl ki nesesè, distribisyon an nan lòd itilize (pou egzanp, ekri, tès), ak kantite total nan token itilize nan konvèsasyon an. AutoDev opsyon Pou evalyasyon sa a, AutoDev kenbe anviwònman konsistan ak yon sèl ajan ki baze sou modèl la GPT-4 (gpt-4-1106-preview). Aksyon ki pèmèt gen ladan edite dosye, retrè, ak tès. Se sèlman komando a kominikasyon ki disponib se komando a stop, ki indique konplèksite nan travay la. Anplis komando yo, tankou mande, se desann, mande AutoDev yo opere otonòmman san yo pa gen repons moun oswa entèvyou alantou mete objektif la orijinal la. 4 Rezilta empirik RQ1: Ki jan efikas se AutoDev nan yon travay jenerasyon kòd? Tables nan montre rezilta yo pou RQ1, konpare AutoDev ak de apwòch altènatif ak baz la nan zero-shot. Tab la gen enfòmasyon sou modèl la ki pèmèt chak apwòch, bezwen pou fòmasyon adisyonèl, ak metrik la Pass@1. 1 Nou te konpare AutoDev ak Langage Agent Tree Search (LATS) ak Reflexion, de prensip ki mennen sou Hu-manEval tablo a nan mwa mas 2024 [ ]. Rezilta yo pou zero-shot baseline (GPT-4) yo te pran soti nan OpenAI GPT-4 rapò teknik [ ], pandan ke yo pou LATS ak Refleksyon soti nan HuamnEval lidèb [ Pwodwi 1 11 1 Language Agent Tree Search (LATS) se yon ] se yon anviwònman versatile ki itilize Large Language Models (LLMs) pou planifikasyon, aksyon, ak rezonans. Enspire pa Monte Carlo arbre rechèch, LATS angaje LLMs kòm ajan, fonksyon valè, ak optimizers, repons kapasite yo pou amelyore desizyon. 23 Refleksyon [ ] prezante yon anviwònman inik pou ranfòse ajan lang atravè repons lingvistik san yo pa ajou pwa. Agents nan Reflexion refleksyon verbalman sou sinyal repons travay, kenbe tèks refleksyon yo nan yon tampon memwa episodik pou amelyore desizyon. 17 Tables nan Indike ke AutoDev reyalize yon pousantaj Pass@1 nan 91.5%, ki asire pozisyon an dezyèm pi bon sou lidèb la nan HumanEval. Anplis de sa, rezilta sa a te jwenn san yo pa done fòmasyon adisyonèl, distingue AutoDev soti nan LATS, ki rive 94.4%. Anplis de sa, framework la AutoDev amelyore pèfòmans nan GPT-4 soti nan 67% nan 91.5%, marye yon 30% amelyorasyon relatif. 1 Rezilta sa yo enspire kapasite nan AutoDev a amelyore pèfòmans an nan LLMs nan konplete travay enjenyè lojisyèl. Sepandan, li vo note ke efikasite a nan AutoDev ka gen ladan plizyè apèl inference ak etap, kòm nou delivre nan plis detay nan RQ3. RQ2: Ki jan efikas se AutoDev nan test jenerasyon travay? Tables nan prezante rezilta yo pou RQ2, konpare AutoDev ak zero-shot GPT-4 (baseline) ak tès ekri nan moun nan test jenerasyon travay. Pandan ke OpenAI pa evalye GPT-4 sou test jenerasyon travay, nou te jwenn rezilta zero-shot GPT-4 pa invoye inferans la ak enstriksyon mande sou menm modèl la GPT-4 itilize pou AutoDev. 2 AutoDev reyalize yon pousantaj Pass@1 nan 87,8% sou dataset la HumanEval modifye pou travay la jenerasyon tès, ki montre yon amelyorasyon relatif 17% sou baz la ki itilize menm modèl la GPT-4. Tès yo kòrèk ki te kreye pa AutoDev (ki enkli nan Pass@1) jere yon kouvèti solide 99,3%, konpare ak kouvèti a nan tès yo ekri pa moun nan 99,4%. Anplis de sa, Tablo a rapòte kouvèti an jeneral nan tout dataset la nan ka tès, konsidere teste erè oswa manke kòm manke kouvèti. Nan relasyon sa a, AutoDev reyalize yon kouvèti 88.8% sou dataset la konplè nan metòd fòs. 2 Rezilta sa yo konfime konpetans la nan AutoDev nan rezoud divès kalite travay enjenyè lojisyèl. RQ3: Ki jan efikas se AutoDev nan ranpli travay? Figi illustre kantite komando ki itilize pa AutoDev pou tou de Code Generation ak Test Generation travay, konsidere kantite komando ki itilize pou evalye chak pwoblèm HumanEval nan RQ1 ak RQ2. 3 Pou Code Generation, AutoDev te kouri yon mwayen nan 5.5 lòd, ki konsiste de 1.8 ekri operasyon, 1.7 tès operasyon, 0.92 ap kouri operasyon (indike konplèksite nan travay la), 0.25 komando incorrect, ansanm ak minimòm retrieval (grep, jwenn, chat), operasyon santeks tcheke, ak talk komando kominikasyon. Nan ka a nan Test Generation, nimewo mwayèn a nan lòd yo aliye ak travay la Code Generation. Sepandan, Test Generation gen ladan plis operasyon retrè ak yon ogmantasyon ogmantasyon nan operasyon incorrect, ki rezilta nan yon total mwayèn de 6,5 lòd pou chak kouri. Nou klassifye yon lòd kòm incorrect si li referans yon lòd ki pa disponib oswa pa t 'parse (pou egzanp, fòma incorrect oswa kantite paramèt). Komandam incorrect ki pi popilè ki gen rapò ak ajan AI konbine lang natirèl ak kòd oswa lòd. Problèm sa yo ka potansyèlman rezoud pa plis fleksib parse oswa amelyore pwopozisyon, tankou diskite pi plis nan seksyon la Diskisyon. Malgre ke AutoDev gen plis apèl inferans konpare ak apwòch ki kreye kòd kandida nan yon sèl apèl, li se esansyèl yo note ke AutoDev tou fè tès ak validasyon operasyon, travay ki anjeneral te fè pa devlopè yo valide kandida yo ki te kreye. Tès ak operasyon sante ki invoke pa AutoDev ta dwe fè pa gen rapò ak devlopè ki resevwa kòd ki te kreye pa AI, tankou Copilot. Anplis de sa, AutoDev souvan kominikasyon konplètman nan travay atravè komando talk, bay entèlijans ak entelijan nan solisyon an. Yon lòt komando kominikasyon enpòtan kontribye nan kontan an jeneral se komando a stop. Sa a reprezante yon relatif bon mache konvèsyon apèl, kreye sèlman yon sèl token. Optimizasyon potansyèl ta ka enkli batch operasyon sa yo ak lòt komando oswa inferans. Mwayen longè a nan konvèsasyon AutoDev yo rezoud chak pwoblèm HumanEval nan RQ1 ak RQ2 se 1656 ak 1863 token respektivman. Sa a enkli objektif la nan itilizatè a, mesaj ki soti nan ajan AI, ak repons ki soti nan anviwònman an evalyasyon. Nan konparezon, zero-shot GPT-4 (baseline) sèvi ak 200 token (estimat) pou jenerasyon kòd ak 373 token pou jenerasyon tès, nan mwayen, pou chak travay. Pandan ke AutoDev sèvi ak plis token, yon kantite lajan enpòtan yo te pase pou tès, validasyon, ak eksplike kòd la pwòp li yo te kreye, ale pi lwen pase sa ki nan prensipal la ofri. Finalman, AutoDev gen koute ekzekisyon ki gen rapò ak òganize ajan AI, jesyon konvèsasyon, ak ekzekisyon lòd nan yon anviwònman Docker. Anplis de sa, anviwònman an evalyasyon ki baze sou Docker responsab pou koute ekzekisyon an gwo, ekspoze overhead ki pi wo konpare ak dirèk CLI lòd nan anviwònman itilizatè a. Sepandan, nou fèt AutoDev ak sekirite kòm yon priorite tèt, asire egzekisyon an sekirite ak validasyon nan kòd ki te kreye pa AI. 5 Diskisyon 5.1 AutoDev nan aksyon Figures (Pare a I) ak (Parts II) bay yon gade nan Au-toDev nan aksyon pandan yon test jenerasyon travay, ak kèk interaksyon rezime oswa omite pou briyanite. Iniye soti nan Figi , nou mete objektif la pou AutoDev yo kreye ka tès pi enpòtan apre yon fòma espesifik. Ajan an AutoDev inisyalize komando a ekri-nouvo, bay filepath ak kontni nan dosye tès la. AutoDev egzekite operasyon an, konfime kontni siksè ekri nan ajan la. Lè sa a, Ajan an AutoDev aktivize operasyon la tès, ak AutoDev kouri tès la nan anviwònman an Docker an sekirite li yo, prezante rapò a egzèsis tès la JSON (rezime nan figi a pou bri. 4 5 4 Ajan an AutoDev identifye yon erè nan pwodiksyon an pi enpòtan, rekonèt ke yon koreksyon se nesesè pou aliye tès la ak konpòtman an espere nan fonksyon an. Kontinye nan figi , ajan AutoDev emèt komando a ekri, espesifye filepath ak varyete nimewo liy (5-5) pou re-reskripsyon deklarasyon an assert ki pa nesesè. Apre sa, ajan AutoDev kontinye ak egzèsis la tès, ki kounye a siksè. Rekonèt konplètman nan objektif la, ajan AutoDev fini konvèsasyon an. 5 Nan egzanp sa a, li montre ki jan AutoDev a kapab avanse pwòp tèt li yo kòd yo ak adrès bugs nan pwodiksyon pwòp li yo. Anplis de sa, li demontre ki jan AutoDev fasilite konsèp itilizatè a nan aksyon ajan, pèmèt ajan yo kominikasyon pandan travay la. 5.2 Kolaborasyon milti-agents AutoDev sipòte kolaborasyon milti-agents sou travay, orijine pa Agents Scheduler la. Nan evalyasyon nou an, akòz senplisite relatif nan dataset la HumanEval, nou limite konfigirasyon nou an nan yon sèl GPT-4 ajan pou travay yo. Sepandan, rezilta prensipal yo montre efè pozitif nan kolaborasyon milti-agents sou travay plis konplèks. Eksperyans ak yon devlopè AI ak revizeur AI, chak ak responsablite diferan ak aksyon ki disponib, kolaborasyon sou koreksyon yon bug konplèks te revele interaksyon enteresan. Revizeur AI te kapab pre-emptativman identifye erè devlopè AI anvan aksyon validasyon kòd te egzekite ak bay sijesyon ki enpòtan. Plani pwovens nou an gen rapò ak ekspansyon evalyasyon yo entegre senaryo plis konplèks kote kolaborasyon milti-agents ka ogmante pèfòmans nan AutoDev. 5.3 Manm nan koule a AutoDev pèmèt ajan AI pou kominikasyon pwogrè sou travay yo oswa mande feedback moun lè l sèvi avèk konvèsasyon an ak mande lòd, respektivman. Anekdotikman, komand sa yo te pwouve itil pou devlopè lè l sèvi avèk AutoDev yo konprann entansyon an nan ajan an ak jwenn imaj sou plan la nan ajan an. Ajoute komand la mande te nan yon repons dirèkteman sou yon demann devlopè pandan etid la pilòt nou an, kote yo te vle kapasite a bay feedback lè ajan yo parèt enkyetid sou aksyon yo pwochen. Plani pwovens nou an gen rapò ak entegre pi profond nan moun nan loop la AutoDev, ki pèmèt itilizatè yo interrupt ajan ak bay imedyatman feedback. 5.4 Autodev Entegre Pilote etid nou an gen ladan devlopè lè l sèvi avèk AutoDev kòm yon lòd CLI, ak konvèsasyon an disponib pou observe nan IDE VSCode. Avanse, objektif nou an se entegre AutoDev nan IDEs, kreye yon eksperyans chatbot, epi entegre li nan pipelines CI / CD ak platfòm revizyon PR. Nou konsidere devlopè yo bay travay ak pwoblèm nan AutoDev, revize rezilta nan yon sistèm PR, ak plis rafinerasyon nan pwogrè travay devlopman lojisyèl. 6 travay ki gen rapò Kòmanse travay nou an sou yon kantite literati extensive ki aplike AI nan divès kalite enjenyè lojisyèl. Nan seksyon sa a, nou eksplore devlopman dènye yo ak kontekstualize AutoDev nan sa a rich peyizaj rechèch. 6.1 AI nan enjenyè lojisyèl Entegre AI, espesyalman Large Language Models (LLMs), nan lojisyèl enjenyè a te wè progrès enpòtan. Modèl tankou GPT-3 [ ], InstructionGPT nan [ ], ak GPT-4 [ ] yo te itilize nan Arkitektur la Transformer [ ] yo konprann ak kreye pa sèlman lang natirèl, men tou kòd sous. Granmoun paramèt gwosè nan LLMs, tankou yo nan Gropher [ ] ak Megatron-Turing NLG [ ], ak GPT-4 [ ] pèmèt modèl AI sa yo jwenn pèfòmans enpòtan nan travay divès kalite. 7 14 13 20 15 18 13 Kòm pwosesis devlopman lojisyèl kontinye devlope, entegre teknoloji avanse vin prensipal pou amelyore pwodiktivite devlopè [ ]. Nan mitan pwogrè ki enpòtan yo, itilize nan LLMs nan anviwònman devlopman entegre (IDE) te genyen yon atansyon enpòtan [ nan ]. LLMs, including prominent models such as OpenAI’s GPT-3.5 [ ] ak GPT-4 [ ], osi byen ke modèl sous louvri robust tankou Code Llama [ ], ekspoze potansyèl yo travay kòm asistans pwogramasyon entelijan. 5 4 10 12 13 16 Nan dokiman sa a, nou prezante AutoDev, yon ranje konplè pou travay enjenyè lojisyèl otonòm nan yon anviwònman devlopman an sekirite. AutoDev ale soti nan travay ki deja egziste pa bay yon livrezon zouti versatile, pèmèt ajan AI yo otonòmman fè travay konplike, tankou edisyon kòd, tès, ak entegre. AutoDev se tou LLM-agnostique, ak yon enfrastrikti ki pèmèt yon seri divès kalite modèl AI, ak diferan gwosè paramèt ak aritektur, kolabore sou yon travay bay. 6.2 Evalyasyon nan LLMs nan Software Engineering Evalyasyon LLMs pou travay enjenyè lojisyèl prezante retounen inik. Metrik tradisyonèl ki baze sou lang, tankou BLEU, te konsantre sou rechèch anvan, ak evalyasyon ki te fèt sou datasèt estatik tankou GLUE [ ] ak BigBench [ ]. Sepandan, metrik sa yo souvan manke nan retire aspè enpòtan nan pwogramasyon tankou santeks korektè ak metrik ki baze sou ekzekisyon tankou bati ak tès. 21 19 CodeXGLUE nan [ ] te rezoud limitasyon sa yo pa bay yon platfòm evalyasyon konplè pou LLMs nan lojisyèl enjenyè. Li ofri yon seri done benchmark divès kalite ansanm ak modèl baz tankou CodeBERT ak CodeGPT. 9 Pwofesyonèl [ ] kontribye nan jaden an pa konsantre sou koreksyon fonksyonèl la nan LLMs, prezante yon seri done referans nan pwoblèm pwogramasyon manyen nan Python. Nan devlopman ki sot pase yo, Copilot Evaluation Harness 5 [ ] Baze sou travay anvan yo nan literati, ki apwopriye amelyore kontribisyon yo. Dapre HumanEval, Copilot Evaluation Harness entegre konsèp yo nan egzekisyon kòd, men lajè espèk la nan travay enjenyè lojisyèl (kòd, tès, ak dokimantasyon jenerasyon, konpreyansyon espas travay ak rezolisyon kesyon) osi byen ke ogmante metrik yo itilize pou evalyasyon. Sa a evalyasyon harness tou enkli gwo ak reyèl baz kòd. 3 Malgre ke evalyasyon kounye a nou an depann sou HumanEval pou evalye efikasite a nan AutoDev nan de travay kodaj, travay la pwochen nou an ap eseye extend evalyasyon sa a nan plis demann ak reyèl dataset, tankou moun ki ofri pa Copilot Evaluation Harness. 6.3 AI nan enjenyè lojisyèl Interactions While prior works have explored the intersection of AI and software engineering, few have delved into AI-guided programming within IDE interactions. AutoDev, as introduced in this paper, draws inspiration from existing works in the literature while enhancing their contributions. Notable examples include Auto-GPT[ ], LATS (Language Agent Tree Rechèch) ], ak refleksyon [ ], chak prezante yon apwòch inik nan travay AI-driven. 8 23 17 Pwodwi pou Telefòn [ ] opere pa parye GPT-3.5 ak GPT-4 ak yon bot patnè, ki pèmèt itilizatè yo enstriksyon modèl lang sa yo sou objektif espesifik. Bot patnè a itilize GPT-3.5 ak GPT-4, ansanm ak divès kalite pwogram, pou egzekite etap ki nesesè pou reyalize objektif la. 8 Lòt [ ] , sou lòt men, se yon anviwònman jeneral ki sinergize kapasite LLM nan planifikasyon, aksyon, ak rezonans. Enspire pa Monte Carlo arbr rechèch, ki souvan itilize nan modèl ki baze sou amelyorasyon aprantisaj, LATS angaje LLM kòm ajan, fonksyon valè, ak optimizers, amelyore desizyon. Li prezante yon anviwònman pou feedback ekstèn, ofri yon mekanis delibere ak adaptif rezoud pwoblèm. 23 Reflexion[ ] prezante yon ramifikasyon nouvo pou ranfòse ajan lang atravè repons lingvistik. ajan refleksyon refleksyon verbalman sou sinyal repons travay, kenbe tèks refleksyon yo nan yon buffè memwa episodik pou amelyore desizyon. Sa a ramifikasyon fleksib entegre divès kalite ak sous nan sinyal repons ak ekspoze amelyorasyon enpòtan sou ajan baz nan travay divès kalite, ki gen ladan desizyon sekansyèl, kodaj, ak rezonaj lang. 17 AutoDev espesyalize ide sa yo pou jaden an nan lojisyèl Enjenyè, ofri yon anviwònman fleksib ki pèmèt ajan AI ranpli travay SE konplèks nan konplè otònite. travay nou an gen pou fè fas a ant pratik yo tradisyonèl enjenyè lojisyèl ak automatisation ki baze sou AI, fasilite efò kolaboratif ant devlopè yo ak ajan AI. Pa entwodwi yon bibliote a zouti varyab, AutoDev pèmèt ajan AI yo otònman fè travay konplike, bay yon avanse pwomèt nan peyizaj la nan devlopman lojisyèl asiste pa AI. 7 Konklizyon In this paper, we introduced AutoDev, a framework enabling AI Agents to autonomously interact with repositories, perform actions, and tackle complex software engineering tasks. We’ve shifted the responsibility of extracting relevant context for software engineering tasks and validating AI-generated code from users (mainly developers) to the AI agents themselves. Agents are now empowered to retrieve context through Retrieval actions and validate their code generation through Build, Execution, Testing, and Validation actions. Role nan devlopè a nan framework la AutoDev transforme soti nan aksyon manyen ak validasyon nan pwopozisyon AI nan yon sipèvizè ki supervize kolaborasyon milti-agents sou travay, ak opsyon pou bay feedback. Devlopè yo ka kontwole pwogrè a nan AutoDev nan direksyon pou objektif yo pa observe konvèsasyon an kontinyèl ki itilize pou kominikasyon ant ajan ak depo a. Evalyasyon nou an sou dataset la HumanEval pou kòd ak jenerasyon tès te montre rezilta enteresan, osijè yon pousantaj Pass@1 nan 91.5 pou jenerasyon kòd - yon rezilta dezyèm pi bon sou tablo a nan moman an nan ekri, ak pi bon nan mitan apwòch ki pa mande pou done fòmasyon adisyonèl. AutoDev tou ekselan nan jenerasyon tès ak yon pousantaj Pass@1 nan 87,8%, osijè yon kouvèti 99,3% soti nan pase tès. Looking ahead, objektif nou an pou travay pwochen se entegre AutoDev nan IDEs kòm yon eksperyans chatbot ak entegre li nan pipelines CI / CD ak platfòm revize PR. Referans [1] Kòd jenerasyon sou humaneval - state-of-the-art. 2024. Aksè: 2024-02-27. Pwodwi pou paperswithcode.com/sota/code-generation-on-humanevèl, [2] GitHub copilot: pwogramè a pafè ou. 2024. Pwodwi pou Telefòn: github.com copilot, [3] Agarwal, A., Chan, A., Chandel, S., Jang, J., Miller, S., Moghad-dam, R. Z., Mohylevskyy, Y., Sundaresan, N., ak Tufano, M. Copi-lot evaluation harness: Evaluating llm-guided software programming, 2024. [4] Chen, B., Mustakin, N., Hoang, A., Fuad, S., ak Wong, D. Vscuda: Llm ki baze sou extension cuda pou vizyèl kòd studio. Nan (New York, NY, USA, 2023), SC-W ’23, Association for Computing Machinery, p. 11-17. Pwosesis nan atelye SC '23 nan Konferans Entènasyonal la sou konpitè segondè pèfòmans, rezo, depo ak analiz [5] Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., et al. Evalye modèl lang gwo fòmasyon sou kòd. [6] Ding, Y., Wang, Z., Ahmad, W., Ding, H., Tan, M., Jain, N., Ra-manathan, M. K., Nallapati, R., Bhatia, P., Roth, D., et al. Cross-codeeval: Yon benchmark divès kalite ak plizyè lang pou konplèksyon kòd ant dosye. (2024) nan Avanse nan Sistèm Neural Processing enfòmasyon 36 [7] Floridi, L., ak Chiriatti, M. Gpt-3: natirite li yo, zòn nan, limit, ak konsekans yo. (2020), nan 681-694 yo. Mizik ak machin 30 [8] Gravitas, S. Autogpt nan. 2024. depo a nan GitHub. hNps://github.com/Significant-Gravitas/ Pwodwi pou [9] Lu, S., Guo, D., Ren, S., Huang, J., Svyatkovskiy, A., Blanco, A., Clement, C., Drain, D., Jiang, D., Tang, D., Li, G., Zhou, L., Shou, L., Zhou, L., Tufano, M., Gong, M., Zhou, M., Duan, N., Sundaresan, N., Deng, S. K., Fu, S., ak Liu, S. Codexglue: A machine learning benchmark dataset for code understanding and generation, 2021. [10] Nam, D., Macvean, A., Hellendoorn, V., Vasilescu, B., ak Myers, B. Sèvi ak enfòmasyon ki baze sou jenerasyon in-ide ak yon modèl lang gwo, 2023. [11] OpenAI, :, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., Avila, R., Babuschkin, I., Balaji, S., Balcom, V., Baltescu, P., Bao, H., Bavarian, M., Belgum, J., Bello, I., Berdine, J., Bernadett-Shapiro, G., Berner, C., Bogdonoff, L., Boiko, O., Boyd, M., Brak-man, A.-L., Brockman, G., Brooks, T., Brundage, M., Button, K., Cai, T., Campbell, R., Cann, A., Carey, B., Carlson, C., Carmichael, R., Chan, B., Chang, C., Chantzis, F., Chen, D., Chen, S., Chen, R., Chen, J., Chen, M., Chess, B., Cho, C., Chu, C., Chung, H. W., Cum-mings, D., Currier, J., Dai, Y., Decareaux, C., Degry, T., Deutsch, N., Deville, D., Dhar, A., Dohan, D., Dowling, S., Dunning, S., Ecoffet, A., Eleti, A., Eloundou, T., Farhi, D., Fedus, L., Felix, N., Fishman, S. P., Forte, J., Fulford, I., Gao, L., Georges, E., Gibson, C., Goel, V., Gogineni, T., Goh, G., Gontijo-Lopes, R., Gordon, J., Grafstein, M., Gray, S., Greene, R., Gross, J., Gu, S. S., Guo, Y., Hallacy, C., Han, J., Harris, J., Li, Y., Heaton, M., Heidecke, J., Hesse, C., Hickey, A., Hickey, W., Hoeschele, P., Houghton, B., Hsu, K., Hu, S., Hu, X., Huizinga, J., Jain, S., Jain, S., Jang, J., Jiang, A., Jiang, R., Jin, H., Jin, D., Jomoto, S., Jonn, B., Jun, H., Kaftan, T., Łukasz Kaiser, Kamali, A., Kanitscheider, I., Keskar, N. S., Khan, T., Kilpatrick, L., Kim, J. W., Kim, C., Kim, Y., Kirchner, J. H., Kiros, J., Knight, M., Kokotajlo, D., Łukasz Kondraciuk, Kondrich, A., Konstantinidis, A., Kosic, K., Krueger, G., Kuo, V., Lampe, M., Lan, I., Lee, T., Leike, J., Leung, J., Levy, D., Li, C. M., Lim, R., Lin, M., Lin, S., Litwin, M., Lopez, T., Lowe, R., Lue, P., Makanju, A., Mal-facini, K., Manning, S., Markov, T., Markovski, Y., Martin, B., Mayer, K., Mayne, A., McGrew, B., McKinney, D., Mu, T., Murati, M., Murk, O., Mély, D., Nair, A., Nakano, R., Mehta, A., Menik, A., Menik, J., Metz, L., Mishchenko, A., Mishchenko, P., Monako, V., Morikawa, E., Poking, D., Mo, T., Murati, M., Murk, O., Mély, D., Nair, A., Nakano, R., Mehta, R., Neelak, A., Ngo, R A., Weihang, J., Ramesh, A., Raymond, C., Real, F., Rimbach, K., Ross, C., Rotsted, B., Roussez, H., Ryder, N., Saltarelli, M., Sanders, T., Santurkar, S., Sastry, G., Schmidt, K., Sohl, I., Sokolowsky, B., Song, Y., Selsam, D., Sheppard, K., Sherbakov, T., Summers, N., Sut, J., Shoker, S., Temba, Yoo, P., Sidor, S., Sigler, E., Simens, M., Sitkin, J., Slama, K., Sohl, I., Sokolowsky, B., Song, Y., N., Sheppard, K., N., Such, F., P., Summers, N., Sut, I [12] OpenAI. Gpt 3.5 modèl, 2023. [13] OpenAI. Gpt-4 rapò teknik, 2023. [14] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. Antrenman modèl lan-guage yo swiv enstriksyon ak feedback moun. (2022), 27730–27744. Avanse nan Sistèm Neural Processing enfòmasyon 35 [15] Rae, J. W., Borgeaud, S., Cai, T., Millican, K., ak lòt moun. Modèl Scaling lang: Metòd, analiz & konsèp soti nan fòmasyon gopher, 2022. [16] Roziere, B., Gehring, J., Gloeckle, F., Sootla, S., Gat, I., Tan, X. E., Adi, Y., Liu, J., Remez, T., Rapin, J., et al. Kòd llama: Modèl fondasyon louvri pou kòd. (2023) nan arXiv preprint arXiv:2308.12950 [17] Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., ak Yao, S. Refleksyon: Agents lang ak aprantisaj verbal, 2023. [18] Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., Casper, J., Liu, Z., Prabhumoye, S., Zerveas, G., Korthikanti, V., Zhang, E., Child, R., Aminabadi, R. Y., Bernauer, J., Song, X., Shoeybi, M., He, Y., Houston, M., Tiwary, S., ak Catanzaro, B. Sèvi ak gwo vitès ak megatron yo tren megatron-turing nlg 530b, yon modèl lang gwo-scale generatif, 2022. [19] Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., et al. Plis pase jwèt la imitasyon: Quantification and extrapolating the capabilities of language models, 2023. [20] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., ak Polosukhin, I. Atansyon se tout sa ou bezwen. 2017 nan. Avanse nan Sistèm Neural Processing enfòmasyon 30 [21] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., ak Bowman, S. R. Glue: Yon multi-task benchmark ak platfòm analiz pou konprann lang natirèl, 2019. [22] Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., Awadallah, A. H., White, R. W., Burger, D., ak Wang, C. Autogen: Pèmèt aplikasyon yo next-gen llm atravè konvèsasyon milti-agents, 2023. [23] Zhou, A., Yan, K., Shlapentokh-Rothman, M., Wang, H., ak Wang, Y.-X. Rechèch agèn lang arbr unify akse ak planifikasyon nan modèl lang, 2023. Pwogram sa a se disponib sou archiv anba lisans CC by 4.0 Deed (Attribution 4.0 entènasyonal). Pwogram sa a se disponib sou archiv anba lisans CC by 4.0 Deed (Attribution 4.0 entènasyonal).