Mualliflar:
(1) Sirui Xong, DeepWisdom va bu mualliflar bu ishga teng hissa qo'shgan;
(2) Yizhang Lin, DeepWisdom va bu mualliflar bu ishga teng hissa qo'shgan;
(3) Bang Liu, Universite de Monreal & Mila va bu mualliflar alifbo tartibida keltirilgan;
(4) Bangbang Liu, DeepWisdom va ushbu mualliflar bu ishga teng hissa qo'shgan;
(5) Binhao Vu, DeepWisdom va ushbu mualliflar bu ishga teng hissa qo'shgan;
(6) Danyang Li, DeepWisdom va ushbu mualliflar ushbu ishga teng hissa qo'shgan;
(7) Jiaqi Chen, Fudan universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(8) Jiayi Chjan, Xitoyning Renmin universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(9) Jinlin Vang, DeepWisdom va ushbu mualliflar bu ishga teng hissa qo'shgan;
(10) Li Chjan, Fudan universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(11) Lingyao Chjan, bu mualliflar bu ishga teng hissa qo'shgan;
(12) Min Yang, 5Shenzhen ilg'or texnologiyalar instituti, Xitoy Fanlar akademiyasi va bu mualliflar bu ishga teng hissa qo'shgan;
(13) Mingchen Zhuge, AI Initiative, Qirol Abdulla Fan va Texnologiya Universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(14) Taycheng Guo, Notr-Dam universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(15) Tuo Chjou, Gonkong universiteti va bu mualliflar bu ishga teng hissa qo'shgan;
(16) Wei Tao, Fudan universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(17) Wenyi Vang, AI Initiative, Qirol Abdulla Fan va Texnologiya Universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(18) Xiangru Tang, Yel universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(19) Xiangtao Lu, DeepWisdom va ushbu mualliflar bu ishga teng hissa qo'shgan;
(20) Xiawu Zheng, Xiamen universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(21) Xinbing Liang, DeepWisdom, Sharqiy Xitoy Oddiy Universiteti va bu mualliflar bu ishga teng hissa qo'shgan;
(22) Yaying Fei, Pekin Texnologiya Universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(23) Yuheng Cheng, Gonkong Xitoy universiteti, Shenzhen va bu mualliflar bu ishga teng hissa qo'shgan;
(24) Zongze Xu, DeepWisdom, Xohai universiteti va ushbu mualliflar bu ishga teng hissa qo'shgan;
(25) Chenglin Vu, DeepWisdom va tegishli muallif.
Tahrirlovchining eslatmasi: Bu turli xil ma'lumotlar fanlari va real vazifalar uchun yechim bo'lgan Data Interpreter dasturini ishlab chiqish batafsil tavsiflangan tadqiqot tadqiqotining 5-qismi. Qolganini quyida o'qing.
3 Metodologiya va 3.1 Ierarxik tuzilma bilan dinamik rejalashtirish
5 Xulosa va foydalanilgan adabiyotlar
A. Qo'shimcha natijalar
B. Amalga oshirish natijalari
C. Ma'lumotlar to'plamining tafsilotlari
Katta til modeliga (LLM) asoslangan agentlar ajoyib samaradorlikni namoyish etdilar. Biroq, ularning ishlashi real vaqt rejimida ma'lumotlarni sozlashni, turli vazifalar o'rtasidagi murakkab bog'liqliklar tufayli optimallashtirish bo'yicha tajribani va aniq fikr yuritish uchun mantiqiy xatolarni aniqlash qobiliyatini talab qiladigan ma'lumotlar fanining stsenariylarida buzilgan bo'lishi mumkin. Ushbu tadqiqotda biz ma'lumotlar fanida muammolarni hal qilishni kuchaytirishning uchta asosiy usulini ta'kidlaydigan kod bilan hal qilish uchun mo'ljallangan "Ma'lumotlar tarjimoni" ni taqdim etamiz: 1) real vaqt rejimida ma'lumotlarni moslashtirish uchun ierarxik grafik tuzilmalari bilan dinamik rejalashtirish; 2) kerakli tajribani boyitib, bajarish jarayonida kodni bilish darajasini oshirish uchun vositalarni dinamik ravishda integratsiyalash; 3) fikr-mulohazalarda mantiqiy nomuvofiqlikni aniqlash va tajribani qayd etish orqali samaradorlikni oshirish. Biz ma'lumotlar tarjimonini turli ma'lumotlar fanlari va real vazifalar bo'yicha baholaymiz. Ochiq manbali bazaviy ko'rsatkichlar bilan taqqoslaganda, u 0,86 dan 0,95 gacha ko'tarilib, mashinani o'rganish vazifalarida sezilarli yaxshilanishlarni ko'rsatib, yuqori samaradorlikni namoyish etdi. Bundan tashqari, u MATH ma'lumotlar to'plamining 26% ga o'sishini va ochiq topshiriqlarning 112% ga sezilarli yaxshilanishini ko'rsatdi. Yechim https://github.com/geekan/MetaGPT manzilida chiqariladi.
Katta til modellari (LLM) agentlarga ularning moslashuvchanligi va samaradorligini ko'rsatib, keng ko'lamli ilovalarda ustunlik qilish imkonini berdi (Guo va boshq., 2024; Vu va boshq., 2023a; Zhou va boshqalar, 2023b). Ushbu LLM tomonidan boshqariladigan agentlar dasturiy ta'minot muhandisligi (Hong va boshq., 2023), murakkab ochiq dunyo stsenariylarini boshqarish (Vang va boshq., 2023; Chen va boshq., 2024a) kabi sohalarga sezilarli ta'sir ko'rsatdi va hamkorlikda ko'p agentli tuzilmalarni yaratishga yordam berdi. multimodal vazifalar (Juge va boshq., 2023), virtual yordamchilarning sezgirligini oshirish (Lu va boshq., 2023), guruh razvedkasini optimallashtirish (Zhuge va boshq., 2024) va ilmiy tadqiqotlarga hissa qo'shish (Tang va boshq., 2024).
So'nggi tadqiqotlar ushbu agentlarning muammoni hal qilish qobiliyatini ularning fikrlash jarayonini takomillashtirish, murakkablik va samaradorlikni oshirishga qaratilgan (Zhang va boshq., 2023; Besta va boshq., 2023; Sel va boshq., 2023; Yao va boshq. ., 2024; Wei va boshqalar, 2022). Biroq, ma'lumotlarga asoslangan ilmiy muammolar, jumladan, mashinani o'rganish, ma'lumotlarni tahlil qilish va matematik muammolarni hal qilish, hal qilinishi kerak bo'lgan noyob muammolarni keltirib chiqaradi. Mashinani o'rganish jarayoni murakkab, uzoq vazifalarni bajarish bosqichlarini o'z ichiga oladi, ular bir nechta vazifalar o'rtasidagi murakkab bog'liqlik bilan tavsiflanadi. Bu jarayonni optimallashtirish va muvaffaqiyatsizlik yoki ma'lumotlarni yangilash holatlarida dinamik sozlash uchun mutaxassislar aralashuvini talab qiladi. Ko'pincha LLMlar uchun bitta urinishda to'g'ri echimni taqdim etish qiyin. Bundan tashqari, ushbu muammolar aniq fikr yuritishni va ma'lumotlarni to'liq tekshirishni talab qiladi (RomeraParedes va boshq., 2023), bu LLMga asoslangan agent tizimiga qo'shimcha qiyinchiliklar tug'diradi.
Bundan tashqari, mavjud ishlar (Qiao va boshq., 2023; OpenAI, 2023; Lukas, 2023) statik talablarning parchalanishini kodni bajarish bilan birlashtirgan tarjimon paradigmasi deb nomlanuvchi kodga asoslangan muammolarni hal qilish usullari orqali ma'lumotlar markazlashtirilgan muammolarni hal qiladi. Biroq, ma'lumotlar fanining amaliy vazifalarida ushbu ramkalardan foydalanishda bir nechta asosiy muammolar paydo bo'ladi: 1) Ma'lumotlarga bog'liqlik intensivligi: Ma'lumotlar faniga xos bo'lgan murakkablik real vaqt rejimida o'zgarishlarga duchor bo'lgan turli bosqichlar o'rtasidagi murakkab o'zaro bog'liqlikdan kelib chiqadi (Liu va boshq. , 2021). To'g'ri natijalarga erishish uchun har qanday mashinani o'rganish modelini ishlab chiqishdan oldin ma'lumotlarni tozalash va keng qamrovli xususiyatlar muhandisligi zaruriy shartdir. Shuning uchun ma'lumotlar o'zgarishini kuzatish va o'zgartirilgan ma'lumotlar va o'zgaruvchilarga dinamik moslashish juda muhimdir. Xususiyatlarni tanlash, modelni o'qitish va baholashni o'z ichiga olgan mashinani o'rganishni modellashtirish jarayoni ishlov berish operatorlari va qidiruv maydonlarining keng spektrini o'z ichiga oladi (Zheng va boshq., 2021). Muammo butun jarayon kodini bir vaqtning o'zida yaratish va hal qilishda yotadi. 2) Aniqlangan domen bilimlari: ma'lumotlar bo'yicha olimlarning maxsus bilimlari va kodlash amaliyotlari ma'lumotlar bilan bog'liq muammolarni hal qilishda muhim ahamiyatga ega. Odatda xususiy kod va ma'lumotlarga kiritilgan bu ma'lumot ko'pincha joriy LLMlar uchun mavjud emas. Masalan, energiya yoki geologiya kabi ma'lum sohalarda ma'lumotlarni o'zgartirish uchun kod ishlab chiqarish, kerakli domen tajribasiga ega bo'lmagan LLMlar uchun qiyinchilik tug'dirishi mumkin. Mavjud metodologiyalar asosan LLMlarga bog'liq bo'lib, bu jarayonni soddalashtirishi mumkin, ammo unumdorlikni buzishi mumkin. 3) Qattiq mantiqiy talablar: Hozirgi vaqtda (Qiao va boshq., 2023; OpenAI, 2023; Lukas, 2023) kabi tarjimonlar muammolarni hal qilish samaradorligini oshirish uchun kodni bajarish va xatolarni aniqlash imkoniyatlarini o'z ichiga oladi. Biroq, ular ko'pincha xatosiz bajarishni e'tiborsiz qoldiradilar, uni noto'g'ri deb hisoblaydilar. Asosiy dasturlash vazifalari soddalashtirilishi va talablar aniqlanganda darhol bajarilishi bo'yicha fikr-mulohazalarga bog'liq bo'lishi mumkin bo'lsa-da, ma'lumotlar fanining muammolari ko'pincha noaniq, tartibsiz va aniq belgilanmagan talablarni keltirib chiqaradi, bu esa LLMlar uchun tushunishni qiyinlashtiradi. Binobarin, vazifalarni hal qilish uchun LLM tomonidan yaratilgan kodli echimlar mantiqiy ishonchlilikni qat'iy tekshirishni talab qiladigan noaniqliklarni o'z ichiga olishi mumkin, bu shunchaki bajarish bo'yicha fikr-mulohazalardan tashqarida.
Yuqorida aytib o'tilgan muammolarni hal qilish uchun biz ma'lumotlar fanlari sohasi uchun maxsus ishlab chiqilgan Data Interpreter deb nomlangan LLM-ga asoslangan agentni taqdim etamiz. Bu agent vazifalarni taqsimlash, kodni bajarish va fikr-mulohazalarni tekshirish orqali inson talablarini bajarish uchun reja-kod-tekshirish yondashuviga amal qiladi. Xususan, biz 1) ierarxik tuzilishga ega dinamik rejalashtirishni taklif qilamiz: Bizning Data Interpreter maʼlumotlar fanining oʻziga xos murakkabliklarini yanada samaraliroq tushunish uchun ierarxik grafik tuzilmalaridan foydalanadi. Dinamik rejalashtirish yondashuvi uni vazifalarning o'zgarishiga moslashish bilan jihozlaydi, ayniqsa ma'lumotlar o'zgarishini kuzatish va ma'lumotlar fani muammolariga xos bo'lgan murakkab o'zgaruvchan bog'liqliklarni boshqarishda samarali ekanligini isbotlaydi. 2) Asboblardan foydalanish va yaratish: Biz inson tomonidan yaratilgan turli xil kod parchalarini integratsiyalash va API-ga yo'naltirilgan imkoniyatlardan tashqari muayyan vazifalar uchun maxsus vositalarni yaratish orqali kodlash mahoratini oshiramiz. Bu jarayon o'z-o'zidan yaratilgan kod bilan turli xil vositalarni avtomatik ravishda birlashtirishni o'z ichiga oladi. U o'zining asboblar kutubxonasini mustaqil ravishda yaratish va kengaytirish, asboblardan foydalanishni soddalashtirish va kerak bo'lganda kodni qayta qurish uchun vazifa darajasidagi bajarishdan foydalanadi. 3) Mantiqiy xatolardan xabardor bo'lgan holda fikrlashni kuchaytirish: Bu istisnosiz stsenariy uchun zarur bo'lgan ijro natijalari va sinovdan o'tgan tekshirishlardan olingan ishonch balliga asoslanadi. U kod yechimi va test kodining bajarilishi o'rtasidagi nomuvofiqlikni aniqlaydi va mantiqiy xatolarni kamaytirish uchun bir nechta sinovlarni taqqoslaydi. Bajarish va mulohaza yuritish jarayonida, birinchi navbatda, muvaffaqiyatlar va muvaffaqiyatsizliklarni o'z ichiga olgan metama'lumotlar va ish vaqti traektoriyasini o'z ichiga olgan vazifa darajasidagi tajribalar qayd etiladi.
1-rasmda ko'rsatilganidek, bizning Data Interpreterimiz mavjud ochiq manbali ramkalardan sezilarli darajada ustundir. Ushbu boshlang'ich ko'rsatkichlar bilan solishtirganda, Data Interpreter yuqori samaradorlikni namoyish etadi, mashinani o'rganish vazifalarida 10,3% (0,86 dan 0,95 gacha) va MATH ma'lumotlar to'plamida 26% yaxshilanadi, bu esa ishonchli muammolarni hal qilish imkoniyatlarini namoyish etadi. Ochiq topshiriqlarda uning samaradorligi ikki baravardan ko'proq o'sdi va 112% ga o'sdi, bu keng ko'lamli muammolarni hal qilishda samaradorligini namoyish etdi.
Biz o'z hissalarimizni quyidagicha umumlashtiramiz:
• Biz ierarxik tuzilmalar bilan dinamik rejalashtirish tizimini taklif qilamiz, bu ma'lumotlar faniga oid vazifalarda moslashish va muammolarni hal qilish imkoniyatlarini oshiradi.
• Asboblardan foydalanish va yaratish uchun avtomatlashtirilgan asboblar integratsiyasini joriy etish orqali biz LLMlarda kodlashning malakasi va samaradorligini oshiramiz.
• Biz tekshirish va tajribani birlashtirish orqali fikrlashni yaxshilaymiz va shu bilan muammolarni hal qilishning aniqligi va samaradorligini oshiramiz.
• Tajribalarimiz shuni ko‘rsatadiki, bizning Data Interpreterimiz mashinani o‘rganish bo‘yicha vazifalar, matematik muammolar va ochiq topshiriqlar bo‘yicha mavjud mezonlardan oshib ketadi va shu bilan ishlash uchun yangi standart o‘rnatadi.
Ushbu hujjat arxivda CC BY 4.0 DEED litsenziyasi ostida mavjud .