Müəlliflər:
(1) Sirui Hong, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(2) Yizhang Lin, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(3) Bang Liu, Universite de Montreal & Mila və bu müəlliflər əlifba sırası ilə verilmişdir;
(4) Bangbang Liu, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(5) Binhao Wu, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(6) Danyang Li, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(7) Jiaqi Chen, Fudan Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(8) Jiayi Zhang, Çinin Renmin Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(9) Jinlin Wang, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(10) Li Zhang, Fudan Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(11) Lingyao Zhang, bu müəlliflər bu işə bərabər töhfə verdilər;
(12) Min Yang, Çin Elmlər Akademiyası 5 Shenzhen Qabaqcıl Texnologiya İnstitutu və bu müəlliflər bu işə bərabər töhfə verdilər;
(13) Mingchen Zhuge, AI Initiative, King Abdullah University of Elm və Texnologiya və bu müəlliflər bu işə bərabər töhfə verdilər;
(14) Taicheng Guo, Notre Dame Universiteti və bu müəlliflər bu işə bərabər töhfə vermişlər;
(15) Tuo Zhou, Hong Kong Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(16) Wei Tao, Fudan Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(17) Wenyi Wang, AI Initiative, King Abdullah University of Elm və Texnologiya və bu müəlliflər bu işə bərabər töhfə verdilər;
(18) Xiangru Tang, Yale Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(19) Xiangtao Lu, DeepWisdom və bu müəlliflər bu işə bərabər töhfə verdilər;
(20) Xiawu Zheng, Xiamen Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(21) Xinbing Liang, DeepWisdom, Şərqi Çin Normal Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(22) Yaying Fei, Pekin Texnologiya Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(23) Yuheng Cheng, Hong Kong Çin Universiteti, Shenzhen və bu müəlliflər bu işə bərabər töhfə verdilər;
(24) Zongze Xu, DeepWisdom, Hohai Universiteti və bu müəlliflər bu işə bərabər töhfə verdilər;
(25) Chenglin Wu, DeepWisdom və müvafiq müəllif.
Redaktorun qeydi: Bu, müxtəlif məlumat elmi və real dünya tapşırıqları üçün həll olan Data Interpreter proqramının inkişafını təfərrüatlandıran tədqiqat işinin 5-ci hissəsidir. Qalanını aşağıda oxuyun.
3 Metodologiya və 3.1 İerarxik Strukturla Dinamik Planlaşdırma
A. Əlavə Nəticələr
B. İcra Nəticələri
C. Məlumat dəstlərinin təfərrüatları
Böyük Dil Modeli (LLM) əsaslı agentlər diqqətəlayiq effektivlik nümayiş etdirdilər. Bununla belə, onların performansı real vaxt rejimində məlumatların tənzimlənməsi, müxtəlif tapşırıqlar arasında mürəkkəb asılılıqlar səbəbindən optimallaşdırma sahəsində təcrübə və dəqiq əsaslandırma üçün məntiqi səhvləri müəyyən etmək bacarığı tələb edən məlumat elmi ssenarilərində güzəştə gedə bilər. Bu araşdırmada biz verilənlər elmində problemin həllini artırmaq üçün üç əsas texnikanı vurğulayan kodla həll etmək üçün hazırlanmış bir həll olan Data Interpreter-i təqdim edirik: 1) real vaxt verilənlərin uyğunlaşması üçün iyerarxik qrafik strukturları ilə dinamik planlaşdırma; 2) tələb olunan təcrübəni zənginləşdirərək icra zamanı kod bacarıqlarını artırmaq üçün alətin dinamik inteqrasiyası; 3) əks əlaqədə məntiqi uyğunsuzluğun müəyyən edilməsi və təcrübənin qeydə alınması ilə səmərəliliyin artırılması. Biz Data Interpreter-i müxtəlif məlumat elmi və real dünya tapşırıqları üzrə qiymətləndiririk. Açıq mənbə əsas göstəriciləri ilə müqayisədə o, 0,86-dan 0,95-ə yüksələrək, maşın öyrənmə tapşırıqlarında əhəmiyyətli təkmilləşdirmələr nümayiş etdirərək üstün performans nümayiş etdirdi. Əlavə olaraq, MATH verilənlər bazasında 26% artım və açıq tapşırıqlarda nəzərəçarpacaq dərəcədə 112% yaxşılaşma göstərdi. Həll https://github.com/geekan/MetaGPT ünvanında yayımlanacaq.
Böyük Dil Modelləri (LLM) agentlərə onların uyğunlaşma qabiliyyətini və effektivliyini nümayiş etdirərək geniş tətbiqlərdə üstün olmağa imkan verdi (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b). LLM ilə işləyən bu agentlər proqram mühəndisliyi (Hong et al., 2023), mürəkkəb açıq dünya ssenarilərində naviqasiya (Wang et al., 2023; Chen et al., 2024a) kimi sahələrə əhəmiyyətli dərəcədə təsir göstərmiş, əməkdaşlıq üçün multi-agent strukturlarını asanlaşdırmışdır. multimodal tapşırıqlar (Zhuge et al., 2023), virtual köməkçilərin həssaslığını yaxşılaşdırmaq (Lu və digərləri, 2023), qrup zəkasını optimallaşdırmaq (Zhuge və digərləri, 2024) və elmi tədqiqatlara töhfə vermək (Tang və digərləri, 2024).
Son tədqiqatlar bu agentlərin mülahizə prosesini təkmilləşdirməklə problem həll etmə qabiliyyətlərini təkmilləşdirməyə, artan təkmillik və səmərəliliyi hədəfləməyə yönəlmişdir (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al. ., 2024; Wei et al., 2022). Bununla belə, məlumat mərkəzli elmi problemlər, o cümlədən maşın öyrənməsi, məlumatların təhlili və riyazi problemlərin həlli həll edilməli olan unikal problemlər təqdim edir. Maşın öyrənmə prosesi çoxlu tapşırıqlar arasında mürəkkəb asılılıqlarla xarakterizə olunan mürəkkəb, uzun tapşırıqların idarə edilməsi mərhələlərini əhatə edir. Bu, uğursuzluq və ya məlumat yeniləmələri halında prosesin optimallaşdırılması və dinamik tənzimləmə üçün mütəxəssis müdaxiləsini tələb edir. LLM-lər üçün bir cəhddə düzgün həlli təmin etmək çox vaxt çətin olur. Bundan əlavə, bu problemlər dəqiq əsaslandırma və məlumatların hərtərəfli yoxlanılmasını tələb edir (RomeraParedes et al., 2023), bu da LLM əsaslı agent çərçivəsinə əlavə problemlər yaradır.
Bundan əlavə, (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) kimi mövcud əsərlər statik tələblərin parçalanmasını kodun icrası ilə birləşdirən tərcüməçi paradiqması kimi tanınan kod əsaslı problem həlli metodları vasitəsilə məlumat mərkəzli problemləri həll edir. Bununla belə, bu çərçivələri praktiki məlumat elmi vəzifələrində tətbiq edərkən bir neçə əsas problem yaranır: 1) Məlumatdan asılılığın intensivliyi: Məlumat elminə xas olan mürəkkəblik, real vaxt dəyişikliklərinə məruz qalan müxtəlif addımlar arasında mürəkkəb qarşılıqlı əlaqədən irəli gəlir (Liu et al. , 2021). Dəqiq nəticələr üçün məlumatların təmizlənməsi və hərtərəfli xüsusiyyət mühəndisliyi hər hansı maşın öyrənmə modelini inkişaf etdirməzdən əvvəl ilkin şərtlərdir. Buna görə də, məlumat dəyişikliklərini izləmək və transformasiya edilmiş məlumatlara və dəyişənlərə dinamik şəkildə uyğunlaşmaq vacibdir. Xüsusiyyət seçimi, model təlimi və qiymətləndirməni əhatə edən maşın öyrənmə modelləşdirmə prosesi emal operatorlarının və axtarış məkanlarının geniş spektrini əhatə edir (Zheng et al., 2021). Çətinlik bütün proses kodunu eyni vaxtda yaratmaq və həll etməkdən ibarətdir. 2) Təkmilləşdirilmiş domen bilikləri: Məlumat alimlərinin xüsusi bilikləri və kodlaşdırma təcrübələri məlumatlarla bağlı problemlərin həllində əsas rol oynayır. Tipik olaraq mülkiyyət koduna və verilənlərə daxil olan bu bilik tez-tez cari LLM-lər üçün əlçatmaz olaraq qalır. Məsələn, enerji və ya geologiya kimi spesifik domenlərdə verilənlərin çevrilməsi üçün kod yaratmaq, lazımi domen təcrübəsi olmadan LLM-lər üçün problem yarada bilər. Mövcud metodologiyalar əsasən LLM-lərdən asılıdır, bu, prosesi asanlaşdıra bilər, lakin performansı potensial olaraq güzəştə gedə bilər. 3) Ciddi məntiq tələbləri: Hal-hazırda (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) kimi tərcüməçilər problemin həlli performansını artırmaq üçün kod icrası və xətaların aşkarlanması imkanlarını birləşdirir. Bununla belə, səhvən düzgün hesab edərək, səhvsiz icraya çox vaxt məhəl qoymurlar. Əsas proqramlaşdırma tapşırıqları sadələşdirilə və tələblər müəyyən edildikdə dərhal icra rəyindən asılı ola bilsə də, məlumat elmi problemləri çox vaxt qeyri-müəyyən, qeyri-müntəzəm və dəqiq müəyyən edilməmiş tələblər yaradır və LLM-lərin başa düşülməsini çətinləşdirir. Nəticə etibarilə, tapşırıqların həlli üçün LLM tərəfindən yaradılan kod həlləri məntiqi sağlamlığın ciddi şəkildə yoxlanılmasını tələb edən qeyri-müəyyənlikləri ehtiva edə bilər və sadəcə icra rəyindən kənara çıxa bilər.
Yuxarıda qeyd olunan problemləri həll etmək üçün biz xüsusi olaraq məlumat elmi sahəsi üçün nəzərdə tutulmuş Data Interpreter adlı LLM əsaslı agenti təqdim edirik. Bu agent tapşırıqları parçalamaq, kodu icra etmək və rəyi yoxlamaq yolu ilə insan tələblərini yerinə yetirmək üçün plan-kod-yoxlama yanaşmasını izləyir. Xüsusilə, biz təklif edirik 1) İerarxik quruluşa malik dinamik planlaşdırma: Məlumat Tərcüməçimiz məlumat elminə xas olan mürəkkəblikləri daha effektiv şəkildə dərk etmək üçün iyerarxik qrafik strukturlarından istifadə edir. Dinamik planlaşdırma yanaşması onu tapşırıq variasiyalarına uyğunlaşma qabiliyyəti ilə təchiz edir, məlumat dəyişikliklərinin monitorinqində və məlumat elmi problemlərinə xas olan mürəkkəb dəyişən asılılıqların idarə edilməsində xüsusilə səmərəli olduğunu sübut edir. 2) Alətdən istifadə və generasiya: Biz müxtəlif insan tərəfindən yazılmış kod parçalarını inteqrasiya etməklə və sadəcə API-yönümlü imkanlardan kənarda xüsusi tapşırıqlar üçün fərdi alətlər yaratmaqla kodlaşdırma bacarığını artırırıq. Bu proses müxtəlif alətlərin öz-özünə yaradılan kodla avtomatik birləşməsini nəzərdə tutur. O, alət kitabxanasını müstəqil şəkildə qurmaq və genişləndirmək, alətlərdən istifadəni sadələşdirmək və lazım olduqda kodun yenidən qurulmasını həyata keçirmək üçün tapşırıq səviyyəsində icradan istifadə edir. 3) Məntiq səhvindən xəbərdar olan əsaslandırmanın gücləndirilməsi: Bu, istisnasız ssenari üçün vacib olan icra nəticələrindən və sınaq əsasında yoxlamalardan əldə edilən etimad xalına əsaslanır. O, kod həlli ilə test kodunun icrası arasında uyğunsuzluqları aşkar edir və məntiq səhvlərini azaltmaq üçün çoxsaylı sınaqları müqayisə edir. İcra və əsaslandırma prosesi boyunca, ilk növbədə, həm uğurları, həm də uğursuzluqları özündə birləşdirən metadata və iş vaxtı trayektoriyasından ibarət tapşırıq səviyyəli təcrübələr qeydə alınır.
Şəkil 1-də göstərildiyi kimi, Data Interpreterimiz mövcud açıq mənbə çərçivələrini əhəmiyyətli dərəcədə üstələyir. Bu ilkin göstəricilərlə müqayisədə Data Tərcüməçisi yüksək performans nümayiş etdirir, maşın öyrənmə tapşırıqlarında 10,3% (0,86-dan 0,95-ə qədər) təkmilləşdirmə və MATH verilənlər toplusunda 26% təkmilləşdirmə ilə güclü problem həll etmə imkanlarını nümayiş etdirir. Açıq tapşırıqlarda onun performansı iki dəfədən çox artaraq 112% artım göstərərək, geniş spektrli problemlərin həllində effektivliyini nümayiş etdirir.
Biz töhfələrimizi aşağıdakı kimi ümumiləşdiririk:
• Biz məlumat elmi tapşırıqlarında uyğunlaşma qabiliyyətini və problem həll etmə imkanlarını artıran iyerarxik strukturlarla dinamik planlaşdırma çərçivəsi təklif edirik.
• Biz alətlərdən istifadə və generasiya üçün avtomatlaşdırılmış alət inteqrasiyasını tətbiq etməklə LLM-lərdə kodlaşdırmanın səriştəsini və səmərəliliyini təkmilləşdiririk.
• Biz yoxlama və təcrübəni birləşdirərək əsaslandırmanı təkmilləşdiririk və bununla da problemin həllinin dəqiqliyini və səmərəliliyini artırırıq.
• Təcrübələrimiz göstərir ki, Data Tərcüməçimiz maşın öyrənmə tapşırıqları, riyazi problemlər və açıq uçlu tapşırıqlar üzrə mövcud göstəriciləri üstələyir və beləliklə, performans üçün yeni standart müəyyən edir.