Penulis:
(1) Sirui Hong, DeepWisdom, dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(2) Yizhang Lin, DeepWisdom, dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(3) Bang Liu, Universite de Montreal & Mila dan penulis berikut ini diurutkan berdasarkan abjad;
(4) Bangbang Liu, DeepWisdom dan penulis-penulis lainnya memberikan kontribusi yang sama terhadap karya ini;
(5) Binhao Wu, DeepWisdom dan penulis-penulis lainnya memberikan kontribusi yang sama terhadap karya ini;
(6) Danyang Li, DeepWisdom dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(7) Jiaqi Chen, Universitas Fudan dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(8) Jiayi Zhang, Universitas Renmin Tiongkok dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(9) Jinlin Wang, DeepWisdom dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(10) Li Zhang, Universitas Fudan dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(11) Lingyao Zhang, kedua penulis ini memberikan kontribusi yang sama pada karya ini;
(12) Min Yang, 5Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(13) Mingchen Zhuge, AI Initiative, King Abdullah University of Science and Technology dan kedua penulis ini memberikan kontribusi yang sama terhadap karya ini;
(14) Taicheng Guo, Universitas Notre Dame dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(15) Tuo Zhou, Universitas Hong Kong dan kedua penulis ini memberikan kontribusi yang sama terhadap karya ini;
(16) Wei Tao, Universitas Fudan dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(17) Wenyi Wang, AI Initiative, King Abdullah University of Science and Technology dan kedua penulis ini memberikan kontribusi yang sama terhadap karya ini;
(18) Xiangru Tang, Universitas Yale dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(19) Xiangtao Lu, DeepWisdom dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(20) Xiawu Zheng, Universitas Xiamen dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(21) Xinbing Liang, DeepWisdom, East China Normal University dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(22) Yaying Fei, Universitas Teknologi Beijing dan kedua penulis ini memberikan kontribusi yang sama terhadap karya ini;
(23) Yuheng Cheng, Universitas Cina Hong Kong, Shenzhen dan para penulis ini memberikan kontribusi yang sama terhadap karya ini;
(24) Zongze Xu, DeepWisdom, Universitas Hohai dan penulis-penulis ini memberikan kontribusi yang sama terhadap karya ini;
(25) Chenglin Wu, DeepWisdom dan penulis korespondensi.
Catatan Editor: Ini adalah Bagian 1 dari 5 studi penelitian yang merinci pengembangan Data Interpreter, sebuah solusi untuk berbagai tugas sains data dan dunia nyata. Baca selengkapnya di bawah ini.
3 Metodologi dan 3.1 Perencanaan Dinamis dengan Struktur Hirarkis
5. Kesimpulan dan Daftar Pustaka
A. Hasil Tambahan
B. Hasil Implementasi
C. Rincian Dataset
Agen berbasis Large Language Model (LLM) telah menunjukkan efektivitas yang luar biasa. Namun, kinerjanya dapat terganggu dalam skenario ilmu data yang memerlukan penyesuaian data waktu nyata, keahlian dalam pengoptimalan karena ketergantungan yang kompleks di antara berbagai tugas, dan kemampuan untuk mengidentifikasi kesalahan logis untuk penalaran yang tepat. Dalam studi ini, kami memperkenalkan Data Interpreter, solusi yang dirancang untuk menyelesaikan dengan kode yang menekankan tiga teknik penting untuk menambah pemecahan masalah dalam ilmu data: 1) perencanaan dinamis dengan struktur grafik hierarkis untuk kemampuan beradaptasi data waktu nyata; 2) integrasi alat secara dinamis untuk meningkatkan kemahiran kode selama eksekusi, memperkaya keahlian yang dibutuhkan; 3) identifikasi ketidakkonsistenan logis dalam umpan balik, dan peningkatan efisiensi melalui perekaman pengalaman. Kami mengevaluasi Data Interpreter pada berbagai ilmu data dan tugas dunia nyata. Dibandingkan dengan baseline sumber terbuka, ia menunjukkan kinerja yang unggul, menunjukkan peningkatan yang signifikan dalam tugas pembelajaran mesin, meningkat dari 0,86 menjadi 0,95. Selain itu, hal ini menunjukkan peningkatan sebesar 26% dalam dataset MATH dan peningkatan yang luar biasa sebesar 112% dalam tugas-tugas terbuka. Solusinya akan dirilis di https://github.com/geekan/MetaGPT.
Large Language Models (LLM) telah memungkinkan agen untuk unggul dalam berbagai aplikasi, menunjukkan kemampuan beradaptasi dan efektivitasnya (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b). Agen yang didukung LLM ini telah memengaruhi area seperti rekayasa perangkat lunak (Hong et al., 2023), menavigasi skenario dunia terbuka yang kompleks (Wang et al., 2023; Chen et al., 2024a), memfasilitasi struktur multi-agen kolaboratif untuk tugas multimodal (Zhuge et al., 2023), meningkatkan responsivitas asisten virtual (Lu et al., 2023), mengoptimalkan kecerdasan kelompok (Zhuge et al., 2024), dan berkontribusi pada penelitian ilmiah (Tang et al., 2024).
Studi terbaru berfokus pada peningkatan kemampuan pemecahan masalah agen-agen ini dengan meningkatkan proses penalaran mereka, yang bertujuan untuk meningkatkan kecanggihan dan efisiensi (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al., 2024; Wei et al., 2022). Namun, masalah ilmiah yang berpusat pada data, termasuk pembelajaran mesin, analisis data, dan pemecahan masalah matematika, menghadirkan tantangan unik yang masih harus ditangani. Proses pembelajaran mesin melibatkan langkah-langkah penanganan tugas yang rumit dan panjang, yang dicirikan oleh ketergantungan yang rumit di antara banyak tugas. Ini memerlukan intervensi ahli untuk pengoptimalan proses dan penyesuaian dinamis jika terjadi kegagalan atau pembaruan data. Sering kali sulit bagi LLM untuk memberikan solusi yang benar dalam satu kali percobaan. Lebih jauh, masalah-masalah ini menuntut penalaran yang tepat, dan verifikasi data yang menyeluruh (RomeraParedes et al., 2023), yang menimbulkan tantangan tambahan pada kerangka kerja agen berbasis LLM.
Selain itu, karya-karya yang ada seperti (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) mengatasi masalah yang berpusat pada data melalui metode pemecahan masalah berbasis kode, yang dikenal sebagai paradigma interpreter, yang menggabungkan dekomposisi persyaratan statis dengan eksekusi kode. Namun, beberapa tantangan utama muncul saat menggunakan kerangka kerja ini dalam tugas-tugas ilmu data praktis: 1) Intensitas ketergantungan data: Kompleksitas yang melekat dalam ilmu data muncul dari interaksi rumit di antara berbagai langkah, yang dapat berubah secara real-time (Liu et al., 2021). Untuk hasil yang akurat, pembersihan data dan rekayasa fitur yang komprehensif merupakan prasyarat sebelum mengembangkan model pembelajaran mesin apa pun. Oleh karena itu, sangat penting untuk memantau perubahan data dan menyesuaikan secara dinamis dengan data dan variabel yang ditransformasikan. Proses pemodelan pembelajaran mesin, yang mencakup pemilihan fitur, pelatihan model, dan evaluasi, melibatkan spektrum luas operator pemrosesan dan ruang pencarian (Zheng et al., 2021). Tantangannya terletak pada pembuatan dan penyelesaian seluruh kode proses secara bersamaan. 2) Pengetahuan domain yang disempurnakan: Pengetahuan khusus dan praktik pengodean ilmuwan data sangat penting dalam mengatasi tantangan terkait data. Biasanya tertanam dalam kode dan data kepemilikan, pengetahuan ini sering kali tidak dapat diakses oleh LLM saat ini. Misalnya, membuat kode untuk transformasi data dalam domain tertentu seperti energi atau geologi dapat menjadi tantangan bagi LLM tanpa keahlian domain yang diperlukan. Metodologi yang ada sebagian besar bergantung pada LLM, ketergantungan yang dapat menyederhanakan proses tetapi berpotensi mengorbankan kinerja. 3) Persyaratan logika yang ketat: Saat ini, penerjemah seperti (Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) menggabungkan kemampuan eksekusi kode dan penangkapan kesalahan untuk meningkatkan kinerja pemecahan masalah. Namun, mereka sering mengabaikan eksekusi bebas kesalahan, secara keliru menganggapnya benar. Sementara tugas pemrograman dasar dapat disederhanakan dan bergantung pada umpan balik eksekusi langsung saat persyaratan diuraikan, masalah ilmu data sering kali menimbulkan persyaratan yang ambigu, tidak teratur, dan tidak terdefinisi dengan baik, sehingga sulit dipahami oleh LLM. Akibatnya, solusi kode yang dihasilkan LLM untuk penyelesaian tugas mungkin mengandung ambiguitas yang memerlukan validasi ketat terhadap kelogisan logika, yang melampaui umpan balik eksekusi belaka.
Untuk mengatasi tantangan tersebut di atas, kami memperkenalkan agen berbasis LLM, yang disebut Data Interpreter, yang dirancang khusus untuk bidang ilmu data. Agen ini mengikuti pendekatan rencana-kode-verifikasi untuk memenuhi persyaratan manusia dengan memecah tugas, mengeksekusi kode, dan memverifikasi umpan balik. Secara khusus, kami mengusulkan 1) Perencanaan dinamis dengan struktur hierarkis: Data Interpreter kami menggunakan struktur grafik hierarkis untuk memahami kompleksitas inheren ilmu data secara lebih efektif. Pendekatan perencanaan dinamis melengkapinya dengan kemampuan beradaptasi terhadap variasi tugas, terbukti sangat efisien dalam memantau perubahan data dan mengelola dependensi variabel rumit yang inheren dalam masalah ilmu data. 2) Pemanfaatan dan pembuatan alat: Kami meningkatkan kemahiran pengodean dengan mengintegrasikan berbagai cuplikan kode yang dibuat manusia, dan membuat alat khusus untuk tugas-tugas tertentu di luar kemampuan yang berfokus pada API. Proses ini melibatkan kombinasi otomatis berbagai alat dengan kode yang dibuat sendiri. Ia menggunakan eksekusi tingkat tugas untuk secara independen membangun dan memperluas pustaka alatnya, menyederhanakan penggunaan alat, dan melakukan restrukturisasi kode sesuai kebutuhan. 3) Meningkatkan penalaran dengan logika yang peka terhadap bug: Hal ini didasarkan pada skor keyakinan yang diperoleh dari hasil eksekusi dan validasi yang didorong oleh pengujian, yang penting untuk skenario bebas pengecualian. Ia mendeteksi ketidakkonsistenan antara solusi kode dan eksekusi kode pengujian dan membandingkan beberapa percobaan untuk mengurangi kesalahan logika. Sepanjang proses eksekusi dan penalaran, pengalaman tingkat tugas, terutama yang terdiri dari metadata dan lintasan waktu proses, yang mencakup keberhasilan dan kegagalan, dicatat.
Seperti yang digambarkan dalam Gambar 1, Data Interpreter kami jauh melampaui kerangka kerja sumber terbuka yang ada. Dibandingkan dengan garis dasar ini, Data Interpreter menunjukkan kinerja yang unggul, dengan peningkatan 10,3% (dari 0,86 menjadi 0,95) dalam tugas pembelajaran mesin dan peningkatan 26% pada set data MATH, yang menunjukkan kemampuan pemecahan masalah yang tangguh. Dalam tugas terbuka, kinerjanya meningkat lebih dari dua kali lipat, menandai peningkatan 112%, yang menunjukkan kemanjurannya dalam mengatasi spektrum tantangan yang luas.
Kami merangkum kontribusi kami sebagai berikut:
• Kami mengusulkan kerangka kerja perencanaan dinamis dengan struktur hierarkis, yang meningkatkan kemampuan beradaptasi dan pemecahan masalah dalam tugas ilmu data.
• Kami meningkatkan keterampilan dan efisiensi pengkodean dalam LLM dengan memperkenalkan integrasi alat otomatis untuk pemanfaatan dan pembuatan alat.
• Kami meningkatkan penalaran dengan mengintegrasikan verifikasi dan pengalaman, sehingga meningkatkan akurasi dan efisiensi pemecahan masalah.
• Eksperimen kami menunjukkan bahwa Penerjemah Data kami melampaui tolok ukur yang ada dalam tugas pembelajaran mesin, masalah matematika, dan tugas terbuka, sehingga menetapkan standar baru untuk kinerja.
Makalah ini tersedia di arxiv di bawah lisensi CC BY 4.0 DEED.