Pengarang:
(1) Chengrun Yang, Google DeepMind dan sumbangan Equal;
(2) Xuezhi Wang, Google DeepMind;
(3) Yifeng Lu, Google DeepMind;
(4) Hanxiao Liu, Google DeepMind;
(5) Quoc V. Le, Google DeepMind;
(6) Denny Zhou, Google DeepMind;
(7) Xinyun Chen, Google DeepMind dan sumbangan Equal.
2 Opro: Llm sebagai Pengoptimum dan 2.1 Kehendak Pengoptimuman oleh Llms
3 Contoh Memotivasi: Pengoptimuman Matematik dan 3.1 Regresi Linear
3.2 Masalah Jurujual Perjalanan (TSP)
4 Aplikasi: Pengoptimuman Segera dan 4.1 Penyediaan Masalah
5 Eksperimen Pengoptimuman Segera dan 5.1 Persediaan Penilaian
5.4 Analisis Overfitting dalam Pengoptimuman Segera dan 5.5 Perbandingan dengan Evoprompt
7 Kesimpulan, Pengakuan dan Rujukan
B Format Gesaan untuk Penjaring Llm
C Meta-Prompts dan C.1 Meta-Prompt untuk Pengoptimuman Matematik
C.2 Meta-Prompt untuk Pengoptimuman Segera
D Keluk Pengoptimuman Segera pada Tugasan Bbh yang Selebihnya
E Pengoptimuman Segera pada Tugasan Bbh – Ketepatan Jadual dan Arahan Ditemui
Pengoptimuman segera. Kerja-kerja terdahulu telah membangunkan kaedah penalaan segera lembut yang mengoptimumkan gesaan yang diwakili sebagai vektor berterusan khusus tugasan (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021), serta sebagai melakukan pengoptimuman segera diskret oleh carian berpandukan kecerunan (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) dan pembelajaran pengukuhan (Deng et al., 2022; Zhang et al., 2023). Pendekatan ini menjadi tidak boleh digunakan apabila hanya terdapat akses API kepada LLM. Kerja-kerja lain mereka bentuk pendekatan berasaskan suntingan untuk pengoptimuman segera tanpa kecerunan (Xu et al., 2022; Prasad et al., 2022), di mana penyuntingan boleh dilakukan dengan operasi takrif manusia (cth, menukar dua frasa) (Prasad et al. , 2022) atau model bahasa (cth, terjemahan belakang) (Xu et al., 2022). Beberapa kerja baru-baru ini menyiasat LLM untuk pengoptimuman segera (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Khususnya, APE (Zhou et al., 2022b) mula-mula menggunakan LLM untuk menjana arahan awal. Selepas itu, APE memilih arahan teratas dengan ketepatan tertinggi, kemudian menggesa LLM dengan setiap arahan individu untuk menjana varian yang serupa secara semantik bagi arahan awal. APO (Pryzant et al., 2023) dalam setiap langkah mengarahkan LLM untuk menghasilkan maklum balas teks tentang cara mengemas kini arahan lama. Berbeza daripada pendekatan berasaskan edit, LLM pengoptimum dalam kerja kami secara langsung menjana arahan baharu pada setiap langkah pengoptimuman, dan LLM pengoptimum hanya diminta untuk meningkatkan ketepatan tugas tanpa perlu meniru arahan yang lalu. Berbanding dengan Zhou et al. (2022b) dan Pryzant et al. (2023), proses pengoptimuman kami menggabungkan arahan yang dijana masa lalu dengan markahnya dalam meta-prompt, membolehkan LLM pengoptimum menemui corak biasa arahan berkualiti tinggi.
Mendorong dengan maklum balas bahasa semula jadi. Barisan kerja baru-baru ini menyiasat pendekatan untuk meningkatkan prestasi LLM dengan mendorong dengan maklum balas bahasa semula jadi untuk menyemak semula output model, yang telah menunjukkan keberkesanan dalam mengurangkan output LLM yang berbahaya (Bai et al., 2022; Ganguli et al., 2023), meningkatkan penaakulan (Shinn et al., 2023; Madaan et al., 2023) dan prestasi penjanaan kod (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), aplikasi dialog (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023), dan seterusnya (Kim et al., 2023; Wang et al., 2023). Secara khusus, Yuan et al. (2023) membangunkan rangka kerja manusia-dalam-gelung untuk memperoleh maklum balas peringkat sistem daripada koleksi maklum balas peringkat contoh, yang kemudiannya digunakan untuk memperhalusi data. Dalam kerja kami, LLM pengoptimum menggunakan trajektori pengoptimuman dalam gesaan, yang secara tersirat memerlukan LLM untuk meringkaskan ciri sepunya antara penyelesaian dengan skor yang serupa. Kami mempertimbangkan untuk memasukkan maklum balas bahasa semula jadi yang eksplisit tentang penyelesaian yang dijana untuk langkah pengoptimuman kemudian sebagai kerja masa hadapan.
Menala model bahasa untuk pengoptimuman. Beberapa kerja terdahulu menala atau menggesa model bahasa untuk berkelakuan sebagai pengendali mutasi dan silang dalam algoritma evolusi. Meyerson et al. (2023) menggunakan model bahasa dengan contoh beberapa gambar untuk mencadangkan persilangan evolusi pada tugas seperti penjanaan imej dan kod. Dalam Lehman et al. (2022), model bahasa besar yang dilatih mengenai penjanaan perbezaan kod digunakan sebagai pengendali mutasi, dan mereka seterusnya mereka bentuk kaedah penalaan halus untuk meningkatkan prestasi dalam domain Sodarace untuk simulasi robot. EvoPrompting (Chen et al., 2023a) menggunakan model bahasa yang besar untuk mengembangkan seni bina rangkaian saraf, di mana mereka menggabungkan carian evolusi dengan penalaan segera yang lembut. Berkenaan dengan mengambil trajektori sebagai input untuk pengoptimuman, OptFormer (Chen et al., 2022) melatih model pengubah pada koleksi besar data pengoptimuman hiperparameter. Sebaliknya, kerja kami melakukan pengoptimuman semata-mata dengan menggesa tanpa latihan tambahan.
Kertas kerja ini boleh didapati di arxiv di bawah lesen CC0 1.0 DEED.