Autori:
(1) doprinos Chengrun Yang, Google DeepMind i Equal;
(2) Xuezhi Wang, Google DeepMind;
(3) Yifeng Lu, Google DeepMind;
(4) Hanxiao Liu, Google DeepMind;
(5) Quoc V. Le, Google DeepMind;
(6) Denny Zhou, Google DeepMind;
(7) doprinos Xinyun Chen, Google DeepMind i Equal.
2 Opro: Llm kao optimizator i 2.1 Desirables of Optimization by Llms
3 Motivirajući primjer: Matematička optimizacija i 3.1 Linearna regresija
3.2 Problem trgovačkog putnika (TSP)
4 Aplikacija: Brza optimizacija i 4.1 Postavljanje problema
5 Brzi eksperimenti optimizacije i 5.1 Postavljanje evaluacije
5.4 Analiza preopterećenja u brzoj optimizaciji i 5.5 Poređenje sa Evoprompt-om
7 Zaključak, zahvale i reference
B Formati upitnika za zapisničara Llm
C meta-podaci i C.1 meta-podaci za optimizaciju matematike
C.2 Meta-prompt za brzu optimizaciju
D Krivulje brze optimizacije na preostalim Bbh zadacima
E Prompt Optimization on Bbh Tasks – Tabelarne tačnosti i pronađena uputstva
Brza optimizacija. Prethodni radovi razvili su meke metode podešavanja brzih poruka koje optimizuju prompt predstavljen kao kontinualni vektori specifični za zadatak (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021), takođe kao izvođenje diskretne brze optimizacije pretragom vođenom gradijentom (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) i učenjem s pojačanjem (Deng et al., 2022; Zhang et al., 2023). Ovi pristupi postaju neprimjenjivi kada postoji samo API pristup LLM-u. Drugi radovi su osmislili pristupe zasnovane na uređivanju za brzu optimizaciju bez gradijenta (Xu et al., 2022; Prasad et al., 2022), gdje se uređivanje može obaviti ljudskim definiranim operacijama (npr. zamjenom dvije fraze) (Prasad et al. , 2022) ili jezičke modele (npr. povratni prijevod) (Xu et al., 2022). Neki noviji radovi istražuju LLM za brzu optimizaciju (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Konkretno, APE (Zhou et al., 2022b) prvo koristi LLM za generiranje početnih instrukcija. Nakon toga, APE odabire vrhunske instrukcije s najvećom preciznošću, a zatim traži od LLM-a sa svakom pojedinačnom instrukcijom da generiše semantički sličnu varijantu početne instrukcije. APO (Pryzant et al., 2023) u svakom koraku daje instrukcije LLM-u da proizvede tekstualne povratne informacije o tome kako ažurirati staru instrukciju. Za razliku od pristupa zasnovanog na uređivanju, optimizator LLM u našem radu direktno generiše nove instrukcije na svakom koraku optimizacije, a od LLM optimizatora se samo traži da poboljša tačnost zadatka bez potrebe da imitira prethodne instrukcije. U poređenju sa Zhou et al. (2022b) i Pryzant et al. (2023), naš proces optimizacije uključuje prethodno generisane instrukcije sa njihovim rezultatima u meta-promptu, omogućavajući optimizatoru LLM da otkrije uobičajene obrasce visokokvalitetnih instrukcija.
Podsticanje sa povratnim informacijama na prirodnom jeziku. Nedavna oblast rada istražuje pristupe za poboljšanje performansi LLM podstičući povratne informacije na prirodnom jeziku da se revidira rezultat modela, koji je pokazao djelotvornost u smanjenju štetnih rezultata LLM (Bai et al., 2022; Ganguli et al., 2023), poboljšavajući rasuđivanje (Shinn et al., 2023; Madaan et al., 2023) i performanse generiranja koda (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), aplikacije za dijalog (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023) i tako dalje (Kim et al., 2023; Wang et al., 2023). Konkretno, Yuan et al. (2023) razvija okvir čovjeka u petlji za izvođenje povratnih informacija na nivou sistema iz kolekcije povratnih informacija na nivou instance, koja se zatim koristi za preciziranje podataka. U našem radu optimizator LLM koristi putanju optimizacije u promptu, što implicitno zahtijeva od LLM-a da sumira zajedničke karakteristike među rješenjima sa sličnim rezultatima. Uključivanje eksplicitnih povratnih informacija prirodnog jezika na generisana rješenja za kasnije korake optimizacije smatramo budućim radom.
Podešavanje jezičkih modela za optimizaciju. Neki prethodni radovi podešavaju ili podstiču jezičke modele da se ponašaju kao operatori mutacije i ukrštanja u evolucionim algoritmima. Meyerson et al. (2023) koristi jezičke modele s nekoliko primjera kako bi predložio evolucijska ukrštanja zadataka kao što su generiranje slike i koda. U Lehman et al. (2022), model velikog jezika obučen za generisanje razlike koda koristi se kao operator mutacije, a oni dalje dizajniraju metodu finog podešavanja za poboljšanje performansi u domeni Sodarace za simulaciju robota. EvoPrompting (Chen et al., 2023a) koristi velike jezičke modele da evoluira arhitekturu neuronskih mreža, gdje kombinuju evolucijsku pretragu sa mekim brzim podešavanjem. S obzirom na uzimanje trajektorije kao ulaza za optimizaciju, OptFormer (Chen et al., 2022) trenira model transformatora na velikim zbirkama podataka optimizacije hiperparametara. S druge strane, naš rad vrši optimizaciju isključivo navođenjem bez dodatne obuke.
Ovaj rad je dostupan na arxiv pod licencom CC0 1.0 DEED.