autoři:
(1) Chengrun Yang, příspěvek Google DeepMind a Equal;
(2) Xuezhi Wang, Google DeepMind;
(3) Yifeng Lu, Google DeepMind;
(4) Hanxiao Liu, Google DeepMind;
(5) Quoc V. Le, Google DeepMind;
(6) Denny Zhou, Google DeepMind;
(7) Xinyun Chen, příspěvek Google DeepMind a Equal.
2 Opro: Llm jako optimalizátor a 2.1 Desirables of Optimization od Llms
3 Motivující příklad: Matematická optimalizace a 3.1 Lineární regrese
3.2 Problém cestujícího obchodníka (TSP)
4 Aplikace: Prompt Optimization a 4.1 Problem Setup
5 Optimalizační experimenty a 5.1 Nastavení vyhodnocení
5.4 Analýza předsazení v Prompt Optimization a 5.5 Srovnání s Evoprompt
B Formáty výzvy pro Scorer Llm
C Meta-výzvy a C.1 Meta-výzva pro matematickou optimalizaci
C.2 Meta-výzva pro optimalizaci výzvy
D Prompt Optimalizační křivky na zbývajících Bbh úlohách
E Prompt Optimization na Bbh Tasks – Tabulkové přesnosti a nalezené instrukce
Rychlá optimalizace. Dřívější práce vyvinuly měkké metody ladění výzvy, které optimalizují výzvu reprezentovanou jako kontinuální vektory specifické pro daný úkol (Lester a kol., 2021; Li & Liang, 2021; Liu a kol., 2021; Qin & Eisner, 2021). jako provádění diskrétní okamžité optimalizace pomocí vyhledávání řízeného gradientem (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) a posílení učení (Deng et al., 2022; Zhang a kol., 2023). Tyto přístupy se stanou nepoužitelnými, pokud je k LLM přístup pouze prostřednictvím API. Jiné práce navrhovaly přístupy založené na úpravách pro optimalizaci prompt bez gradientu (Xu a kol., 2022; Prasad a kol., 2022), kde lze úpravy provádět pomocí lidsky definovaných operací (např. záměna dvou frází) (Prasad a kol. , 2022) nebo jazykové modely (např. zpětný překlad) (Xu et al., 2022). Některé nedávné práce zkoumají LLM pro rychlou optimalizaci (Zhou a kol., 2022b; Pryzant a kol., 2023; Xu a kol., 2023). Konkrétně APE (Zhou et al., 2022b) nejprve používá LLM ke generování počátečních instrukcí. Poté APE vybere nejlepší instrukce s nejvyšší přesností a poté vyzve LLM s každou jednotlivou instrukcí, aby vygeneroval sémanticky podobnou variantu počáteční instrukce. APO (Pryzant et al., 2023) v každém kroku instruuje LLM, aby vytvořila textovou zpětnou vazbu o tom, jak aktualizovat starou instrukci. Na rozdíl od přístupů založených na úpravách optimalizátor LLM v naší práci přímo generuje nové instrukce v každém kroku optimalizace a optimalizátor LLM je pouze požádán, aby zlepšil přesnost úlohy, aniž by musel napodobovat minulé instrukce. Ve srovnání se Zhou et al. (2022b) a Pryzant a kol. (2023), náš optimalizační proces zahrnuje minule vygenerované instrukce s jejich skóre v meta-výzvě, což umožňuje optimalizátoru LLM objevit běžné vzorce vysoce kvalitních instrukcí.
Výzva pomocí zpětné vazby přirozeného jazyka. Nedávná řada práce zkoumá přístupy ke zlepšení výkonu LLM tím, že pomocí zpětné vazby v přirozeném jazyce vyzvete k revizi výstupu modelu, což prokázalo účinnost při snižování škodlivých výstupů LLM (Bai et al., 2022; Ganguli et al., 2023), zlepšení uvažování (Shinn a kol., 2023; Madaan a kol., 2023) a výkon generování kódu (Chen a kol., 2023e; Olausson a kol., 2023; Shinn a kol., 2023; Chen a kol., 2023b), dialogové aplikace (Nair a kol., 2023; Madaan a kol., 2023; Yuan a kol., 2023) a tak dále (Kim a kol., 2023; Wang a kol., 2023). Konkrétně Yuan a kol. (2023) vyvíjí rámec pro odvozování zpětné vazby na úrovni systému ze souboru zpětné vazby na úrovni instance, který se pak používá pro zpřesňování dat. V naší práci optimalizátor LLM využívá trajektorii optimalizace ve výzvě, což implicitně vyžaduje, aby LLM shrnul společné charakteristiky mezi řešeními s podobným skóre. Začlenění explicitní zpětné vazby přirozeného jazyka do generovaných řešení pro pozdější optimalizační kroky považujeme za budoucí práci.
Ladění jazykových modelů pro optimalizaci. Některé předchozí práce ladí nebo pobízejí jazykové modely, aby se chovaly jako operátory mutace a křížení v evolučních algoritmech. Meyerson a kol. (2023) využívá jazykové modely s několika málo exempláři k navržení evolučních přechodů na úkoly, jako je generování obrazu a kódu. V Lehman a kol. (2022), velký jazykový model trénovaný na generování kódových rozdílů se používá jako operátor mutace a dále navrhují metodu jemného ladění pro zlepšení výkonu v doméně Sodarace pro simulaci robotů. EvoPrompting (Chen et al., 2023a) používá velké jazykové modely k vývoji architektur neuronových sítí, kde kombinuje evoluční vyhledávání s měkkým rychlým laděním. Pokud jde o převzetí trajektorie jako vstupu pro optimalizaci, OptFormer (Chen et al., 2022) trénuje model transformátoru na velkých sbírkách dat optimalizace hyperparametrů. Na druhou stranu naše práce provádí optimalizaci pouze nabádáním bez dalšího školení.
Tento dokument je dostupný na arxiv pod licencí CC0 1.0 DEED.