autoři:  (1) Chengrun Yang, příspěvek Google DeepMind a Equal;  (2) Xuezhi Wang, Google DeepMind;  (3) Yifeng Lu, Google DeepMind;  (4) Hanxiao Liu, Google DeepMind;  (5) Quoc V. Le, Google DeepMind;  (6) Denny Zhou, Google DeepMind;  (7) Xinyun Chen, příspěvek Google DeepMind a Equal.  Tabulka odkazů   Abstrakt a 1. Úvod   2 Opro: Llm jako optimalizátor a 2.1 Desirables of Optimization od Llms   2.2 Návrh meta-výzvy   3 Motivující příklad: Matematická optimalizace a 3.1 Lineární regrese   3.2 Problém cestujícího obchodníka (TSP)   4 Aplikace: Prompt Optimization a 4.1 Problem Setup   4.2 Návrh meta-výzvy   5 Optimalizační experimenty a 5.1 Nastavení vyhodnocení   5.2 Hlavní výsledky   5.3 Ablační studie   5.4 Analýza předsazení v Prompt Optimization a 5.5 Srovnání s Evoprompt   6 Související práce   7 Závěr, poděkování a odkazy   A Některé případy selhání   B Formáty výzvy pro Scorer Llm   C Meta-výzvy a C.1 Meta-výzva pro matematickou optimalizaci   C.2 Meta-výzva pro optimalizaci výzvy   D Prompt Optimalizační křivky na zbývajících Bbh úlohách   E Prompt Optimization na Bbh Tasks – Tabulkové přesnosti a nalezené instrukce  6 SOUVISEJÍCÍ PRÁCE    Dřívější práce vyvinuly měkké metody ladění výzvy, které optimalizují výzvu reprezentovanou jako kontinuální vektory specifické pro daný úkol (Lester a kol., 2021; Li & Liang, 2021; Liu a kol., 2021; Qin & Eisner, 2021). jako provádění diskrétní okamžité optimalizace pomocí vyhledávání řízeného gradientem (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) a posílení učení (Deng et al., 2022; Zhang a kol., 2023). Tyto přístupy se stanou nepoužitelnými, pokud je k LLM přístup pouze prostřednictvím API. Jiné práce navrhovaly přístupy založené na úpravách pro optimalizaci prompt bez gradientu (Xu a kol., 2022; Prasad a kol., 2022), kde lze úpravy provádět pomocí lidsky definovaných operací (např. záměna dvou frází) (Prasad a kol. , 2022) nebo jazykové modely (např. zpětný překlad) (Xu et al., 2022). Některé nedávné práce zkoumají LLM pro rychlou optimalizaci (Zhou a kol., 2022b; Pryzant a kol., 2023; Xu a kol., 2023). Konkrétně APE (Zhou et al., 2022b) nejprve používá LLM ke generování počátečních instrukcí. Poté APE vybere nejlepší instrukce s nejvyšší přesností a poté vyzve LLM s každou jednotlivou instrukcí, aby vygeneroval sémanticky podobnou variantu počáteční instrukce. APO (Pryzant et al., 2023) v každém kroku instruuje LLM, aby vytvořila textovou zpětnou vazbu o tom, jak aktualizovat starou instrukci. Na rozdíl od přístupů založených na úpravách optimalizátor LLM v naší práci přímo generuje nové instrukce v každém kroku optimalizace a optimalizátor LLM je pouze požádán, aby zlepšil přesnost úlohy, aniž by musel napodobovat minulé instrukce. Ve srovnání se Zhou et al. (2022b) a Pryzant a kol. (2023), náš optimalizační proces zahrnuje minule vygenerované instrukce s jejich skóre v meta-výzvě, což umožňuje optimalizátoru LLM objevit běžné vzorce vysoce kvalitních instrukcí. Rychlá optimalizace.    Nedávná řada práce zkoumá přístupy ke zlepšení výkonu LLM tím, že pomocí zpětné vazby v přirozeném jazyce vyzvete k revizi výstupu modelu, což prokázalo účinnost při snižování škodlivých výstupů LLM (Bai et al., 2022; Ganguli et al., 2023), zlepšení uvažování (Shinn a kol., 2023; Madaan a kol., 2023) a výkon generování kódu (Chen a kol., 2023e; Olausson a kol., 2023; Shinn a kol., 2023; Chen a kol., 2023b), dialogové aplikace (Nair a kol., 2023; Madaan a kol., 2023; Yuan a kol., 2023) a tak dále (Kim a kol., 2023; Wang a kol., 2023). Konkrétně Yuan a kol. (2023) vyvíjí rámec pro odvozování zpětné vazby na úrovni systému ze souboru zpětné vazby na úrovni instance, který se pak používá pro zpřesňování dat. V naší práci optimalizátor LLM využívá trajektorii optimalizace ve výzvě, což implicitně vyžaduje, aby LLM shrnul společné charakteristiky mezi řešeními s podobným skóre. Začlenění explicitní zpětné vazby přirozeného jazyka do generovaných řešení pro pozdější optimalizační kroky považujeme za budoucí práci. Výzva pomocí zpětné vazby přirozeného jazyka.    Některé předchozí práce ladí nebo pobízejí jazykové modely, aby se chovaly jako operátory mutace a křížení v evolučních algoritmech. Meyerson a kol. (2023) využívá jazykové modely s několika málo exempláři k navržení evolučních přechodů na úkoly, jako je generování obrazu a kódu. V Lehman a kol. (2022), velký jazykový model trénovaný na generování kódových rozdílů se používá jako operátor mutace a dále navrhují metodu jemného ladění pro zlepšení výkonu v doméně Sodarace pro simulaci robotů. EvoPrompting (Chen et al., 2023a) používá velké jazykové modely k vývoji architektur neuronových sítí, kde kombinuje evoluční vyhledávání s měkkým rychlým laděním. Pokud jde o převzetí trajektorie jako vstupu pro optimalizaci, OptFormer (Chen et al., 2022) trénuje model transformátoru na velkých sbírkách dat optimalizace hyperparametrů. Na druhou stranu naše práce provádí optimalizaci pouze nabádáním bez dalšího školení. Ladění jazykových modelů pro optimalizaci.  Tento dokument je   pod licencí CC0 1.0 DEED. dostupný na arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Tento zvuk je produkován v původním jazyce příběhu!

Vše, co dnes víme o rychlé optimalizaci

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps