paint-brush
Vše, co dnes víme o rychlé optimalizacipodle@textmodels
904 čtení
904 čtení

Vše, co dnes víme o rychlé optimalizaci

Příliš dlouho; Číst

Tato část shrnuje různé přístupy k okamžité optimalizaci, včetně soft prompt-tuning, diskrétní optimalizace pomocí gradientově řízeného vyhledávání a technik založených na úpravách. Pojednává o použití jazykových modelů při generování a zpřesňování výzev, porovnává metody jako APE a APO a zdůrazňuje integraci zpětné vazby přirozeného jazyka pro zlepšení výkonu LLM. Práce si také všímá role jazykových modelů jako mutačních a crossover operátorů v evolučních algoritmech a zároveň zdůrazňuje jejich jedinečný přístup k optimalizaci výzev bez dalšího školení.
featured image - Vše, co dnes víme o rychlé optimalizaci
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

autoři:

(1) Chengrun Yang, příspěvek Google DeepMind a Equal;

(2) Xuezhi Wang, Google DeepMind;

(3) Yifeng Lu, Google DeepMind;

(4) Hanxiao Liu, Google DeepMind;

(5) Quoc V. Le, Google DeepMind;

(6) Denny Zhou, Google DeepMind;

(7) Xinyun Chen, příspěvek Google DeepMind a Equal.

Tabulka odkazů

Abstrakt a 1. Úvod

2 Opro: Llm jako optimalizátor a 2.1 Desirables of Optimization od Llms

2.2 Návrh meta-výzvy

3 Motivující příklad: Matematická optimalizace a 3.1 Lineární regrese

3.2 Problém cestujícího obchodníka (TSP)

4 Aplikace: Prompt Optimization a 4.1 Problem Setup

4.2 Návrh meta-výzvy

5 Optimalizační experimenty a 5.1 Nastavení vyhodnocení

5.2 Hlavní výsledky

5.3 Ablační studie

5.4 Analýza předsazení v Prompt Optimization a 5.5 Srovnání s Evoprompt

6 Související práce

7 Závěr, poděkování a odkazy

A Některé případy selhání

B Formáty výzvy pro Scorer Llm

C Meta-výzvy a C.1 Meta-výzva pro matematickou optimalizaci

C.2 Meta-výzva pro optimalizaci výzvy

D Prompt Optimalizační křivky na zbývajících Bbh úlohách

E Prompt Optimization na Bbh Tasks – Tabulkové přesnosti a nalezené instrukce

6 SOUVISEJÍCÍ PRÁCE

Rychlá optimalizace. Dřívější práce vyvinuly měkké metody ladění výzvy, které optimalizují výzvu reprezentovanou jako kontinuální vektory specifické pro daný úkol (Lester a kol., 2021; Li & Liang, 2021; Liu a kol., 2021; Qin & Eisner, 2021). jako provádění diskrétní okamžité optimalizace pomocí vyhledávání řízeného gradientem (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) a posílení učení (Deng et al., 2022; Zhang a kol., 2023). Tyto přístupy se stanou nepoužitelnými, pokud je k LLM přístup pouze prostřednictvím API. Jiné práce navrhovaly přístupy založené na úpravách pro optimalizaci prompt bez gradientu (Xu a kol., 2022; Prasad a kol., 2022), kde lze úpravy provádět pomocí lidsky definovaných operací (např. záměna dvou frází) (Prasad a kol. , 2022) nebo jazykové modely (např. zpětný překlad) (Xu et al., 2022). Některé nedávné práce zkoumají LLM pro rychlou optimalizaci (Zhou a kol., 2022b; Pryzant a kol., 2023; Xu a kol., 2023). Konkrétně APE (Zhou et al., 2022b) nejprve používá LLM ke generování počátečních instrukcí. Poté APE vybere nejlepší instrukce s nejvyšší přesností a poté vyzve LLM s každou jednotlivou instrukcí, aby vygeneroval sémanticky podobnou variantu počáteční instrukce. APO (Pryzant et al., 2023) v každém kroku instruuje LLM, aby vytvořila textovou zpětnou vazbu o tom, jak aktualizovat starou instrukci. Na rozdíl od přístupů založených na úpravách optimalizátor LLM v naší práci přímo generuje nové instrukce v každém kroku optimalizace a optimalizátor LLM je pouze požádán, aby zlepšil přesnost úlohy, aniž by musel napodobovat minulé instrukce. Ve srovnání se Zhou et al. (2022b) a Pryzant a kol. (2023), náš optimalizační proces zahrnuje minule vygenerované instrukce s jejich skóre v meta-výzvě, což umožňuje optimalizátoru LLM objevit běžné vzorce vysoce kvalitních instrukcí.


Výzva pomocí zpětné vazby přirozeného jazyka. Nedávná řada práce zkoumá přístupy ke zlepšení výkonu LLM tím, že pomocí zpětné vazby v přirozeném jazyce vyzvete k revizi výstupu modelu, což prokázalo účinnost při snižování škodlivých výstupů LLM (Bai et al., 2022; Ganguli et al., 2023), zlepšení uvažování (Shinn a kol., 2023; Madaan a kol., 2023) a výkon generování kódu (Chen a kol., 2023e; Olausson a kol., 2023; Shinn a kol., 2023; Chen a kol., 2023b), dialogové aplikace (Nair a kol., 2023; Madaan a kol., 2023; Yuan a kol., 2023) a tak dále (Kim a kol., 2023; Wang a kol., 2023). Konkrétně Yuan a kol. (2023) vyvíjí rámec pro odvozování zpětné vazby na úrovni systému ze souboru zpětné vazby na úrovni instance, který se pak používá pro zpřesňování dat. V naší práci optimalizátor LLM využívá trajektorii optimalizace ve výzvě, což implicitně vyžaduje, aby LLM shrnul společné charakteristiky mezi řešeními s podobným skóre. Začlenění explicitní zpětné vazby přirozeného jazyka do generovaných řešení pro pozdější optimalizační kroky považujeme za budoucí práci.


Ladění jazykových modelů pro optimalizaci. Některé předchozí práce ladí nebo pobízejí jazykové modely, aby se chovaly jako operátory mutace a křížení v evolučních algoritmech. Meyerson a kol. (2023) využívá jazykové modely s několika málo exempláři k navržení evolučních přechodů na úkoly, jako je generování obrazu a kódu. V Lehman a kol. (2022), velký jazykový model trénovaný na generování kódových rozdílů se používá jako operátor mutace a dále navrhují metodu jemného ladění pro zlepšení výkonu v doméně Sodarace pro simulaci robotů. EvoPrompting (Chen et al., 2023a) používá velké jazykové modely k vývoji architektur neuronových sítí, kde kombinuje evoluční vyhledávání s měkkým rychlým laděním. Pokud jde o převzetí trajektorie jako vstupu pro optimalizaci, OptFormer (Chen et al., 2022) trénuje model transformátoru na velkých sbírkách dat optimalizace hyperparametrů. Na druhou stranu naše práce provádí optimalizaci pouze nabádáním bez dalšího školení.


Tento dokument je dostupný na arxiv pod licencí CC0 1.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...