Skrywers:
(1) Chengrun Yang, Google DeepMind en Equal-bydrae;
(2) Xuezhi Wang, Google DeepMind;
(3) Yifeng Lu, Google DeepMind;
(4) Hanxiao Liu, Google DeepMind;
(5) Quoc V. Le, Google DeepMind;
(6) Denny Zhou, Google DeepMind;
(7) Xinyun Chen, Google DeepMind en gelyke bydrae.
2 Opro: Llm as die optimaliseerder en 2.1 wenslikhede van optimalisering deur Llms
3 Motiverende Voorbeeld: Wiskundige Optimalisering en 3.1 Lineêre regressie
3.2 Reisende verkoopsmanprobleem (TSP)
4 Toepassing: Vinnige optimering en 4.1 Probleemopstelling
5 Vinnige optimeringseksperimente en 5.1 Evaluasie-opstelling
5.4 Oorpasanalise in vinnige optimalisering en 5.5 Vergelyking met Evoprompt
7 Gevolgtrekking, erkennings en verwysings
B Aansporingsformate vir puntemaker Llm
C Meta-aanwysings en C.1 Meta-aanwysings vir Wiskunde-optimering
C.2 Meta-aanvraag vir vinnige optimalisering
D Vinnige optimaliseringskurwes op die oorblywende Bbh-take
E Vinnige Optimalisering van Bbh-take – Getabelleerde akkuraatheid en gevonde instruksies
Vinnige optimalisering. Vorige werke het sagte vinnige-instellingsmetodes ontwikkel wat die aansporing wat as taakspesifieke kontinue vektore voorgestel word, ook optimaliseer (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021). as die uitvoering van diskrete vinnige optimalisering deur gradiëntgeleide soektog (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) en versterkingsleer (Deng et al., 2022; Zhang et al., 2023). Hierdie benaderings word ontoepasbaar wanneer daar slegs API-toegang tot die LLM is. Ander werke het redigeergebaseerde benaderings ontwerp vir gradiëntvrye vinnige optimalisering (Xu et al., 2022; Prasad et al., 2022), waar die redigering gedoen kan word met mensgedefinieerde bewerkings (bv. om twee frases om te ruil) (Prasad et al. , 2022) of taalmodelle (bv. terugvertaling) (Xu et al., 2022). Sommige onlangse werke ondersoek LLM's vir vinnige optimalisering (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Spesifiek, APE (Zhou et al., 2022b) gebruik eers die LLM om aanvanklike instruksies te genereer. Daarna kies APE top-instruksies met die hoogste akkuraatheid, en vra dan die LLM met elke individuele instruksie om 'n semanties soortgelyke variant van die aanvanklike instruksie te genereer. APO (Pryzant et al., 2023) gee in elke stap die LLM opdrag om teksterugvoer te lewer oor hoe om 'n ou instruksie by te werk. Anders as redigeergebaseerde benaderings, genereer die optimeerder LLM in ons werk direk nuwe instruksies by elke optimeringstap, en die optimizer LLM word bloot gevra om die taakakkuraatheid te verbeter sonder dat dit vereis word om vorige instruksies na te boots. In vergelyking met Zhou et al. (2022b) en Pryzant et al. (2023), inkorporeer ons optimaliseringsproses die instruksies wat in die verlede gegenereer is, met hul tellings in die meta-prompt, wat die optimaliseerder LLM in staat stel om algemene patrone van hoëgehalte-instruksies te ontdek.
Aansporing met natuurlike taal terugvoer. 'n Onlangse werklyn ondersoek benaderings om die LLM-prestasie te verbeter deur met natuurlike taal-terugvoer aan te spoor om die modeluitset te hersien, wat doeltreffendheid getoon het om skadelike LLM-uitsette te verminder (Bai et al., 2022; Ganguli et al., 2023), wat verbeter het. redenering (Shinn et al., 2023; Madaan et al., 2023) en kodegenereringprestasie (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), dialoogtoepassings (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023), ensovoorts (Kim et al., 2023; Wang et al., 2023). Spesifiek, Yuan et al. (2023) ontwikkel 'n mens-in-die-lus-raamwerk vir die afleiding van stelselvlak-terugvoer uit 'n versameling instansievlak-terugvoer, wat dan gebruik word om data te verfyn. In ons werk gebruik die optimaliseerder LLM die optimaliseringstrajek in die prompt, wat implisiet vereis dat die LLM die algemene kenmerke onder oplossings met soortgelyke tellings opsom. Ons oorweeg dit om eksplisiete natuurlike taalterugvoer oor gegenereerde oplossings vir latere optimaliseringstappe as toekomstige werk in te sluit.
Stem taalmodelle vir optimalisering. Sommige vorige werke stem of laat taalmodelle aanspoor om op te tree as mutasie- en oorkruisoperateurs in evolusionêre algoritmes. Meyerson et al. (2023) gebruik taalmodelle met voorbeelde van 'n paar skoot om evolusionêre oorkruisings op take soos beeld- en kodegenerering voor te stel. In Lehman et al. (2022), word die groot taalmodel wat opgelei is op kode verskilgenerering as die mutasie-operateur gebruik, en hulle ontwerp verder 'n fyninstellingsmetode om werkverrigting in die Sodarace-domein vir robotsimulasie te verbeter. EvoPrompting (Chen et al., 2023a) gebruik groot taalmodelle om neurale netwerkargitekture te ontwikkel, waar hulle evolusionêre soektog kombineer met sagte vinnige afstemming. Met betrekking tot die neem van die trajek as die inset vir optimalisering, lei OptFormer (Chen et al., 2022) 'n transformatormodel op op groot versamelings van hiperparameteroptimeringsdata. Aan die ander kant voer ons werk optimalisering uit slegs deur aansporing sonder bykomende opleiding.
Hierdie vraestel is beskikbaar op arxiv onder CC0 1.0 AKTE-lisensie.