Pöytä vasemmalla Abstrakti ja 1. Johdanto Liittyvät teokset Alustavaa Q*: Yleinen, monipuolinen ja ketterä harkintapuite LLM: lle Kokeilua Päätelmät ja viittaukset 3 Alustava 3.1 Formulate the Multi-step Reasoning of LLMs as an MDP 3.2 A* Search A* [30] on tärkeä heuristinen hakualgoritmi deliberatiivisessa suunnittelussa [38], moniaagenttien polkujen löytämisessä [39] ja rajoitusperusteiden perustelemisessa [40]. Alun perin A* ehdotettiin lyhyimmän polun löytämiseksi lähteestä s tavoitteeseen g polkujen suunnittelun ongelmissa. Se yhdistää jokaisen rajan kärjessä n arvon f(n) = g(n) + h(n), jossa g(n) on kertynyt polun kustannus lähteestä s ja h(n) on heuristinen arvo, joka arvioi lyhyimmän polun kustannukset n: stä tavoitteeseen g. Algoritmi hyväksyy parhaan ensimmäisen hakustrategian, ts. jokaisessa iteraatiossa se aina valitsee kärjessä pienimmän f-arvon 4 Q*: Yleinen, monipuolinen ja ketterä harkintapuite LLM: lle Useimmat nykyaikaiset LLM: t tuottavat luonnollisia kieliä automaattisesti regressiivisella tavalla, eli ennustavat seuraavaa tokenia järjestyksessä, joka on annettu aikaisemmin luotujen tokenien mukaan (ks. kohta (2)). Siksi, kun sitä sovelletaan monivaiheiseen päättelyyn, LLM: t voivat mahdollisesti tuoda virheitä, hallusinaatioita ja epäjohdonmukaisia lausuntoja myöhempään päättelyyn, jos jokin aikaisempi vaihe on virheellinen, mikä voi epäonnistua nykyisen ongelman ratkaisemisessa. 4.1 Estimation of Optimal Q-value 4.2 Deliberative Planning with A* Kirjoittajat : (1) Chaojie Wang*, Skywork AI (2) Yanchen Deng*, Nanyangin teknillinen yliopisto (3) Zhiyi Lyu, Nanyangin teknillinen yliopisto (4) Liang Zeng, Skywork AI 5) Jujie He, Skywork AI Authors: (1) Chaojie Wang*, Skywork AI (2) Yanchen Deng*, Nanyangin teknillinen yliopisto (3) Zhiyi Lyu, Nanyangin teknillinen yliopisto (4) Liang Zeng, Skywork AI 5) Jujie He, Skywork AI Tämä artikkeli on saatavilla arkivissä CC BY 4.0 -lisenssillä. Tämä paperi on Käyttöoikeus on CC BY 4.0. Saatavilla arkistoinnissa Saatavilla arkistoinnissa