Аўтары:
(1) Чжан Лінг, Каліфарнійскі ўніверсітэт у Сан-Дыега і роўны ўклад;
(2) Юньхао Фанг, Каліфарнійскі ўніверсітэт у Сан-Дыега і роўны ўклад;
(3) Сюаньлінь Лі, Каліфарнійскі ўніверсітэт у Сан-Дыега;
(4) Чжао Хуан, Каліфарнійскі ўніверсітэт у Сан-Дыега;
(5) Мінгу Лі, Qualcomm AI Research і Qualcomm AI Research
(6) Роланд Мемісевіч, Qualcomm AI Research;
(7) Хао Су, UC San Diego.
Матывацыя і пастаноўка праблемы
Развагі па ланцужку думак, якія паддаюцца дэдуктыўнай праверцы
Заключэнне, падзяка і спасылка
Дэдуктыўная праверка з дапамогай мадэляў Vicuna
C Больш падрабязна пра выманне адказу
E Больш прыкладаў дэдуктыўнай праверкі
Разважанне з дапамогай вялікіх моўных мадэляў. Нядаўнія вялікія моўныя мадэлі (LLM) [3, 8, 57, 47, 38, 18, 9, 37] паказалі неверагодную здольнасць у вырашэнні складаных задач мыслення. Замест таго, каб дазваляць магістрам непасрэдна генераваць канчатковыя адказы ў якасці выходных дадзеных, папярэдняя праца паказала, што, заахвочваючы пакрокавыя развагі праз належныя падказкі, такія як падказкі па ланцужку думак (CoT) [50] і многія іншыя [21, 59, 58, 44, 48, 60, 25, 54], LLM дэманструюць значна лепшую прадукцыйнасць у розных задачах мыслення. Для далейшага паляпшэння працэсу паэтапнага разважання некаторыя нядаўнія даследаванні даследавалі выкарыстанне знешніх вырашальнікаў, такіх як праграмныя інтэрпрэтатары [39, 5, 27], навучанне і выклік знешніх модуляў разважанняў [11] або выкананне відавочнага пошуку для стварэння дэдуктыўных крокаў. [2, 46]. Паралельна з гэтымі працамі, мы не належым на знешнія модулі і алгарытмы, і мы непасрэдна выкарыстоўваем кантэкстную здольнасць навучання LLMs для стварэння больш дакладных і строгіх дэдуктыўных разважанняў.
Вялікія моўныя мадэлі як верыфікатары. Выкарыстанне моўных мадэляў для ацэнкі пакаленняў мадэляў было даўняй ідэяй [22, 36, 40, 4]. Паколькі LLM дэманструюць уражлівыя магчымасці для розных задач, становіцца натуральнай ідэяй выкарыстоўваць LLM як інструменты ацэнкі і праверкі. Напрыклад, [10, 11, 33] тонка наладзіць LLM для праверкі рашэнняў і прамежкавых этапаў. LLM, узгодненыя з RLHF [32, 31, 48], таксама выкарыстоўваліся для параўнання розных пакаленняў мадэляў. Акрамя таго, нядаўнія працы, такія як [43, 52, 28, 6], выкарыстоўваюць дызайн падказкі, каб дазволіць LLM самастойна правяраць, самастойна ўдасканальваць і самастойна адладжваць без неабходнасці тонкай налады. Аднак гэтыя працы не засяроджваюцца на строгасці і надзейнасці працэсаў дэдуктыўнага разважання на кожным этапе разважання. У гэтай працы мы прапануем заснаваны на натуральнай мове фармат дэдуктыўнага разважання, які дазваляе магістрам права правяраць кожны прамежкавы этап працэсу дэдуктыўнага разважання, тым самым паляпшаючы строгасць і даверлівасць разважанняў.
Акрамя таго, у той час як некаторыя нядаўнія працы [12, 53, 15, 34] прапанавалі метады праверкі асобных крокаў у працэсе развагі, наш падыход адрозніваецца ад гэтых работ наступнымі пунктамі гледжання: (1) Наш падыход выкарыстоўвае кантэкстнае навучанне для дасягнення праверка аргументацыі без неабходнасці тонкай налады моўнай мадэлі. (2) Наш падыход да праверкі LLM, заснаваны на натуральнай праграме, не толькі вызначае недапушчальныя этапы развагі, але таксама дае відавочныя тлумачэнні, чаму яны несапраўдныя, з падрабязным апісаннем канкрэтных памылак у разважанні. (3) Наш падыход да аргументацыі і праверкі, заснаваны на натуральнай праграме, сумяшчальны з задачамі абстрактнага разважання ў кантэксце, у якіх этапы разважання не маюць структур, падобных да доказу. Напрыклад, наш падыход сумяшчальны з задачай "Апошнія літары", дзе LLM атрымлівае інструкцыю выводзіць канкатэнацыю апошніх літар усіх слоў у паслядоўнасці ў якасці канчатковага адказу. (4) Падыход нашай натуральнай праграмы дазваляе выкарыстоўваць разумныя веды, якія не пазначаны ў памяшканні. Напрыклад, разгледзім такую праблему: «Марына з'ядае 4 яблыка ў дзень. Колькі яблыкаў ён з'ядае ў лістападзе?» Нягледзячы на тое, што «лістапад мае 30 дзён» не пазначана ў памяшканні, Natural Program дазваляе выкарыстоўваць такія агульныя веды ў рамках этапу развагі. Наш працэс праверкі ў кантэксце таксама здольны апрацоўваць гэтыя няяўныя памяшканні (напрыклад, калі LLM выдае «Лістапад мае 29 дзён» на этапе аргументацыі, гэта будзе пазначана як несапраўднае).
Гэты дакумент даступны на arxiv пад ліцэнзіяй CC BY 4.0 DEED.