ავტორები:
(1) Zhan Ling, UC San Diego და თანაბარი წვლილი;
(2) Yunhao Fang, UC San Diego და თანაბარი წვლილი;
(3) Xuanlin Li, UC San Diego;
(4) Zhiao Huang, UC San Diego;
(5) მინგუ ლი, Qualcomm AI Research და Qualcomm AI Research
(6) როლანდ მემიშევიჩი, Qualcomm AI Research;
(7) ჰაო სუ, UC სან დიეგო.
მოტივაცია და პრობლემის ფორმულირება
დედუქციურად გადამოწმებადი აზროვნების ჯაჭვის მსჯელობა
დასკვნა, მადლიერება და ცნობები
დედუქციური გადამოწმება Vicuna მოდელებით
C მეტი დეტალები პასუხების ამოღების შესახებ
E სხვა დედუქციური გადამოწმების მაგალითები
მსჯელობა დიდი ენობრივი მოდელებით. ბოლოდროინდელმა დიდმა ენობრივმა მოდელებმა (LLMs) [3, 8, 57, 47, 38, 18, 9, 37] აჩვენა წარმოუდგენელი უნარი რთული მსჯელობის ამოცანების გადაჭრაში. იმის ნაცვლად, რომ LLM-ებმა პირდაპირ გამოიმუშაონ საბოლოო პასუხები, როგორც შედეგი, წინა სამუშაოებმა აჩვენა, რომ ნაბიჯ-ნაბიჯ მსჯელობის წახალისებით სათანადო მოთხოვნის საშუალებით, როგორიცაა Chain-of-Thought (CoT) მოთხოვნა [50] და მრავალი სხვა [21, 59, 58, 44, 48, 60, 25, 54], LLM-ები აჩვენებენ მნიშვნელოვნად უკეთეს შესრულებას სხვადასხვა მსჯელობის ამოცანებში. ნაბიჯ-ნაბიჯ მსჯელობის პროცესის შემდგომი გასაუმჯობესებლად, ზოგიერთმა უახლესმა კვლევამ გამოიკვლია გარე ამომხსნელების გამოყენება, როგორიცაა პროგრამის თარჯიმნები [39, 5, 27], სწავლება და მსჯელობის გარე მოდულების გამოძახება [11], ან აშკარა ძიების შესრულება დედუქციური ნაბიჯების შესაქმნელად. [2, 46]. ამ სამუშაოების პარალელურად, ჩვენ არ ვეყრდნობით გარე მოდულებსა და ალგორითმებს და პირდაპირ ვიყენებთ LLM-ების კონტექსტში სწავლის უნარს უფრო ზუსტი და მკაცრი დედუქციური მსჯელობის შესაქმნელად.
დიდი ენობრივი მოდელები, როგორც ვერიფიკატორები. ენობრივი მოდელების გამოყენება მოდელის თაობების შესაფასებლად იყო დიდი ხნის იდეა [22, 36, 40, 4]. იმის გამო, რომ LLM-ები ავლენენ შთამბეჭდავ შესაძლებლობებს სხვადასხვა ამოცანებში, ბუნებრივი იდეა ხდება LLM-ების გამოყენება შეფასებისა და გადამოწმების ინსტრუმენტებად. მაგალითად, [10, 11, 33] დააზუსტეთ LLM-ები გადაწყვეტილებებისა და შუალედური ნაბიჯების შესამოწმებლად. LLM-ები, რომლებიც შეესაბამება RLHF-ს [32, 31, 48] ასევე გამოიყენეს სხვადასხვა მოდელის თაობის შესადარებლად. გარდა ამისა, ბოლოდროინდელმა ნამუშევრებმა, როგორიცაა [43, 52, 28, 6] გამოიყენეს სწრაფი დიზაინი, რათა LLM-ებს საშუალება მისცენ თვითდამოწმება, თვითდახვეწა და თვითგამართვა დაზუსტების საჭიროების გარეშე. თუმცა, ეს ნაშრომები არ ამახვილებს ყურადღებას დედუქციური მსჯელობის პროცესების სიმკაცრესა და სანდოობაზე ყოველი მსჯელობის საფეხურზე. ამ ნაშრომში, ჩვენ ვთავაზობთ ბუნებრივ ენაზე დაფუძნებულ დედუქციურ მსჯელობის ფორმატს, რომელიც საშუალებას აძლევს LLM-ებს თვითდამოწმების დედუქციური მსჯელობის პროცესის ყოველი შუალედური ეტაპი, რითაც გააუმჯობესებს მსჯელობის სიმკაცრეს და სანდოობას.
გარდა ამისა, მიუხედავად იმისა, რომ ზოგიერთმა უახლესმა ნაშრომმა [12, 53, 15, 34] შესთავაზა მეთოდები მსჯელობის პროცესში ცალკეული ნაბიჯების გადამოწმების მიზნით, ჩვენი მიდგომა განასხვავებს ამ ნამუშევრებს შემდეგი პერსპექტივებით: (1) ჩვენი მიდგომა იყენებს კონტექსტში სწავლის მიღწევას. მსჯელობის შემოწმება, ენის მოდელის დაზუსტების საჭიროების გარეშე. (2) ჩვენი ბუნებრივ პროგრამაზე დაფუძნებული LLM გადამოწმების მიდგომა არა მხოლოდ განსაზღვრავს არასწორი მსჯელობის საფეხურებს, არამედ ასევე იძლევა მკაფიო ახსნას, თუ რატომ არის ისინი არასწორი, დეტალურად აღწერს კონკრეტულ მსჯელობის შეცდომებს. (3) ჩვენი ბუნებრივ პროგრამაზე დაფუძნებული მსჯელობისა და გადამოწმების მიდგომა თავსებადია კონტექსტურ აბსტრაქტულ მსჯელობის ამოცანებთან, სადაც მსჯელობის საფეხურებს არ გააჩნიათ მტკიცებულების მსგავსი შემადგენელი სტრუქტურები. მაგალითად, ჩვენი მიდგომა თავსებადია ბოლო ასოების ამოცანასთან, სადაც LLM-ს ევალება გამოატანოს ყველა სიტყვის ბოლო ასოების თანმიმდევრობა, როგორც საბოლოო პასუხი. (4) ჩვენი ბუნებრივი პროგრამის მიდგომა იძლევა საღი აზრის ცოდნის გამოყენების საშუალებას, რომელიც აშკარად არ არის ჩამოთვლილი შენობებში. მაგალითად, განიხილეთ ეს პრობლემა: „მარინი დღეში 4 ვაშლს ჭამს. რამდენ ვაშლს ჭამს ის ნოემბერში? მიუხედავად იმისა, რომ „ნოემბერს აქვს 30 დღე“ აშკარად არ არის ჩამოთვლილი შენობაში, ბუნებრივი პროგრამა იძლევა ამგვარი საერთო ცოდნის გამოყენებას მსჯელობის საფეხურზე. ჩვენი კონტექსტური გადამოწმების პროცესს ასევე შეუძლია დამუშავდეს ეს იმპლიციტური ნაგებობები (მაგ., თუ LLM გამოაქვს „ნოემბერს აქვს 29 დღე“ მსჯელობის ეტაპზე, ის მოინიშნება, როგორც არასწორი).
ეს ნაშრომი ხელმისაწვდომია arxiv-ზე CC BY 4.0 DEED ლიცენზიით.