paint-brush
ხელოვნური ინტელექტის ჰალუცინაციის პრობლემის გადაჭრა თვითდამოწმებული ბუნებრივი პროგრამებითმიერ@cosmological
146 საკითხავი

ხელოვნური ინტელექტის ჰალუცინაციის პრობლემის გადაჭრა თვითდამოწმებული ბუნებრივი პროგრამებით

Ძალიან გრძელი; Წაკითხვა

ბუნებრივი პროგრამა აძლიერებს LLM-ების სანდოობას მსჯელობის პროცესის ყოველი ნაბიჯის შემოწმებით. სხვა მეთოდებისგან განსხვავებით, ის იყენებს კონტექსტურ სწავლებას, სთავაზობს მკაცრ ახსნას შეცდომებზე და თავსებადია აბსტრაქტული მსჯელობის ამოცანებთან. ეს აუმჯობესებს ხელოვნური ინტელექტის უნარს თვითდამოწმებისა და მსჯელობის დახვეწის გარეშე გარე ამომხსნელებისა და დაზუსტების გარეშე.
featured image - ხელოვნური ინტელექტის ჰალუცინაციის პრობლემის გადაჭრა თვითდამოწმებული ბუნებრივი პროგრამებით
Cosmological thinking: time, space and universal causation  HackerNoon profile picture
0-item

ავტორები:

(1) Zhan Ling, UC San Diego და თანაბარი წვლილი;

(2) Yunhao Fang, UC San Diego და თანაბარი წვლილი;

(3) Xuanlin Li, UC San Diego;

(4) Zhiao Huang, UC San Diego;

(5) მინგუ ლი, Qualcomm AI Research და Qualcomm AI Research

(6) როლანდ მემიშევიჩი, Qualcomm AI Research;

(7) ჰაო სუ, UC სან დიეგო.

ბმულების ცხრილი

რეზიუმე და შესავალი

დაკავშირებული სამუშაო

მოტივაცია და პრობლემის ფორმულირება

დედუქციურად გადამოწმებადი აზროვნების ჯაჭვის მსჯელობა

ექსპერიმენტები

შეზღუდვები

დასკვნა, მადლიერება და ცნობები


დედუქციური გადამოწმება Vicuna მოდელებით

B მეტი დისკუსია დედუქციური გადამოწმების სიზუსტის გაუმჯობესების შესახებ საბოლოო პასუხის სისწორის გაუმჯობესების წინააღმდეგ

C მეტი დეტალები პასუხების ამოღების შესახებ

D მოთხოვნა

E სხვა დედუქციური გადამოწმების მაგალითები

2 დაკავშირებული სამუშაო

მსჯელობა დიდი ენობრივი მოდელებით. ბოლოდროინდელმა დიდმა ენობრივმა მოდელებმა (LLMs) [3, 8, 57, 47, 38, 18, 9, 37] აჩვენა წარმოუდგენელი უნარი რთული მსჯელობის ამოცანების გადაჭრაში. იმის ნაცვლად, რომ LLM-ებმა პირდაპირ გამოიმუშაონ საბოლოო პასუხები, როგორც შედეგი, წინა სამუშაოებმა აჩვენა, რომ ნაბიჯ-ნაბიჯ მსჯელობის წახალისებით სათანადო მოთხოვნის საშუალებით, როგორიცაა Chain-of-Thought (CoT) მოთხოვნა [50] და მრავალი სხვა [21, 59, 58, 44, 48, 60, 25, 54], LLM-ები აჩვენებენ მნიშვნელოვნად უკეთეს შესრულებას სხვადასხვა მსჯელობის ამოცანებში. ნაბიჯ-ნაბიჯ მსჯელობის პროცესის შემდგომი გასაუმჯობესებლად, ზოგიერთმა უახლესმა კვლევამ გამოიკვლია გარე ამომხსნელების გამოყენება, როგორიცაა პროგრამის თარჯიმნები [39, 5, 27], სწავლება და მსჯელობის გარე მოდულების გამოძახება [11], ან აშკარა ძიების შესრულება დედუქციური ნაბიჯების შესაქმნელად. [2, 46]. ამ სამუშაოების პარალელურად, ჩვენ არ ვეყრდნობით გარე მოდულებსა და ალგორითმებს და პირდაპირ ვიყენებთ LLM-ების კონტექსტში სწავლის უნარს უფრო ზუსტი და მკაცრი დედუქციური მსჯელობის შესაქმნელად.


დიდი ენობრივი მოდელები, როგორც ვერიფიკატორები. ენობრივი მოდელების გამოყენება მოდელის თაობების შესაფასებლად იყო დიდი ხნის იდეა [22, 36, 40, 4]. იმის გამო, რომ LLM-ები ავლენენ შთამბეჭდავ შესაძლებლობებს სხვადასხვა ამოცანებში, ბუნებრივი იდეა ხდება LLM-ების გამოყენება შეფასებისა და გადამოწმების ინსტრუმენტებად. მაგალითად, [10, 11, 33] დააზუსტეთ LLM-ები გადაწყვეტილებებისა და შუალედური ნაბიჯების შესამოწმებლად. LLM-ები, რომლებიც შეესაბამება RLHF-ს [32, 31, 48] ასევე გამოიყენეს სხვადასხვა მოდელის თაობის შესადარებლად. გარდა ამისა, ბოლოდროინდელმა ნამუშევრებმა, როგორიცაა [43, 52, 28, 6] გამოიყენეს სწრაფი დიზაინი, რათა LLM-ებს საშუალება მისცენ თვითდამოწმება, თვითდახვეწა და თვითგამართვა დაზუსტების საჭიროების გარეშე. თუმცა, ეს ნაშრომები არ ამახვილებს ყურადღებას დედუქციური მსჯელობის პროცესების სიმკაცრესა და სანდოობაზე ყოველი მსჯელობის საფეხურზე. ამ ნაშრომში, ჩვენ ვთავაზობთ ბუნებრივ ენაზე დაფუძნებულ დედუქციურ მსჯელობის ფორმატს, რომელიც საშუალებას აძლევს LLM-ებს თვითდამოწმების დედუქციური მსჯელობის პროცესის ყოველი შუალედური ეტაპი, რითაც გააუმჯობესებს მსჯელობის სიმკაცრეს და სანდოობას.


ცხრილი 1: მაგალითი შეკითხვა GSM8K-დან გენერირებული CoT მსჯელობის ბილიკით GPT3.5-ით (ტურბო), სადაც გამომავალი იძლევა არასწორი მსჯელობის ჯაჭვს სწორი პასუხით.


გარდა ამისა, მიუხედავად იმისა, რომ ზოგიერთმა უახლესმა ნაშრომმა [12, 53, 15, 34] შესთავაზა მეთოდები მსჯელობის პროცესში ცალკეული ნაბიჯების გადამოწმების მიზნით, ჩვენი მიდგომა განასხვავებს ამ ნამუშევრებს შემდეგი პერსპექტივებით: (1) ჩვენი მიდგომა იყენებს კონტექსტში სწავლის მიღწევას. მსჯელობის შემოწმება, ენის მოდელის დაზუსტების საჭიროების გარეშე. (2) ჩვენი ბუნებრივ პროგრამაზე დაფუძნებული LLM გადამოწმების მიდგომა არა მხოლოდ განსაზღვრავს არასწორი მსჯელობის საფეხურებს, არამედ ასევე იძლევა მკაფიო ახსნას, თუ რატომ არის ისინი არასწორი, დეტალურად აღწერს კონკრეტულ მსჯელობის შეცდომებს. (3) ჩვენი ბუნებრივ პროგრამაზე დაფუძნებული მსჯელობისა და გადამოწმების მიდგომა თავსებადია კონტექსტურ აბსტრაქტულ მსჯელობის ამოცანებთან, სადაც მსჯელობის საფეხურებს არ გააჩნიათ მტკიცებულების მსგავსი შემადგენელი სტრუქტურები. მაგალითად, ჩვენი მიდგომა თავსებადია ბოლო ასოების ამოცანასთან, სადაც LLM-ს ევალება გამოატანოს ყველა სიტყვის ბოლო ასოების თანმიმდევრობა, როგორც საბოლოო პასუხი. (4) ჩვენი ბუნებრივი პროგრამის მიდგომა იძლევა საღი აზრის ცოდნის გამოყენების საშუალებას, რომელიც აშკარად არ არის ჩამოთვლილი შენობებში. მაგალითად, განიხილეთ ეს პრობლემა: „მარინი დღეში 4 ვაშლს ჭამს. რამდენ ვაშლს ჭამს ის ნოემბერში? მიუხედავად იმისა, რომ „ნოემბერს აქვს 30 დღე“ აშკარად არ არის ჩამოთვლილი შენობაში, ბუნებრივი პროგრამა იძლევა ამგვარი საერთო ცოდნის გამოყენებას მსჯელობის საფეხურზე. ჩვენი კონტექსტური გადამოწმების პროცესს ასევე შეუძლია დამუშავდეს ეს იმპლიციტური ნაგებობები (მაგ., თუ LLM გამოაქვს „ნოემბერს აქვს 29 დღე“ მსჯელობის ეტაპზე, ის მოინიშნება, როგორც არასწორი).


ეს ნაშრომი ხელმისაწვდომია arxiv-ზე CC BY 4.0 DEED ლიცენზიით.


L O A D I N G
. . . comments & more!

About Author

Cosmological thinking: time, space and universal causation  HackerNoon profile picture
Cosmological thinking: time, space and universal causation @cosmological
From Big Bang's singularity to galaxies' cosmic dance the universe unfolds its majestic tapestry of space and time.

დაკიდეთ ტეგები

ეს სტატია იყო წარმოდგენილი...