paint-brush
Επίλυση του προβλήματος των ψευδαισθήσεων με τεχνητή νοημοσύνη με φυσικά προγράμματα αυτοεπαλήθευσηςμε@cosmological
146 αναγνώσεις

Επίλυση του προβλήματος των ψευδαισθήσεων με τεχνητή νοημοσύνη με φυσικά προγράμματα αυτοεπαλήθευσης

Πολύ μακρύ; Να διαβασω

Το Natural Program ενισχύει την αξιοπιστία των LLMs επαληθεύοντας κάθε βήμα της διαδικασίας συλλογιστικής. Σε αντίθεση με άλλες μεθόδους, αξιοποιεί τη μάθηση εντός πλαισίου, προσφέροντας αυστηρές εξηγήσεις για λάθη και είναι συμβατό με εργασίες αφηρημένης συλλογιστικής. Αυτό βελτιώνει την ικανότητα της τεχνητής νοημοσύνης να αυτο-επαληθεύει και να βελτιώνει τη συλλογιστική χωρίς εξωτερικούς λύτες ή τελειοποίηση.
featured image - Επίλυση του προβλήματος των ψευδαισθήσεων με τεχνητή νοημοσύνη με φυσικά προγράμματα αυτοεπαλήθευσης
Cosmological thinking: time, space and universal causation  HackerNoon profile picture
0-item

Συγγραφείς:

(1) Zhan Ling, UC San Diego και ίση συνεισφορά.

(2) Yunhao Fang, UC San Diego και ίση συνεισφορά.

(3) Xuanlin Li, UC San Diego;

(4) Zhiao Huang, UC San Diego;

(5) Mingu Lee, Qualcomm AI Research και Qualcomm AI Research

(6) Roland Memisevic, Qualcomm AI Research.

(7) Hao Su, UC San Diego.

Πίνακας συνδέσμων

Περίληψη και Εισαγωγή

Σχετική εργασία

Κίνητρα και Διατύπωση Προβλήματος

Συλλογισμός αλυσιδωτής σκέψης με επαληθεύσιμο απαγωγικό τρόπο

Πειράματα

Περιορισμοί

Συμπέρασμα, Ευχαριστίες και Παραπομπές


Μια απαγωγική επαλήθευση με μοντέλα Vicuna

B Περισσότερη συζήτηση σχετικά με τις βελτιώσεις της ακρίβειας επαλήθευσης σε σχέση με τις βελτιώσεις στην ορθότητα της τελικής απάντησης

C Περισσότερες λεπτομέρειες σχετικά με την εξαγωγή απαντήσεων

D Προτροπές

E Περισσότερα Παραδείγματα επαλήθευσης

2 Σχετικές εργασίες

Συλλογισμός με μεγάλα γλωσσικά μοντέλα. Πρόσφατα μεγάλα γλωσσικά μοντέλα (LLM) [3, 8, 57, 47, 38, 18, 9, 37] έχουν δείξει απίστευτη ικανότητα στην επίλυση σύνθετων συλλογιστικών εργασιών. Αντί να αφήνουν τα LLM να παράγουν απευθείας τελικές απαντήσεις ως αποτέλεσμα, η προηγούμενη εργασία έχει δείξει ότι ενθαρρύνοντας τη συλλογιστική βήμα προς βήμα μέσω κατάλληλων προτροπών, όπως η προτροπή Chain-of-Thought (CoT) [50] και πολλές άλλες [21, 59, 58, 44, 48, 60, 25, 54], τα LLMs παρουσιάζουν σημαντικά καλύτερη απόδοση σε διάφορες συλλογιστικές εργασίες. Για να βελτιωθεί περαιτέρω η διαδικασία συλλογιστικής βήμα προς βήμα, ορισμένες πρόσφατες μελέτες έχουν διερευνήσει τη μόχλευση εξωτερικών λύσεων όπως οι διερμηνείς προγραμμάτων [39, 5, 27], η εκπαίδευση και η κλήση εξωτερικών ενοτήτων συλλογισμού [11] ή η εκτέλεση ρητής αναζήτησης για τη δημιουργία απαγωγικών βημάτων [2, 46]. Παράλληλα με αυτές τις εργασίες, δεν βασιζόμαστε σε εξωτερικές ενότητες και αλγόριθμους και αξιοποιούμε άμεσα την ικανότητα μάθησης εντός πλαισίου των LLM για να δημιουργήσουμε πιο ακριβείς και αυστηρούς απαγωγικούς συλλογισμούς.


Μεγάλα μοντέλα γλώσσας ως επαληθευτές. Η χρήση γλωσσικών μοντέλων για την αξιολόγηση των γενεών μοντέλων ήταν μια μακροχρόνια ιδέα [22, 36, 40, 4]. Καθώς τα LLM επιδεικνύουν εντυπωσιακές ικανότητες σε διάφορες εργασίες, είναι φυσικό να χρησιμοποιείτε τα LLM ως εργαλεία αξιολόγησης και επαλήθευσης. Για παράδειγμα, [10, 11, 33] βελτιστοποιήστε τα LLM για να επαληθεύσετε λύσεις και ενδιάμεσα βήματα. Τα LLM ευθυγραμμισμένα με το RLHF [32, 31, 48] έχουν επίσης χρησιμοποιηθεί για τη σύγκριση διαφορετικών γενεών μοντέλων. Επιπλέον, πρόσφατες εργασίες όπως το [43, 52, 28, 6] αξιοποιούν τα σχέδια προτροπής για να επιτρέψουν στα LLM να αυτο-επαληθεύσουν, να αυτοβελτιωθούν και να αυτο-εντοπιστούν σφάλματα χωρίς την ανάγκη μικροσυντονισμού. Ωστόσο, αυτές οι εργασίες δεν επικεντρώνονται στην αυστηρότητα και την αξιοπιστία των διαδικασιών της απαγωγικής συλλογιστικής σε κάθε συλλογιστικό βήμα. Σε αυτή την εργασία, προτείνουμε μια μορφή επαγωγικού συλλογισμού βασισμένη σε φυσική γλώσσα που επιτρέπει στους LLM να αυτοεπαληθεύουν κάθε ενδιάμεσο βήμα μιας διαδικασίας απαγωγικής συλλογιστικής, βελτιώνοντας έτσι την αυστηρότητα και την αξιοπιστία της συλλογιστικής.


Πίνακας 1: Ένα παράδειγμα ερώτησης από το GSM8K με μια δημιουργημένη διαδρομή συλλογισμού CoT με GPT3.5 (turbo), όπου η έξοδος παρέχει μια λανθασμένη συλλογιστική αλυσίδα με τη σωστή απάντηση.


Επιπλέον, ενώ ορισμένες πρόσφατες εργασίες [12, 53, 15, 34] έχουν προτείνει μεθόδους για την επαλήθευση μεμονωμένων βημάτων σε μια συλλογιστική διαδικασία, η προσέγγισή μας διακρίνεται από αυτές τις εργασίες στις ακόλουθες προοπτικές: (1) Η προσέγγισή μας αξιοποιεί τη μάθηση εντός πλαισίου για να επιτύχει επαλήθευση συλλογισμού, χωρίς την ανάγκη βελτίωσης του γλωσσικού μοντέλου. (2) Η προσέγγισή μας επαλήθευσης LLM που βασίζεται σε Φυσικό Πρόγραμμα όχι μόνο προσδιορίζει μη έγκυρα βήματα συλλογιστικής, αλλά παρέχει επίσης σαφείς εξηγήσεις για το γιατί είναι άκυρα, αναφέροντας λεπτομερώς τα συγκεκριμένα σφάλματα συλλογιστικής που εμπλέκονται. (3) Η προσέγγισή μας συλλογιστικής και επαλήθευσης που βασίζεται σε Φυσικό Πρόγραμμα είναι συμβατή με εργασίες αφηρημένης συλλογιστικής εντός του πλαισίου, όπου τα βήματα συλλογισμού δεν διαθέτουν δομές συνεπαγόμενης απόδειξης. Για παράδειγμα, η προσέγγισή μας είναι συμβατή με την εργασία Τελευταία Γράμματα, όπου το LLM έχει εντολή να εξάγει τη συνένωση των τελευταίων γραμμάτων όλων των λέξεων σε μια ακολουθία ως τελική απάντηση. (4) Η προσέγγισή μας στο Φυσικό Πρόγραμμα επιτρέπει τη χρήση γνώσεων κοινής λογικής που δεν αναφέρονται ρητά στις εγκαταστάσεις. Για παράδειγμα, σκεφτείτε αυτό το πρόβλημα: «Η Marin τρώει 4 μήλα την ημέρα. Πόσα μήλα τρώει τον Νοέμβριο;» Παρόλο που το "Ο Νοέμβριος έχει 30 ημέρες" δεν αναφέρεται ρητά στις εγκαταστάσεις, το Natural Program επιτρέπει τη χρήση αυτής της κοινής γνώσης σε ένα βήμα συλλογιστικής. Η διαδικασία επαλήθευσης εντός του πλαισίου μπορεί επίσης να χειριστεί αυτές τις σιωπηρές εγκαταστάσεις (π.χ., εάν το LLM εμφανίσει "Ο Νοέμβριος έχει 29 ημέρες" σε ένα βήμα συλλογισμού, θα επισημανθεί ως μη έγκυρο).


Αυτό το χαρτί είναι διαθέσιμο στο arxiv με άδεια CC BY 4.0 DEED.