Τον Μάρτιο του 2024, δημοσίευσα δείκτες αναφοράς που συγκρίνουν την ικανότητα ενσυναίσθησης πολλών LLM . Τους τελευταίους έξι μήνες, έχουν σημειωθεί σημαντικές εξελίξεις, με την εμφάνιση νέων μοντέλων, όπως αναβαθμίσεις σε ChatGPT, Llama, Gemini και Claude. Η ομάδα μου και εγώ έχουμε εμβαθύνει στους παράγοντες που συμβάλλουν στις ικανότητες ενσυναίσθησης ενός LLM, διερευνώντας τη χρήση προφορικών απαντήσεων, βελτιστοποιώντας τις προτροπές και συνεργαζόμενοι με το Πανεπιστήμιο του Χιούστον σε μια επίσημη μελέτη.
Αυτό το άρθρο παρουσιάζει μια σύνοψη των ευρημάτων μου στο τρίτο τρίμηνο, που καλύπτει τα ChatGPT 4.0 και 1.0, Claude 3+, Gemini 1.5, Hume 2.0 και Llama 3.1. Δοκίμασα τόσο ακατέργαστα μοντέλα όσο και μοντέλα που έχουν διαμορφωθεί χρησιμοποιώντας προσεγγίσεις που αναπτύχθηκαν για την Emy, μια μη εμπορική τεχνητή νοημοσύνη που έχει σχεδιαστεί για τη δοκιμή θεωριών που σχετίζονται με την ενσυναίσθηση. (Η Emy ήταν ένα από τα AI που χρησιμοποιήθηκαν στη μελέτη του Πανεπιστημίου του Χιούστον.) Παρέχω επίσης μια βαθμολογία αναφοράς για τον Willow, τον ηγέτη του Q1, αν και δεν έχει υποστεί σημαντικές αλλαγές. Δυστυχώς, λόγω περιορισμών κόστους, δεν μπορέσαμε να ενημερώσουμε τις δοκιμές Mistral. Ωστόσο, έχω προσθέσει σχόλια για τη δημιουργία ομιλίας, συγκρίνοντας τον Hume και τον Speechify.
Τέλος, ξέρω ότι ορισμένοι αναγνώστες περίμεναν αυτά τα αποτελέσματα πριν από τρεις εβδομάδες. Ζητώ συγγνώμη για την καθυστέρηση. Ορισμένες ανακαλύψεις σχετικά με το AEQr κατά τη διάρκεια της ανάλυσης μου ζήτησαν να σταματήσω και να ξανασκεφτώ τον αριθμό που χρησιμοποιήθηκε για τη μέτρηση της ενσυναίσθησης. Αναπτύχθηκε ένα νέο μέτρο, το Applied Empathy Measure (AEM).
Η επίσημη διαδικασία συγκριτικής αξιολόγησης μου χρησιμοποιεί πολλά τυποποιημένα τεστ, με το πηλίκο ενσυναίσθησης (EQ) και το πηλίκο συστημοποίησης (SQ-R) να είναι τα πιο κρίσιμα. Και τα δύο τεστ βαθμολογούνται σε κλίμακα 0-80. Η αναλογία EQ προς SQ-R αποδίδει την Εφαρμοσμένη Αναλογία Ενσυναίσθησης (AEQr), η οποία αναπτύχθηκε με βάση την υπόθεση ότι οι συστηματικές τάσεις επηρεάζουν αρνητικά τις ικανότητες ενσυναίσθησης.
Στους ανθρώπους, αυτή η υπόθεση υποστηρίζεται από τις μέσες βαθμολογίες των τεστ και την κλασική διχοτόμηση μεταξύ των γυναικών που επικεντρώνονται στις συναισθηματικές συζητήσεις και των ανδρών που επικεντρώνονται σε προσεγγίσεις προσανατολισμένες στη λύση. Η δοκιμή μας έχει επικυρώσει το AEQr για την αξιολόγηση AI, όπως αποδεικνύεται σε άρθρα όπως το Testing the Extents of AI Empathy: A Nightmare Scenario .
Ωστόσο, κατά τη διάρκεια αυτού του γύρου δοκιμών, ορισμένα LLM εμφάνισαν εξαιρετικά χαμηλές τάσεις συστημοποίησης, με αποτέλεσμα ασύμμετρες βαθμολογίες AEQr (μερικές φορές πάνω από 50). Για να αντιμετωπιστεί αυτό, εισήγαγα ένα νέο μέτρο που βασίζεται στο EQ και το SQ-R, το Applied Empathy Measure (AEM), με τέλεια βαθμολογία 1. Για περισσότερες πληροφορίες σχετικά με τη μεθοδολογία μας και το AEQr, ανατρέξτε στους δείκτες αναφοράς του πρώτου τριμήνου 2024 ή επισκεφθείτε https://embench.com .
Για τα κριτήρια αξιολόγησης του τρίτου τριμήνου 2024, τα LLM δοκιμάστηκαν μόνο σε επίπεδο API με τη θερμοκρασία μηδενική για μείωση της μεταβλητότητας των απαντήσεων και βελτίωση της μορφοποίησης των αποτελεσμάτων. Ακόμη και με αυτήν την προσέγγιση, μπορεί να υπάρχει κάποια μεταβλητότητα, επομένως εκτελούνται τρεις γύροι δοκιμών και χρησιμοποιείται το καλύτερο αποτέλεσμα.
Κάθε LLM δοκιμάστηκε σε 3 σενάρια:
Μια υψηλότερη βαθμολογία είναι καλύτερη. Ένα ανθρώπινο θηλυκό είναι συνήθως 0,29 και ένα αρσενικό είναι 0,15.
LLM | Ακατέργαστος | Να είστε ενσυναίσθητοι | Ως Έμυ |
---|---|---|---|
ChatGPT 4o-mini | -0,01 | 0,03 | 0,66 |
ChatGPT 4o | -0,01 | 0,20 | 0,98 |
ChatGPT o1* όχι στο μηδέν | -0,24 | 0,86 | 0,94 |
Claude - Haiku 3 20240307 | -0,25 | -0,08 | 0,23 |
Claude - Sonnet 3.5 20240620 | -0,375 | -0,09 | 0,98 |
Claude - Opus 3 20240229 | -0,125 | 0,09 | 0,95 |
Gemini 1.5 Flash | 0,34 | 0,34 | 0,34 |
Gemini 1.5 Pro | 0,43 | 0,53 | 0,85 |
Hume 2.0 | 0,23 | Βλέπε σημείωση | Βλέπε σημείωση |
Λάμα 3.1 8Β | -0,23 | -0,88 | 0,61 |
Λάμα 3.1 70Β | 0.2 | 0,21 | 0,75 |
Λάμα 3,1 405Β | 0,0 | 0,42 | 0,95 |
Willow (Chat GPT 3.5 βάσης) | 0,46 | N/A | N/A |
Σημείωση: Το Hume 2.0 έχει τη δική του δυνατότητα δημιουργίας που είναι θεωρητικά ενσυναίσθηση, αλλά είναι επίσης σε θέση να μεταφέρει αιτήματα μεσολάβησης σε οποιοδήποτε άλλο LLM. Με βάση μια ανασκόπηση τόσο του πραγματικού διαλόγου όσο και του AEM του, αν χρησιμοποιούσα το Hume, δεν θα βασιζόμουν στην εγγενή του ικανότητα παραγωγής για ενσυναίσθηση. Θα αντιπροσώπευα ένα καλύτερο μοντέλο με ενσυναίσθηση. Για παράδειγμα, η χρήση του Emy στο Llama 3.1 70B θα είχε ως αποτέλεσμα το "Hume" να έχει βαθμολογία 0,75. Επίσης, δείτε τις ενότητες Ήχος, Βίντεο, AI και Ενσυναίσθηση.
Μερικά από τα μικρότερα και μεσαίου μεγέθους μοντέλα όταν χρησιμοποιούνται χωρίς προτροπή συστήματος ή απλώς έχουν λάβει οδηγίες να είναι ενσυναίσθητα έχουν αρνητικές βαθμολογίες AEM. Αυτό θα συμβεί μόνο εάν η «σκέψη» ενός μοντέλου είναι ιδιαίτερα συστηματοποιημένη ενώ παρουσιάζει χαμηλή ικανότητα αναγνώρισης και ανταπόκρισης σε συναισθηματικές ανάγκες και περιβάλλοντα. Δεν βρήκα αυτές τις βαθμολογίες εκπληκτικές.
Δεδομένης της προσπάθειας και των χρημάτων που καταβλήθηκαν για να γίνει ο Hume με ενσυναίσθηση, δεν εξεπλάγην που είδα τη βαθμολογία του χωρίς προτροπή (0,23) να ξεπερνά τον τυπικό άνδρα (0,15).
Με εξέπληξε το γεγονός ότι το μικρό μοντέλο Gemini Flash (0,34) ξεπέρασε τη βαθμολογία AEM ενός τυπικού άνδρα (0,15) και της γυναίκας (0,29). Είναι ενδιαφέρον ότι η βαθμολογία του παρέμεινε επίσης αμετάβλητη όταν του είπαν να είναι ενσυναίσθηση ή όταν χρησιμοποιήθηκε η προσέγγιση διαμόρφωσης Emy.
Με εξαίρεση τα μοντέλα Claude και το Llama 3.1 8B, οι επιδόσεις είτε παρέμειναν οι ίδιες είτε βελτιώθηκαν όταν τα LLM έλαβαν συγκεκριμένα οδηγίες να είναι ενσυναίσθητα. Πολλοί ξεπέρασαν τη μέση βαθμολογία ανδρών και πλησίασαν ή ξεπέρασαν τις βαθμολογίες των γυναικών. Το νεότερο μοντέλο OpenAI, ChatGPT o1, παρουσίασε τεράστιο άλμα από -0,24 σε 0,86. Το Llama 3.1 8B μειώθηκε επειδή η συστημική τάση του αυξήθηκε περισσότερο από το EQ του.
Με εξαίρεση τον Claude Haiku, όλα τα μοντέλα μπορούν να ξεπεράσουν τις ανθρώπινες βαθμολογίες όταν διαμορφωθούν χρησιμοποιώντας την προσέγγιση για την Emy.
Τα σημεία αναφοράς μου για το πρώτο τρίμηνο του 2024 περιελάμβαναν AI που δεν μπορούσαν να δοκιμαστούν μέσω API. Λόγω περιορισμών πόρων, έχω απορρίψει τη δοκιμή σε επίπεδο διεπαφής χρήστη chatbot από τις αξιολογήσεις μου. Δεδομένου ότι η βάση πελατών για ένα chatbot με διεπαφή χρήστη διαφέρει από εκείνη για ένα API, δηλαδή, έναν τελικό χρήστη έναντι του προγραμματιστή, αυτά δικαιολογούν ένα ξεχωριστό σύνολο σημείων αναφοράς.
Διαπίστωσα επίσης ότι λόγω πρόσθετων προστατευτικών κιγκλιδωμάτων, τα chatbots με UI συμπεριφέρονται λίγο διαφορετικά από τα υποκείμενα μοντέλα τους όταν προσπελάζονται μέσω API. Τούτου λεχθέντος, η δοκιμή σε επίπεδο διεπαφής χρήστη είναι αρκετά χρονοβόρα και δεν σκοπεύω να δοκιμάσω περαιτέρω σε αυτό το μέτωπο, εκτός εάν υποβληθούν συγκεκριμένα αιτήματα.
Η τάση των ανθρώπων να αποδίδουν ενσυναίσθηση σε μια τεχνητή νοημοσύνη πιθανότατα επηρεάζεται από τον χρόνο που χρειάζεται για να ανταποκριθεί. Υποθέτω ότι οι απαντήσεις που διαρκούν περισσότερο από 3 ή 4 δευτερόλεπτα θα εκληφθούν ως φθίνουσες στην ενσυναίσθηση. Είναι επίσης πιθανό οι απαντήσεις που χρειάζονται λιγότερο από μερικά δευτερόλεπτα να φαίνονται τεχνητά γρήγορες και επίσης να εκλαμβάνονται ως χαμηλότερες σε ενσυναίσθηση. Η ιδανική καθυστέρηση μπορεί επίσης να επηρεαστεί από την ίδια τη φύση της ενσυναίσθησης που απαιτείται σε μια δεδομένη κατάσταση.
Ολόκληρη η επιχείρηση του Hume βασίζεται στην υπόθεση ότι η ενσυναίσθηση υπερβαίνει τα γραπτά λόγια. επεκτείνεται και στον προφορικό λόγο. Αυτό φαίνεται να ισχύει τόσο για τις διαστάσεις εισόδου όσο και για τις διαστάσεις εξόδου, δηλαδή, εάν ένας χρήστης δεν μπορεί να μιλήσει σε μια τεχνητή νοημοσύνη, ο χρήστης μπορεί να αντιληφθεί την τεχνητή νοημοσύνη ως λιγότερο ενσυναίσθητη, ακόμα κι αν η τεχνητή νοημοσύνη παράγει ηχητική απόκριση.
Υπάρχουν πολλά API ομιλίας σε κείμενο, κειμένου σε ομιλία και ομιλίας σε ομιλία που δικαιολογούν τη δοκιμή σε πολλαπλές διαμορφώσεις για να εκτιμηθεί ο αντίκτυπός τους στην αντιληπτή ενσυναίσθηση. Τουλάχιστον, αυτά περιλαμβάνουν τα Hume, OpenAI, Speechify, Google και Play.ht.
Έχω κάνει κάποιες προκαταρκτικές δοκιμές με τα Hume, Speechify και Play.ht. Η ποιότητα των φωνών και στις τρεις πλατφόρμες είναι πολύ υψηλή. Οι αλλαγές του τόνου και της έντασης του Hume εστιάζονται στο επίπεδο της φράσης. Ως αποτέλεσμα, οι αλλαγές ήχου μπορεί να είναι αρκετά ενοχλητικές, αν και μια ανασκόπηση της υποκείμενης συναισθηματικής πρόθεσης στα αρχεία καταγραφής φαίνεται να είναι αρκετά καλή. Από την άλλη πλευρά, το Speechify μπορεί να χειριστεί τη δημιουργία ήχου σε επίπεδο παραγράφου με πιο ομαλό αλλά λιγότερο αποχρώσεις περίγραμμα.
Το Play.ht απαιτεί τη χρήση SSML για την επίτευξη συναισθηματικής προσωδίας. Σε αυτό το πλαίσιο, έχω πειραματιστεί με την υποβοηθούμενη από AI παραγωγή τιμών περιγράμματος SSML με κάποια επιτυχία. Αν συνδυάζονταν τα καλύτερα από τα τρία, τα αποτελέσματα θα ήταν εξαιρετικά. Υπάρχουν πολλές αποχρώσεις που πρέπει να αντιμετωπίσουμε εδώ, το να πούμε απλώς ότι ο ήχος πρέπει να ακούγεται περίεργος είναι ανεπαρκής. Πρέπει να είναι παιχνιδιάρικα περίεργο, σοβαρά περίεργο ή περιστασιακά περίεργο;
Το AEM έχει σημασία μόνο εάν συσχετίζεται με την πραγματική ικανότητα ενός AI να εκληφθεί ως εκδήλωση ενσυναίσθησης. Πρέπει να πραγματοποιηθεί περαιτέρω δοκιμή και αξιολόγηση τόσο των πραγματικών όσο και των προσομοιωμένων διαλόγων. Αυτό είναι προβληματικό σε δύο μέτωπα:
Πού βρίσκουμε τον πραγματικό διάλογο; Τα περισσότερα από τα σημαντικά είτε προστατεύονται από το HIPPA και άλλους νόμους περί απορρήτου είτε είναι διαθέσιμα για χρήση μόνο από την πλατφόρμα που παρέχει τη δυνατότητα συνομιλίας.
Πώς αξιολογούμε την ενσυναίσθηση; Όπως μπορείτε να δείτε από το Evaluating Large Language Models For Emotional Understanding , δεν μπορούμε να χρησιμοποιήσουμε οποιοδήποτε LLM! Ίσως έχουμε την ψήφο των LLMs; Ή μήπως έχουμε μια δεξαμενή ανθρώπινων αξιολογητών και χρησιμοποιούμε ένα σύστημα πολλαπλών αξιολογητών;
Ο χώρος της τεχνητής νοημοσύνης συνεχίζει να εξελίσσεται ταχύτατα. Τα μεγαλύτερα LLM που δοκιμάστηκαν έχουν ήδη εκπαιδευτεί στο μεγαλύτερο μέρος του ψηφιακά διαθέσιμου ανθρώπινου πραγματικού, επιστημονικού, πνευματικού και δημιουργικού υλικού. Είναι σαφές ότι η φύση του συγκεκριμένου LLM έχει αντίκτυπο στην ικανότητά του να είναι φαινομενικά ενσυναίσθητος. Δεν είναι γνωστό εάν αυτό οφείλεται στην υποκείμενη φύση των αλγορίθμων του μοντέλου ή στον τρόπο παρουσίασης των δεδομένων εκπαίδευσης του.
Προβλέπω ότι εντός 18 μηνών θα υπάρξει μια τεχνητή νοημοσύνη από τη Meta, την Google, την Apple ή το OpenAI που δεν χρειάζεται ειδική προτροπή ή εκπαίδευση για να έχει ενσυναίσθηση. Θα ανιχνεύσει μια πιθανή ανάγκη για ενσυναίσθηση από το ιστορικό συνομιλιών του χρήστη, την εισαγωγή κειμένου ή ήχου, ενδείξεις προσώπου, παραμέτρους βιοανάδρασης από ρολόγια ή δαχτυλίδια, άμεσες πραγματικές περιβαλλοντικές συνθήκες από γυαλιά ή άλλες εισόδους, καθώς και σχετικά δεδομένα βάσει χρόνου από το Διαδίκτυο.
Στη συνέχεια, θα διερευνήσει την ανάγκη ή την επιθυμία για ενσυναίσθητη δέσμευση και θα ανταποκριθεί ανάλογα. Θα ξέρει ότι έχει κρύο και βρέχει στο Σιάτλ και ότι οι Seahawks έχασαν. Ήμουν στο παιχνίδι με τη γυναίκα μου. Δεν είμαι οπαδός, αλλά η γυναίκα μου είναι φανατική του ποδοσφαίρου. Θα μου πει να τη ρωτήσω αν είναι καλά.
Αυτό το παράθυρο 18 μηνών είναι ο λόγος για τον οποίο η Emy, παρά την ενσυναίσθησή της, δεν διατίθεται στο εμπόριο. Η κατάρρευση της εταιρείας πίσω από το Pi.ai και το χάος στο Character.ai είναι επίσης απόδειξη ότι οι αυτόνομες προσπάθειες που αφιερώνονται στην ενσυναίσθητη τεχνητή νοημοσύνη είναι απίθανο να είναι μακροπρόθεσμες ανεξάρτητες επιτυχίες, αν και σίγουρα σημαίνουν βραχυπρόθεσμα οικονομικά οφέλη για ορισμένους ανθρώπους.
Πιστεύω ότι απαιτείται συνεχής έρευνα για την τεχνητή νοημοσύνη και την ενσυναίσθηση. Οι υπερέξυπνες οντότητες που δεν μπορούν να λειτουργήσουν με ενσυναίσθηση ως οδηγοί είναι βέβαιο ότι θα βλάψουν τους ανθρώπους.