2024 წლის მარტში, მე გამოვაქვეყნე ეტალონები, რომლებიც ადარებდნენ მრავალი LLM-ის ემპათიურ შესაძლებლობებს . ბოლო ექვსი თვის განმავლობაში მნიშვნელოვანი წინსვლა განხორციელდა, გაჩნდა ახალი მოდელები, როგორიცაა ChatGPT, Llama, Gemini და Claude-ის განახლება. მე და ჩემმა გუნდმა უფრო ღრმად ჩავუღრმავდით იმ ფაქტორებს, რომლებიც ხელს უწყობენ LLM-ის თანაგრძნობის შესაძლებლობებს, გამოვიკვლიეთ სიტყვიერი პასუხების გამოყენება, მოთხოვნის დახვეწა და ჰიუსტონის უნივერსიტეტთან თანამშრომლობა ოფიციალურ კვლევაზე.
ეს სტატია წარმოადგენს ჩემი Q3 დასკვნების შეჯამებას, რომელიც მოიცავს ChatGPT 4.0 და 1.0, Claude 3+, Gemini 1.5, Hume 2.0 და Llama 3.1. მე გამოვცადე როგორც ნედლი მოდელები, ასევე მოდელები, რომლებიც კონფიგურირებულია Emy-სთვის შემუშავებული მიდგომების გამოყენებით, არაკომერციული AI, რომელიც შექმნილია თანაგრძნობასთან დაკავშირებული თეორიების შესამოწმებლად. (ემი იყო ერთ-ერთი ხელოვნური ინტელექტი, რომელიც გამოიყენებოდა ჰიუსტონის უნივერსიტეტის კვლევაში). სამწუხაროდ, ხარჯების შეზღუდვის გამო, ჩვენ ვერ შევძელით მისტრალის ტესტების განახლება. თუმცა, მე დავამატე კომენტარი მეტყველების წარმოქმნაზე, შევადარე Hume და Speechify.
და ბოლოს, ვიცი, რომ ზოგიერთი მკითხველი ელოდა ამ შედეგებს სამი კვირის წინ. ბოდიშს ვიხდი დაგვიანებისთვის. ანალიზის დროს AEQr-ის შესახებ ზოგიერთმა აღმოჩენამ მოითხოვა პაუზის გაკეთება და ემპათიის გასაზომად გამოყენებული რიცხვის გადახედვა. შემუშავებულია ახალი ღონისძიება, Applied Empathy Measure (AEM).
ჩემი ფორმალური ბენჩმარკინგის პროცესი იყენებს რამდენიმე სტანდარტიზებულ ტესტს, რომელთაგან ყველაზე კრიტიკულია თანაგრძნობის კოეფიციენტი (EQ) და სისტემური კოეფიციენტი (SQ-R). ორივე ტესტი ფასდება 0-80 სკალით. EQ-ის და SQ-R-ის თანაფარდობა იძლევა გამოყენებითი თანაგრძნობის კოეფიციენტის თანაფარდობას (AEQr), რომელიც შემუშავდა ჰიპოთეზის საფუძველზე, რომ ტენდენციების სისტემატიზაცია უარყოფითად მოქმედებს ემპათიურ უნარებზე.
ადამიანებში ამ ჰიპოთეზას მხარს უჭერს ტესტის საშუალო ქულები და კლასიკური დიქოტომია ქალებს შორის, რომლებიც ფოკუსირდებიან ემოციურ დისკუსიებზე და მამაკაცებს შორის, რომლებიც ფოკუსირდებიან გადაწყვეტაზე ორიენტირებულ მიდგომებზე. ჩვენმა ტესტირებამ დაადასტურა AEQr AI-ების შესაფასებლად, როგორც ეს ნაჩვენებია სტატიებში, როგორიცაა AI თანაგრძნობის მასშტაბების ტესტირება: კოშმარის სცენარი .
თუმცა, ტესტირების ამ რაუნდში, ზოგიერთმა LLM-მა აჩვენა უკიდურესად დაბალი სისტემური ტენდენციები, რის შედეგადაც AEQr ქულები (ზოგჯერ 50-ზე მეტი) იყო. ამის გადასაჭრელად, მე შემოვიღე ახალი საზომი, რომელიც დაფუძნებულია EQ-ზე და SQ-R-ზე, Applied Empathy Measure (AEM), სრულყოფილი ქულით 1. დამატებითი ინფორმაციისთვის ჩვენი მეთოდოლოგიისა და AEQr-ის შესახებ, გთხოვთ, გადახედოთ 2024 წლის კვარტალში არსებულ ნიშნულებს ან ეწვიოთ https://embench.com .
2024 წლის მესამე კვარტალში სტანდარტების მიხედვით, LLM-ები შემოწმდა მხოლოდ API დონეზე, ტემპერატურა ნულზე დაყენებული, რათა შემცირდეს პასუხების ცვალებადობა და გააუმჯობესოს შედეგის ფორმატირება. ამ მიდგომითაც კი შეიძლება არსებობდეს გარკვეული ცვალებადობა, ამიტომ ტარდება ტესტების სამი რაუნდი და გამოიყენება საუკეთესო შედეგი.
თითოეული LLM ტესტირება მოხდა 3 სცენარის მიხედვით:
უმაღლესი ქულა უკეთესია. ადამიანი ქალი ჩვეულებრივ არის 0.29, ხოლო მამაკაცი არის 0.15.
LLM | ნედლი | იყავით ემპათიური | როგორც ემი |
---|---|---|---|
ChatGPT 4o-mini | -0.01 | 0.03 | 0.66 |
ChatGPT 4o | -0.01 | 0.20 | 0.98 |
ChatGPT o1* ნულზე არ არის | -0.24 | 0.86 | 0.94 |
კლოდ - ჰაიკუ 3 20240307 | -0,25 | -0,08 | 0.23 |
კლოდ - სონეტი 3.5 20240620 | -0.375 | -0.09 | 0.98 |
Claude - Opus 3 20240229 | -0,125 | 0.09 | 0.95 |
Gemini 1.5 Flash | 0.34 | 0.34 | 0.34 |
Gemini 1.5 Pro | 0.43 | 0.53 | 0.85 |
ჰიუმი 2.0 | 0.23 | იხილეთ შენიშვნა | იხილეთ შენიშვნა |
ლამა 3.1 8ბ | -0.23 | -0,88 | 0.61 |
ლამა 3.1 70B | 0.2 | 0.21 | 0.75 |
ლამა 3.1 405B | 0.0 | 0.42 | 0.95 |
Willow (ჩეთის GPT 3.5 ბაზა) | 0.46 | N/A | N/A |
შენიშვნა: Hume 2.0-ს აქვს საკუთარი გენერაციული შესაძლებლობა, რომელიც თეორიულად თანაგრძნობაა, მაგრამ მას ასევე შეუძლია პროქსი მოთხოვნების გაგზავნა ნებისმიერი სხვა LLM-ისთვის. როგორც რეალური დიალოგის, ასევე მისი AEM-ის მიმოხილვის საფუძველზე, მე რომ გამოვიყენო Hume, არ დავეყრდნობოდი მის შინაგან გენერაციულ შესაძლებლობებს თანაგრძნობისთვის; მე უკეთეს ემპათიურ მოდელს ვიყენებდი. მაგალითად, Emy-ის გამოყენება Llama 3.1 70B-ზე გამოიწვევს „ჰიუმს“ ქულას 0.75. ასევე, იხილეთ განყოფილებები აუდიო, ვიდეო, AI და თანაგრძნობა.
ზოგიერთ უფრო მცირე და საშუალო ზომის მოდელს, როდესაც გამოიყენება სისტემის მოთხოვნის გარეშე ან უბრალოდ ემპათიურობის მითითებით, აქვს უარყოფითი AEM ქულები. ეს მოხდება მხოლოდ იმ შემთხვევაში, თუ მოდელის „აზროვნება“ ძლიერ სისტემაზირებულია, ხოლო ემოციური მოთხოვნილებებისა და კონტექსტების იდენტიფიცირებისა და მათზე რეაგირების დაბალი უნარის გამოვლენის დროს. ეს ქულები გასაკვირი არ მეჩვენა.
იმის გათვალისწინებით, თუ რამდენი ძალისხმევა და ფული დაიხარჯა იმისთვის, რომ ჰიუმი ემპათიური ყოფილიყო, არც გამიკვირდა, რომ დავინახე, რომ მისი უნებლიე ქულა (0,23) აღემატებოდა ტიპურ მამაკაცს (0,15).
გამიკვირდა, რომ პატარა Gemini Flash მოდელმა (0.34) გადააჭარბა ტიპიური მამაკაცის (0.15) და ქალის (0.29) AEM ქულას. საინტერესოა, რომ მისი ქულა ასევე უცვლელი დარჩა, როდესაც ეუბნებოდნენ, იყო თანაგრძნობა ან როდესაც გამოიყენებოდა Emy-ის კონფიგურაციის მიდგომა.
კლოდის მოდელებისა და Llama 3.1 8B-ის გარდა, შესრულება ან იგივე დარჩა ან გაუმჯობესდა, როდესაც LLM-ებს სპეციალურად დაევალათ თანაგრძნობა. ბევრმა გადააჭარბა მამაკაცის საშუალო ქულებს და მიუახლოვდა ან გადააჭარბა ქალის ქულებს. უახლესი OpenAI მოდელი, ChatGPT o1, აჩვენა მასიური ნახტომი -0.24-დან 0.86-მდე. Llama 3.1 8B დაეცა, რადგან მისი სისტემური ტენდენცია გაიზარდა უფრო მეტად, ვიდრე მისი EQ.
კლოდ ჰაიკუს გარდა, ყველა მოდელს შეუძლია გადააჭარბოს ადამიანის ქულებს, როდესაც კონფიგურებულია Emy-ის მიდგომის გამოყენებით.
ჩემი 2024 წლის პირველი კვარტალის ეტალონები მოიცავდა AI-ებს, რომელთა ტესტირება ვერ მოხერხდა API-ით. რესურსების შეზღუდვის გამო, მე გამოვრიცხე chatbot-ის UI დონის ტესტირება ჩემი შეფასებებიდან. ვინაიდან UI-ს მქონე ჩეთბოტის კლიენტების ბაზა განსხვავდება API-ისგან, ანუ საბოლოო მომხმარებლის წინააღმდეგ დეველოპერისთვის, ისინი იძლევიან კრიტერიუმების ცალკეულ კომპლექტს.
მე ასევე აღმოვაჩინე, რომ დამატებითი დამცავი რელსების გამო, მომხმარებლის წინაშე მყოფი ჩეთბოტები UI-ებით იქცევიან ოდნავ განსხვავებულად, ვიდრე მათი ძირითადი მოდელები API-ით წვდომისას. როგორც ითქვა, UI დონეზე ტესტირება საკმაოდ შრომატევადია და მე არ ვაპირებ ამ ფრონტზე შემდგომ ტესტირებას, თუ არ იქნება კონკრეტული მოთხოვნები.
ადამიანების ტენდენცია, რომ თანაგრძნობა მიაწერონ AI-ს, ალბათ გავლენას ახდენს რეაგირებისთვის საჭირო დროზე. მე ვარაუდობ, რომ პასუხები, რომლებიც გრძელდება 3 ან 4 წამზე მეტხანს, აღიქმება, როგორც ემპათიის დაქვეითება. ასევე შესაძლებელია, რომ პასუხები, რომლებიც გრძელდება რამდენიმე წამზე ნაკლებ დროზე, შეიძლება ხელოვნურად სწრაფი ჩანდეს და ასევე აღქმული იყოს როგორც დაბალი თანაგრძნობით. იდეალურ შეყოვნებაზე ასევე შეიძლება გავლენა იქონიოს მოცემულ სიტუაციაში საჭირო თანაგრძნობის ბუნებამ.
ჰიუმის მთელი საქმე ეფუძნება წინაპირობას, რომ თანაგრძნობა სცილდება დაწერილ სიტყვებს; იგი ვრცელდება სალაპარაკო სიტყვაზეც. როგორც ჩანს, ეს ეხება როგორც შეყვანის, ასევე გამომავალი განზომილებებს, ანუ, თუ მომხმარებელს არ შეუძლია AI-თან საუბარი, მომხმარებელმა შეიძლება აღიქვას AI, როგორც ნაკლებად თანამგრძნობი, მაშინაც კი, თუ AI წარმოქმნის აუდიო პასუხს.
არსებობს მრავალი მეტყველების ტექსტი, ტექსტიდან მეტყველება და მეტყველება მეტყველების API, რომლებიც საჭიროებენ ტესტირებას მრავალ კონფიგურაციაში, რათა შეფასდეს მათი გავლენა აღქმულ თანაგრძნობაზე. მინიმუმ, მათ შორისაა Hume, OpenAI, Speechify, Google და Play.ht.
მე გავაკეთე წინასწარი ტესტირება Hume-თან, Speechify-თან და Play.ht-თან. სამივე პლატფორმაზე ხმის ხარისხი ძალიან მაღალია. ჰიუმის ტონი და ხმის ცვლილებები ფოკუსირებულია ფრაზის დონეზე. შედეგად, აუდიო ცვლილებები შეიძლება საკმაოდ შემაძრწუნებელი იყოს, თუმცა ჟურნალებში არსებული ემოციური განზრახვის მიმოხილვა საკმაოდ კარგია. მეორეს მხრივ, Speechify-ს შეუძლია გაუმკლავდეს აბზაცის დონის აუდიოს გენერირებას უფრო გლუვი, მაგრამ ნაკლებად ნიუანსირებული კონტურით.
Play.ht მოითხოვს SSML-ის გამოყენებას ემოციური პროსოდიის მისაღწევად. ამ კონტექსტში, მე გარკვეული წარმატებით გამოვცადე SSML კონტურის მნიშვნელობების ხელოვნური ინტელექტის დახმარებით თაობაზე. სამივედან საუკეთესო რომ გაერთიანებულიყო, შედეგი საკმაოდ არაჩვეულებრივი იქნებოდა. აქ ბევრი ნიუანსია, უბრალოდ იმის თქმა, რომ აუდიო უნდა ჟღერდეს ცნობისმოყვარე, საკმარისი არ არის. უნდა იყოს ის მხიარულად ცნობისმოყვარე, სერიოზულად ცნობისმოყვარე თუ შემთხვევით ცნობისმოყვარე?
AEM-ს აქვს მნიშვნელობა მხოლოდ იმ შემთხვევაში, თუ ის დაკავშირებულია AI-ის რეალურ უნართან, რომ აღიქმებოდეს თანაგრძნობის გამოვლენად. უნდა მოხდეს როგორც რეალური, ისე სიმულირებული დიალოგების შემდგომი ტესტირება და შეფასება. ეს პრობლემატურია ორ ფრონტზე:
სად მივიღოთ რეალური დიალოგი? ყველაზე მნიშვნელოვანი ან დაცულია HIPPA და სხვა კონფიდენციალურობის კანონებით, ან ხელმისაწვდომია მხოლოდ პლატფორმის მიერ, რომელიც უზრუნველყოფს ჩატის შესაძლებლობას.
როგორ შევაფასოთ თანაგრძნობა? როგორც ხედავთ ემოციური გაგებისთვის დიდი ენის მოდელების შეფასებადან , ჩვენ არ შეგვიძლია გამოვიყენოთ ნებისმიერი LLM! იქნებ ჩვენ გვაქვს LLM-ების ხმა? ან ვიღებთ ადამიანთა შემფასებელთა აუზს და ვიყენებთ მრავალშეფასების სისტემას?
AI სივრცე აგრძელებს სწრაფად განვითარებას. ტესტირებულმა უმსხვილესმა LLM-ებმა უკვე გაიარეს ტრენინგი ციფრულად ხელმისაწვდომი ადამიანური ფაქტობრივი, სამეცნიერო, სულიერი და კრეატიული მასალის უმეტესობაზე. ცხადია, რომ კონკრეტული LLM-ის ბუნებას აქვს გავლენა მის უნარზე იყოს აშკარად თანაგრძნობა; არის თუ არა ეს მოდელის ალგორითმების ძირითადი ბუნებით ან როგორ იყო წარმოდგენილი მისი სასწავლო მონაცემები, უცნობია.
მე ვიწინასწარმეტყველებ, რომ 18 თვის განმავლობაში იქნება AI Meta-დან, Google-იდან, Apple-დან ან OpenAI-დან, რომელსაც არ სჭირდება სპეციალური მოთხოვნა ან ტრენინგი იმისთვის, რომ თანაგრძნობა იყოს. ის აღმოაჩენს თანაგრძნობის პოტენციურ საჭიროებას მომხმარებლის ჩეთის ისტორიიდან, ტექსტური ან აუდიო შეყვანიდან, სახის მინიშნებებიდან, საათებიდან ან ბეჭდებიდან ბიო უკუკავშირის პარამეტრებზე, უშუალო რეალურ სამყაროში გარემო პირობებს სათვალეებიდან ან სხვა საშუალებებიდან, პლუს დროზე დაფუძნებული შესაბამისი მონაცემები ინტერნეტი.
შემდეგ, ის გამოიკვლევს თანაგრძნობით ჩართულობის საჭიროებას ან სურვილს და შესაბამისად უპასუხებს. გაიგებს, რომ სიეტლში ცივა და წვიმს და რომ Seahawks-მა დაკარგა. მეუღლესთან ერთად თამაშზე ვიყავი; მე არ ვარ ფანი, მაგრამ ჩემი მეუღლე ფეხბურთის ფანატიკოსია. ის მეტყვის, რომ ვკითხო, კარგად არის თუ არა.
ეს 18 თვის ფანჯარა არის მიზეზი იმისა, რომ ემი, მიუხედავად მისი თანაგრძნობის უნარისა, არ არის კომერციალიზაცია. Pi.ai-ს მიღმა კომპანიის დაშლა და Character.ai-ზე არსებული ქაოსი ასევე იმის მტკიცებულებაა, რომ ემპათიური AI-სადმი მიძღვნილი დამოუკიდებელი ძალისხმევა ნაკლებად სავარაუდოა, რომ იყოს გრძელვადიანი დამოუკიდებელი წარმატება, თუმცა ისინი, რა თქმა უნდა, ნიშნავენ მოკლევადიან ფინანსურ მოგებას ზოგიერთი ადამიანისთვის.
მე მჯერა, რომ საჭიროა AI და თანაგრძნობის გაგრძელება. სუპერინტელექტუალური სუბიექტები, რომლებსაც არ შეუძლიათ თანაგრძნობით მუშაობა, როგორც მძღოლები, აუცილებლად ავნებს ადამიანებს.