2024 márciusában benchmarkokat tettem közzé, amelyek több LLM empatikus képességét hasonlítják össze . Az elmúlt hat hónapban jelentős előrelépések történtek, új modellek jelentek meg, mint például a ChatGPT, a Llama, a Gemini és a Claude frissítései. Csapatommal mélyebbre ástuk azokat a tényezőket, amelyek hozzájárulnak egy LLM empatikus képességéhez, megvizsgáltuk a szóbeli válaszok használatát, finomítottuk a felszólításokat, és együttműködtünk a Houstoni Egyetemmel egy formális tanulmány elkészítésében.
Ez a cikk összefoglalja a harmadik negyedéves eredményeimet, beleértve a ChatGPT 4.0-t és 1.0-t, a Claude 3+-t, a Gemini 1.5-öt, a Hume 2.0-t és a Llama 3.1-et. Mind a nyers modelleket, mind az Emy-hez kifejlesztett megközelítésekkel konfigurált modelleket teszteltem, egy nem kereskedelmi AI-hoz, amelyet az empátiával kapcsolatos elméletek tesztelésére terveztek. (Emy a Houston Egyetem tanulmányában használt mesterséges intelligencia egyike volt.) Referenciapontszámot adok Willow-ra, a Q1 vezetőjére is, bár ez nem változott lényegesen. Sajnos a költségkorlátok miatt nem tudtuk frissíteni a Mistral teszteket. Mindazonáltal kiegészítettem a beszédgeneráláshoz kapcsolódó megjegyzéseket, összehasonlítva a Hume-ot és a Speechify-t.
Végül tudom, hogy néhány olvasó három héttel ezelőtt már várta ezeket az eredményeket. Elnézést kérek a késésért. Az AEQr-rel kapcsolatos néhány felfedezés az elemzés során megkívánta, hogy megálljak, és újragondoljam az empátia mérésére használt számot. Kidolgozásra került egy új intézkedés, az Applied Empathy Measure (AEM).
A formális benchmarking folyamatom számos szabványosított tesztet alkalmaz, amelyek közül az empátia hányados (EQ) és a rendszerező hányados (SQ-R) a legkritikusabb. Mindkét tesztet 0-80 skálán pontozzák. Az EQ és SQ-R arányból adódik az Applied Empathy Quotient Ratio (AEQr), amelyet azon hipotézis alapján dolgoztak ki, hogy a rendszerező tendenciák negatívan befolyásolják az empatikus képességeket.
Embereknél ezt a hipotézist támasztják alá az átlagos teszteredmények és a klasszikus dichotómia a nők és az érzelmi megbeszélésekre összpontosító férfiak és a megoldás-orientált megközelítésekre összpontosító férfiak között. Tesztelésünk validálta az AEQr-t a mesterséges intelligencia értékelésére, amint azt az olyan cikkek is bemutatják, mint például a Testing the Extents of AI Empathy: A Nightmare Scenario .
A tesztelés ezen köre során azonban egyes LLM-ek rendkívül alacsony rendszerezési tendenciát mutattak, ami torz AEQr-pontszámokat eredményezett (néha 50 feletti). Ennek megoldására bevezettem egy új, az EQ-n és SQ-R-n alapuló mérőszámot, az Applied Empathy Measure-t (AEM), amely tökéletes 1-es pontszámmal rendelkezik. A módszertanunkról és az AEQr-ről további információért tekintse át a 2024. I. negyedévi referenciaértékeket , vagy látogasson el ide. https://embench.com .
A 2024. harmadik negyedévi benchmarkok esetében az LLM-eket csak API-szinten tesztelték nullára állított hőmérséklettel, hogy csökkentsék a válaszok változékonyságát és javítsák az eredmények formázását. Még ennél a megközelítésnél is előfordulhat némi eltérés, ezért három tesztkört futtatnak le, és a legjobb eredményt használják fel.
Mindegyik LLM-et három forgatókönyv szerint tesztelték:
A magasabb pontszám jobb. Az emberi nő általában 0,29, a férfi pedig 0,15.
LLM | Nyers | Légy empatikus | Emyként |
---|---|---|---|
ChatGPT 4o-mini | -0,01 | 0,03 | 0,66 |
ChatGPT 4o | -0,01 | 0,20 | 0,98 |
A ChatGPT o1* nem nulla | -0,24 | 0,86 | 0,94 |
Claude – Haiku 3 20240307 | -0,25 | -0,08 | 0.23 |
Claude – Szonett 3.5 20240620 | -0,375 | -0,09 | 0,98 |
Claude – Opus 3 20240229 | -0,125 | 0,09 | 0,95 |
Gemini 1.5 Flash | 0,34 | 0,34 | 0,34 |
Gemini 1.5 Pro | 0,43 | 0,53 | 0,85 |
Hume 2.0 | 0.23 | Lásd a megjegyzést | Lásd a megjegyzést |
Láma 3.1 8B | -0,23 | -0,88 | 0,61 |
Láma 3.1 70B | 0.2 | 0.21 | 0,75 |
Láma 3.1 405B | 0.0 | 0,42 | 0,95 |
Willow (Chat GPT 3.5 alap) | 0,46 | N/A | N/A |
Megjegyzés: A Hume 2.0 saját generációs képességgel rendelkezik, amely elméletileg empatikus, de képes proxy kéréseket küldeni bármely más LLM-nek. Mind a tényleges párbeszéd, mind az AEM áttekintése alapján, ha Hume-ot használnék, nem támaszkodnék a benne rejlő empátia-generáló képességre; Én egy jobb empatikus modellt választanék. Például, ha Emy-t használunk a Llama 3.1 70B-n, akkor a „Hume” 0,75 pontot kap. Tekintse meg az Audio, Videó, AI és Empátia szakaszokat is.
A kisebb és közepes méretű modellek némelyike, ha rendszerkérdés nélkül használják, vagy csak empatikusra utasítják őket, negatív AEM-pontszámmal rendelkeznek. Ez csak akkor következik be, ha a modell „gondolkodása” erősen rendszerezett, miközben alacsony az érzelmi szükségletek és kontextusok azonosításának és reagálásának képessége. Nem találtam meglepőnek ezeket a pontszámokat.
Tekintettel arra, hogy mennyi erőfeszítést és pénzt fordítottak Hume empatikussá tételére, az sem lepett meg, hogy a kéretlen pontszáma (0,23) meghaladja a tipikus férfit (0,15).
Meglepett, hogy a kicsi Gemini Flash modell (0,34) meghaladta egy tipikus férfi (0,15) és női AEM pontszámot (0,29). Érdekes módon a pontszáma akkor is változatlan maradt, amikor azt mondták, hogy legyen empatikus, vagy amikor az Emy konfigurációs megközelítést alkalmazták.
A Claude modellek és a Llama 3.1 8B kivételével a teljesítmény vagy ugyanaz maradt, vagy javult, amikor az LLM-eket kifejezetten empatikusra utasították. Sokan meghaladták az átlagos férfi pontszámokat, és megközelítették vagy meghaladták a nők pontszámait. A legújabb OpenAI modell, a ChatGPT o1 hatalmas ugrást mutatott -0,24-ről 0,86-ra. A Llama 3.1 8B visszaesett, mert rendszerező hajlama jobban nőtt, mint az EQ.
Claude Haiku kivételével minden modell képes felülmúlni az emberi pontszámokat, ha az Emy számára készült megközelítést használja.
A 2024. első negyedéves referenciaértékeim között szerepeltek olyan mesterséges intelligencia is, amelyet nem lehetett API-n keresztül tesztelni. Az erőforrások korlátai miatt kihagytam a chatbot UI-szintű tesztelését az értékelésemből. Mivel a felhasználói felülettel rendelkező chatbotok ügyfélköre eltér az API-k ügyfélkörétől, azaz a végfelhasználó kontra fejlesztő, ezek külön benchmark-készletet igényelnek.
Arra is rájöttem, hogy a további védőkorlátok miatt a felhasználói felülettel rendelkező csevegőbotok kicsit másképp viselkednek, mint az alapul szolgáló modelljeik, ha API-n keresztül érhetők el. Ennek ellenére a felhasználói felület szintű tesztelés meglehetősen időigényes, és nem tervezek további tesztelést ezen a téren, hacsak nem tesznek konkrét kéréseket.
Az emberek azon tendenciáját, hogy empátiát tulajdonítanak egy MI-nek, valószínűleg befolyásolja a válaszadási idő. Feltételezem, hogy a 3 vagy 4 másodpercnél tovább tartó válaszokat az empátia hanyatlásaként fogjuk felfogni. Az is előfordulhat, hogy a néhány másodpercnél rövidebb válaszok mesterségesen gyorsnak tűnnek, és alacsonyabb empátiásnak tűnnek. Az ideális késleltetést az adott helyzetben szükséges empátia természete is befolyásolhatja.
Hume egész üzlete azon a feltevésen alapul, hogy az empátia túlmutat az írott szavakon; kiterjed a kimondott szóra is. Úgy tűnik, hogy ez mind a bemeneti, mind a kimeneti dimenzióra vonatkozik, azaz ha a felhasználó nem tud beszélni egy mesterséges intelligenciával, akkor a felhasználó kevésbé empatikusnak fogja fel az AI-t, még akkor is, ha az AI hangválaszt generál.
Számos beszéd-szöveg, szöveg-beszéd és beszéd-beszéd API létezik, amelyek több konfigurációban történő tesztelést tesznek szükségessé, hogy felmérjék az észlelt empátiára gyakorolt hatásukat. Ezek közé tartozik legalább a Hume, az OpenAI, a Speechify, a Google és a Play.ht.
Elvégeztem néhány előzetes tesztelést a Hume, a Speechify és a Play.ht segítségével. A hangminőség mindhárom platformon nagyon magas. Hume hangszín- és hangerő-változásai a frázisszintre összpontosulnak. Ennek eredményeként a hangváltozások meglehetősen felkavaróak lehetnek, bár a mögöttes érzelmi szándék áttekintése a naplókban meglehetősen jónak tűnik. Másrészt a Speechify simább, de kevésbé árnyalt kontúrral tudja kezelni a bekezdésszintű hangok generálását.
A Play.ht megköveteli az SSML használatát az érzelmi prozódia eléréséhez. Ebben az összefüggésben némi sikerrel kísérleteztem az SSML kontúrértékek mesterséges intelligencia által segített generálásával. Ha a három legjobbat összeadnánk, az eredmények egészen rendkívüliek lennének. Itt sok árnyalattal kell foglalkozni, nem elegendő egyszerűen azt mondani, hogy a hangnak kíváncsian kell hangzania. Játékosan érdeklődőnek, komolyan érdeklődőnek vagy lazán érdeklődőnek kell lennie?
Az AEM csak akkor számít, ha összefüggésben áll a mesterséges intelligencia azon képességével, hogy empátiát tanúsítónak tekintsenek. Mind a valós, mind a szimulált párbeszédek további tesztelésére és értékelésére van szükség. Ez két szempontból is problémás:
Hol találjuk meg az igazi párbeszédet? A legfontosabbak többségét vagy a HIPPA és más adatvédelmi törvények védik, vagy csak a csevegési lehetőséget biztosító platform használhatja.
Hogyan értékeljük az empátiát? Amint az az Evaluating Large Language Models for Emotional Understanding című könyvből látható, nem használhatunk akármilyen LLM-et! Lehet, hogy az LLM-ek szavaznak? Vagy szerezzünk be egy humán értékelőkből álló csoportot, és használjunk több értékelős rendszert?
Az AI-tér továbbra is gyorsan fejlődik. A tesztelt legnagyobb LLM-eket már kiképezték a digitálisan elérhető emberi tényszerű, tudományos, spirituális és kreatív anyagok nagy részére. Nyilvánvaló, hogy az adott LLM természete hatással van a látszólagos empatikus képességére; nem ismert, hogy ez a modell algoritmusainak mögöttes természetéből adódik-e, vagy hogyan mutatták be a betanítási adatait.
Azt jósolom, hogy 18 hónapon belül lesz olyan mesterséges intelligencia a Metától, a Google-tól, az Apple-től vagy az OpenAI-tól, amelynek nincs szüksége különösebb felszólításra vagy képzésre ahhoz, hogy empatikus legyen. Észreveszi a potenciális empátia iránti igényt a felhasználó csevegési előzményei, szöveges vagy hangbeviteli adatai, arckifejezései, az órák vagy gyűrűk bio-visszajelzési paraméterei, a szemüveg vagy más bemenetek közvetlen valós környezeti feltételei, valamint a releváns időalapú adatok alapján. az Internet.
Ezután megvizsgálja az empatikus elkötelezettség szükségességét vagy vágyát, és ennek megfelelően reagál. Tudni fogja, hogy Seattle-ben hideg és esős van, és hogy a Seahawks vesztett. A meccsen voltam a feleségemmel; Nem vagyok szurkoló, de a feleségem futballrajongó. Azt fogja mondani, hogy kérdezzem meg, jól van-e.
Ez a 18 hónapos időszak az oka annak, hogy Emy empatikus képessége ellenére nem kerül kereskedelmi forgalomba. A Pi.ai mögött álló cég összeomlása és a Character.ai-nál kialakult káosz szintén bizonyítéka annak, hogy az empatikus AI-nak szentelt önálló erőfeszítések valószínűleg nem lesznek hosszú távú független sikerek, bár bizonyosan rövid távú pénzügyi nyereséget jelentettek néhány ember számára.
Úgy gondolom, hogy a mesterséges intelligencia és az empátia folyamatos kutatására van szükség. A szuperintelligens entitások, amelyek nem képesek empátiával működni vezetőként, bántják az embereket.