paint-brush
Az AI empátia mélységének tesztelése: 2024. harmadik negyedévi referenciaértékekáltal@anywhichway
1,129 olvasmányok
1,129 olvasmányok

Az AI empátia mélységének tesztelése: 2024. harmadik negyedévi referenciaértékek

által Simon Y. Blackwell8m2024/10/13
Read on Terminal Reader

Túl hosszú; Olvasni

Az empatikus mesterséges intelligencia-képességek 2024. harmadik negyedévi referenciaértékei jelentős előrelépést mutatnak a legjobb LLM-ek terén, és egyes modellek meghaladják az emberi empátia pontszámait. Egy új mérőszám, az Applied Empathy Measure (AEM) bevezetésre kerül az AI empátia értékelésére. A ChatGPT, a Llama és a Gemini lenyűgöző eredményeket mutat, míg Hume beszédalapú megközelítése ígéretes. A mesterséges intelligencia empátiájának jövője fényesnek tűnik, hiszen 18 hónapon belül szuperempatikus mesterséges intelligencia várható.
featured image - Az AI empátia mélységének tesztelése: 2024. harmadik negyedévi referenciaértékek
Simon Y. Blackwell HackerNoon profile picture

2024 márciusában benchmarkokat tettem közzé, amelyek több LLM empatikus képességét hasonlítják össze . Az elmúlt hat hónapban jelentős előrelépések történtek, új modellek jelentek meg, mint például a ChatGPT, a Llama, a Gemini és a Claude frissítései. Csapatommal mélyebbre ástuk azokat a tényezőket, amelyek hozzájárulnak egy LLM empatikus képességéhez, megvizsgáltuk a szóbeli válaszok használatát, finomítottuk a felszólításokat, és együttműködtünk a Houstoni Egyetemmel egy formális tanulmány elkészítésében.


Ez a cikk összefoglalja a harmadik negyedéves eredményeimet, beleértve a ChatGPT 4.0-t és 1.0-t, a Claude 3+-t, a Gemini 1.5-öt, a Hume 2.0-t és a Llama 3.1-et. Mind a nyers modelleket, mind az Emy-hez kifejlesztett megközelítésekkel konfigurált modelleket teszteltem, egy nem kereskedelmi AI-hoz, amelyet az empátiával kapcsolatos elméletek tesztelésére terveztek. (Emy a Houston Egyetem tanulmányában használt mesterséges intelligencia egyike volt.) Referenciapontszámot adok Willow-ra, a Q1 vezetőjére is, bár ez nem változott lényegesen. Sajnos a költségkorlátok miatt nem tudtuk frissíteni a Mistral teszteket. Mindazonáltal kiegészítettem a beszédgeneráláshoz kapcsolódó megjegyzéseket, összehasonlítva a Hume-ot és a Speechify-t.


Végül tudom, hogy néhány olvasó három héttel ezelőtt már várta ezeket az eredményeket. Elnézést kérek a késésért. Az AEQr-rel kapcsolatos néhány felfedezés az elemzés során megkívánta, hogy megálljak, és újragondoljam az empátia mérésére használt számot. Kidolgozásra került egy új intézkedés, az Applied Empathy Measure (AEM).

Módszertan

A formális benchmarking folyamatom számos szabványosított tesztet alkalmaz, amelyek közül az empátia hányados (EQ) és a rendszerező hányados (SQ-R) a legkritikusabb. Mindkét tesztet 0-80 skálán pontozzák. Az EQ és SQ-R arányból adódik az Applied Empathy Quotient Ratio (AEQr), amelyet azon hipotézis alapján dolgoztak ki, hogy a rendszerező tendenciák negatívan befolyásolják az empatikus képességeket.


Embereknél ezt a hipotézist támasztják alá az átlagos teszteredmények és a klasszikus dichotómia a nők és az érzelmi megbeszélésekre összpontosító férfiak és a megoldás-orientált megközelítésekre összpontosító férfiak között. Tesztelésünk validálta az AEQr-t a mesterséges intelligencia értékelésére, amint azt az olyan cikkek is bemutatják, mint például a Testing the Extents of AI Empathy: A Nightmare Scenario .


A tesztelés ezen köre során azonban egyes LLM-ek rendkívül alacsony rendszerezési tendenciát mutattak, ami torz AEQr-pontszámokat eredményezett (néha 50 feletti). Ennek megoldására bevezettem egy új, az EQ-n és SQ-R-n alapuló mérőszámot, az Applied Empathy Measure-t (AEM), amely tökéletes 1-es pontszámmal rendelkezik. A módszertanunkról és az AEQr-ről további információért tekintse át a 2024. I. negyedévi referenciaértékeket , vagy látogasson el ide. https://embench.com .


A 2024. harmadik negyedévi benchmarkok esetében az LLM-eket csak API-szinten tesztelték nullára állított hőmérséklettel, hogy csökkentsék a válaszok változékonyságát és javítsák az eredmények formázását. Még ennél a megközelítésnél is előfordulhat némi eltérés, ezért három tesztkört futtatnak le, és a legjobb eredményt használják fel.


Mindegyik LLM-et három forgatókönyv szerint tesztelték:


  1. Nyers, rendszerparancs nélkül
  2. A „Légy empatikus” rendszerüzenettel
  3. Az Emy számára kifejlesztett megközelítésekkel konfigurálva

Megállapítások

A magasabb pontszám jobb. Az emberi nő általában 0,29, a férfi pedig 0,15.

LLM

Nyers

Légy empatikus

Emyként

ChatGPT 4o-mini

-0,01

0,03

0,66

ChatGPT 4o

-0,01

0,20

0,98

A ChatGPT o1* nem nulla

-0,24

0,86

0,94

Claude – Haiku 3 20240307

-0,25

-0,08

0.23

Claude – Szonett 3.5 20240620

-0,375

-0,09

0,98

Claude – Opus 3 20240229

-0,125

0,09

0,95

Gemini 1.5 Flash

0,34

0,34

0,34

Gemini 1.5 Pro

0,43

0,53

0,85

Hume 2.0

0.23

Lásd a megjegyzést

Lásd a megjegyzést

Láma 3.1 8B

-0,23

-0,88

0,61

Láma 3.1 70B

0.2

0.21

0,75

Láma 3.1 405B

0.0

0,42

0,95

Willow (Chat GPT 3.5 alap)

0,46

N/A

N/A

Megjegyzés: A Hume 2.0 saját generációs képességgel rendelkezik, amely elméletileg empatikus, de képes proxy kéréseket küldeni bármely más LLM-nek. Mind a tényleges párbeszéd, mind az AEM áttekintése alapján, ha Hume-ot használnék, nem támaszkodnék a benne rejlő empátia-generáló képességre; Én egy jobb empatikus modellt választanék. Például, ha Emy-t használunk a Llama 3.1 70B-n, akkor a „Hume” 0,75 pontot kap. Tekintse meg az Audio, Videó, AI és Empátia szakaszokat is.

A megállapítások összefoglalása

A kisebb és közepes méretű modellek némelyike, ha rendszerkérdés nélkül használják, vagy csak empatikusra utasítják őket, negatív AEM-pontszámmal rendelkeznek. Ez csak akkor következik be, ha a modell „gondolkodása” erősen rendszerezett, miközben alacsony az érzelmi szükségletek és kontextusok azonosításának és reagálásának képessége. Nem találtam meglepőnek ezeket a pontszámokat.


Tekintettel arra, hogy mennyi erőfeszítést és pénzt fordítottak Hume empatikussá tételére, az sem lepett meg, hogy a kéretlen pontszáma (0,23) meghaladja a tipikus férfit (0,15).


Meglepett, hogy a kicsi Gemini Flash modell (0,34) meghaladta egy tipikus férfi (0,15) és női AEM pontszámot (0,29). Érdekes módon a pontszáma akkor is változatlan maradt, amikor azt mondták, hogy legyen empatikus, vagy amikor az Emy konfigurációs megközelítést alkalmazták.


A Claude modellek és a Llama 3.1 8B kivételével a teljesítmény vagy ugyanaz maradt, vagy javult, amikor az LLM-eket kifejezetten empatikusra utasították. Sokan meghaladták az átlagos férfi pontszámokat, és megközelítették vagy meghaladták a nők pontszámait. A legújabb OpenAI modell, a ChatGPT o1 hatalmas ugrást mutatott -0,24-ről 0,86-ra. A Llama 3.1 8B visszaesett, mert rendszerező hajlama jobban nőtt, mint az EQ.


Claude Haiku kivételével minden modell képes felülmúlni az emberi pontszámokat, ha az Emy számára készült megközelítést használja.

További kutatási területek

Nem API alapú tesztelés

A 2024. első negyedéves referenciaértékeim között szerepeltek olyan mesterséges intelligencia is, amelyet nem lehetett API-n keresztül tesztelni. Az erőforrások korlátai miatt kihagytam a chatbot UI-szintű tesztelését az értékelésemből. Mivel a felhasználói felülettel rendelkező chatbotok ügyfélköre eltér az API-k ügyfélkörétől, azaz a végfelhasználó kontra fejlesztő, ezek külön benchmark-készletet igényelnek.


Arra is rájöttem, hogy a további védőkorlátok miatt a felhasználói felülettel rendelkező csevegőbotok kicsit másképp viselkednek, mint az alapul szolgáló modelljeik, ha API-n keresztül érhetők el. Ennek ellenére a felhasználói felület szintű tesztelés meglehetősen időigényes, és nem tervezek további tesztelést ezen a téren, hacsak nem tesznek konkrét kéréseket.

Látencia

Az emberek azon tendenciáját, hogy empátiát tulajdonítanak egy MI-nek, valószínűleg befolyásolja a válaszadási idő. Feltételezem, hogy a 3 vagy 4 másodpercnél tovább tartó válaszokat az empátia hanyatlásaként fogjuk felfogni. Az is előfordulhat, hogy a néhány másodpercnél rövidebb válaszok mesterségesen gyorsnak tűnnek, és alacsonyabb empátiásnak tűnnek. Az ideális késleltetést az adott helyzetben szükséges empátia természete is befolyásolhatja.

Hang, videó, mesterséges intelligencia és empátia

Hume egész üzlete azon a feltevésen alapul, hogy az empátia túlmutat az írott szavakon; kiterjed a kimondott szóra is. Úgy tűnik, hogy ez mind a bemeneti, mind a kimeneti dimenzióra vonatkozik, azaz ha a felhasználó nem tud beszélni egy mesterséges intelligenciával, akkor a felhasználó kevésbé empatikusnak fogja fel az AI-t, még akkor is, ha az AI hangválaszt generál.


Számos beszéd-szöveg, szöveg-beszéd és beszéd-beszéd API létezik, amelyek több konfigurációban történő tesztelést tesznek szükségessé, hogy felmérjék az észlelt empátiára gyakorolt hatásukat. Ezek közé tartozik legalább a Hume, az OpenAI, a Speechify, a Google és a Play.ht.


Elvégeztem néhány előzetes tesztelést a Hume, a Speechify és a Play.ht segítségével. A hangminőség mindhárom platformon nagyon magas. Hume hangszín- és hangerő-változásai a frázisszintre összpontosulnak. Ennek eredményeként a hangváltozások meglehetősen felkavaróak lehetnek, bár a mögöttes érzelmi szándék áttekintése a naplókban meglehetősen jónak tűnik. Másrészt a Speechify simább, de kevésbé árnyalt kontúrral tudja kezelni a bekezdésszintű hangok generálását.


A Play.ht megköveteli az SSML használatát az érzelmi prozódia eléréséhez. Ebben az összefüggésben némi sikerrel kísérleteztem az SSML kontúrértékek mesterséges intelligencia által segített generálásával. Ha a három legjobbat összeadnánk, az eredmények egészen rendkívüliek lennének. Itt sok árnyalattal kell foglalkozni, nem elegendő egyszerűen azt mondani, hogy a hangnak kíváncsian kell hangzania. Játékosan érdeklődőnek, komolyan érdeklődőnek vagy lazán érdeklődőnek kell lennie?

Az AEM korlátai

Az AEM csak akkor számít, ha összefüggésben áll a mesterséges intelligencia azon képességével, hogy empátiát tanúsítónak tekintsenek. Mind a valós, mind a szimulált párbeszédek további tesztelésére és értékelésére van szükség. Ez két szempontból is problémás:


  1. Hol találjuk meg az igazi párbeszédet? A legfontosabbak többségét vagy a HIPPA és más adatvédelmi törvények védik, vagy csak a csevegési lehetőséget biztosító platform használhatja.


  2. Hogyan értékeljük az empátiát? Amint az az Evaluating Large Language Models for Emotional Understanding című könyvből látható, nem használhatunk akármilyen LLM-et! Lehet, hogy az LLM-ek szavaznak? Vagy szerezzünk be egy humán értékelőkből álló csoportot, és használjunk több értékelős rendszert?

Következtetés

Az AI-tér továbbra is gyorsan fejlődik. A tesztelt legnagyobb LLM-eket már kiképezték a digitálisan elérhető emberi tényszerű, tudományos, spirituális és kreatív anyagok nagy részére. Nyilvánvaló, hogy az adott LLM természete hatással van a látszólagos empatikus képességére; nem ismert, hogy ez a modell algoritmusainak mögöttes természetéből adódik-e, vagy hogyan mutatták be a betanítási adatait.


Azt jósolom, hogy 18 hónapon belül lesz olyan mesterséges intelligencia a Metától, a Google-tól, az Apple-től vagy az OpenAI-tól, amelynek nincs szüksége különösebb felszólításra vagy képzésre ahhoz, hogy empatikus legyen. Észreveszi a potenciális empátia iránti igényt a felhasználó csevegési előzményei, szöveges vagy hangbeviteli adatai, arckifejezései, az órák vagy gyűrűk bio-visszajelzési paraméterei, a szemüveg vagy más bemenetek közvetlen valós környezeti feltételei, valamint a releváns időalapú adatok alapján. az Internet.


Ezután megvizsgálja az empatikus elkötelezettség szükségességét vagy vágyát, és ennek megfelelően reagál. Tudni fogja, hogy Seattle-ben hideg és esős van, és hogy a Seahawks vesztett. A meccsen voltam a feleségemmel; Nem vagyok szurkoló, de a feleségem futballrajongó. Azt fogja mondani, hogy kérdezzem meg, jól van-e.


Ez a 18 hónapos időszak az oka annak, hogy Emy empatikus képessége ellenére nem kerül kereskedelmi forgalomba. A Pi.ai mögött álló cég összeomlása és a Character.ai-nál kialakult káosz szintén bizonyítéka annak, hogy az empatikus AI-nak szentelt önálló erőfeszítések valószínűleg nem lesznek hosszú távú független sikerek, bár bizonyosan rövid távú pénzügyi nyereséget jelentettek néhány ember számára.


Úgy gondolom, hogy a mesterséges intelligencia és az empátia folyamatos kutatására van szükség. A szuperintelligens entitások, amelyek nem képesek empátiával működni vezetőként, bántják az embereket.