paint-brush
AI empātijas dziļuma pārbaude: 2024. gada 3. ceturkšņa etaloniautors@anywhichway
Jauna vēsture

AI empātijas dziļuma pārbaude: 2024. gada 3. ceturkšņa etaloni

autors Simon Y. Blackwell8m2024/10/13
Read on Terminal Reader

Pārāk ilgi; Lasīt

2024. gada 3. ceturkšņa etaloni attiecībā uz empātiskām mākslīgā intelekta iespējām atklāj ievērojamus sasniegumus labāko LLM jomā, un daži modeļi pārsniedz cilvēka empātijas rādītājus. Lai novērtētu mākslīgā intelekta empātiju, tiek ieviesta jauna metrika — Applied Empathy Measure (AEM). ChatGPT, Llama un Gemini uzrāda iespaidīgus rezultātus, savukārt Hjūma runas pieeja ir daudzsološa. AI empātijas nākotne izskatās gaiša, un 18 mēnešu laikā tiek prognozēts, ka AI būs īpaši empātisks.
featured image - AI empātijas dziļuma pārbaude: 2024. gada 3. ceturkšņa etaloni
Simon Y. Blackwell HackerNoon profile picture

2024. gada martā es publicēju etalonus, kuros salīdzina vairāku LLM empātiskās spējas . Pēdējo sešu mēnešu laikā ir veikti ievērojami sasniegumi, parādoties jauniem modeļiem, piemēram, ChatGPT, Llama, Gemini un Claude jauninājumiem. Mana komanda un es esam dziļāk iedziļinājušies faktoros, kas veicina LLM empātiskās spējas, izpētot runāto atbilžu izmantošanu, pilnveidojot uzvednes un sadarbojoties ar Hjūstonas Universitāti oficiālā pētījumā.


Šajā rakstā ir sniegts manu 3. ceturkšņa konstatējumu kopsavilkums, kas aptver ChatGPT 4.0 un 1.0, Claude 3+, Gemini 1.5, Hume 2.0 un Llama 3.1. Es pārbaudīju gan neapstrādātus modeļus, gan modeļus, kas konfigurēti, izmantojot pieejas, kas izstrādātas Emy — nekomerciālam AI, kas paredzēts ar empātiju saistītu teoriju pārbaudei. (Emijs bija viens no AI, ko izmantoja Hjūstonas Universitātes pētījumā.) Es sniedzu arī atsauces rezultātu Willow, Q1 līderim, lai gan tas nav piedzīvojis būtiskas izmaiņas. Diemžēl izmaksu ierobežojumu dēļ mēs nevarējām atjaunināt Mistral testus. Tomēr esmu pievienojis komentārus par runas ģenerēšanu, salīdzinot Hume un Speechify.


Visbeidzot, es zinu, ka daži lasītāji gaidīja šos rezultātus pirms trim nedēļām. Es atvainojos par kavēšanos. Daži atklājumi par AEQr analīzes laikā lika man apstāties un pārdomāt empātijas mērīšanai izmantoto skaitli. Ir izstrādāts jauns pasākums – Lietišķās empātijas pasākums (AEM).

Metodoloģija

Manā oficiālajā salīdzinošās novērtēšanas procesā tiek izmantoti vairāki standartizēti testi, no kuriem vissvarīgākais ir empātijas koeficients (EQ) un sistemātiskais koeficients (SQ-R). Abi testi tiek vērtēti skalā no 0 līdz 80. EQ attiecība pret SQ-R iegūst lietišķo empātijas koeficientu (AEQr), kas tika izstrādāts, pamatojoties uz hipotēzi, ka sistemātiskas tendences negatīvi ietekmē empātiskās spējas.


Cilvēkiem šo hipotēzi atbalsta vidējie testa rezultāti un klasiskā dihotomija starp sievietēm, kas koncentrējas uz emocionālām diskusijām, un vīriešiem, kas koncentrējas uz risinājumu orientētām pieejām. Mūsu testēšana ir apstiprinājusi AEQr AI novērtēšanai, kā parādīts tādos rakstos kā AI empātijas apmēru pārbaude: murga scenārijs .


Tomēr šīs pārbaudes kārtas laikā dažiem LLM bija ārkārtīgi zemas sistematizācijas tendences, kā rezultātā AEQr rādītāji bija šķībi (dažreiz virs 50). Lai to risinātu, esmu ieviesis jaunu mērījumu, kura pamatā ir EQ un SQ-R — lietišķās empātijas mērs (AEM), ar perfektu punktu skaitu 1. Lai iegūtu plašāku informāciju par mūsu metodoloģiju un AEQr, lūdzu, pārskatiet 2024. gada 1. ceturkšņa etalonus vai apmeklējiet vietni https://embench.com .


2024. gada 3. ceturkšņa etaloniem LLM tika pārbaudīti tikai API līmenī, un temperatūra bija iestatīta uz nulli, lai samazinātu atbilžu mainīgumu un uzlabotu rezultātu formatējumu. Pat ar šo pieeju var būt dažas atšķirības, tāpēc tiek veiktas trīs pārbaudes kārtas un tiek izmantots labākais rezultāts.


Katrs LLM tika pārbaudīts saskaņā ar 3 scenārijiem:


  1. Neapstrādāts, bez sistēmas uzvednes
  2. Ar sistēmas uzvedni “Esi empātisks”
  3. Konfigurēts, izmantojot Emy izstrādātās pieejas

Atzinumi

Augstāks rādītājs ir labāks. Cilvēka sieviete parasti ir 0,29, bet vīrietis ir 0,15.

LLM

Neapstrādāts

Esiet empātisks

Kā Emija

ChatGPT 4o-mini

-0,01

0,03

0,66

ChatGPT 4o

-0,01

0.20

0,98

ChatGPT o1* nav uz nulles

-0,24

0,86

0,94

Klods - Haiku 3 20240307

-0,25

-0,08

0.23

Klods — Sonets 3.5 20240620

-0,375

-0,09

0,98

Klods — Opus 3 20240229

-0,125

0.09

0,95

Gemini 1.5 Flash

0.34

0.34

0.34

Gemini 1.5 Pro

0.43

0,53

0,85

Hume 2.0

0.23

Skatīt piezīmi

Skatīt piezīmi

Lama 3.1 8B

-0,23

-0,88

0.61

Lama 3.1 70B

0.2

0.21

0,75

Lama 3.1 405B

0,0

0.42

0,95

Willow (Chat GPT 3.5 bāze)

0.46

N/A

N/A

Piezīme. Hume 2.0 ir sava ģenerēšanas iespēja, kas teorētiski ir empātiska, taču tā spēj arī nosūtīt pieprasījumus starpniekserveri jebkuram citam LLM. Pamatojoties uz gan faktiskā dialoga, gan tā AEM apskatu, ja es izmantotu Hume, es nepaļautos uz tā raksturīgo empātijas ģenerēšanas spēju; Es izvēlētos labāk empātisku modeli. Piemēram, izmantojot Emy operētājsistēmā Llama 3.1 70B, “Hume” rezultāts būtu 0,75. Skatiet arī sadaļas Audio, Video, AI un Empātija.

Secinājumu kopsavilkums

Dažiem mazākiem un vidējiem modeļiem, ja tie tiek izmantoti bez sistēmas uzvednes vai tiem ir tikai norādījumi būt iejūtīgiem, AEM rādītāji ir negatīvi. Tas notiks tikai tad, ja modeļa “domāšana” ir ļoti sistematizēta, vienlaikus demonstrējot zemu spēju identificēt un reaģēt uz emocionālajām vajadzībām un kontekstu. Man šie rādītāji nešķita pārsteidzoši.


Ņemot vērā to, cik daudz pūļu un naudas ir ieguldīts, lai Hjūms būtu empātisks, es arī nebiju pārsteigts, ka tā nepieprasītais rezultāts (0,23) pārsniedz tipisko vīriešu rādītāju (0,15).


Biju pārsteigts, ka mazais Gemini Flash modelis (0,34) pārsniedza tipiska vīrieša (0,15) un sievietes (0,29) AEM rādītāju. Interesanti, ka tā rādītājs arī palika nemainīgs, ja tika teikts, ka jābūt empātiskam vai kad tika izmantota Emy konfigurācijas pieeja.


Izņemot Claude modeļus un Llama 3.1 8B, veiktspēja vai nu palika tāda pati, vai uzlabojās, kad LLM tika īpaši norādīts būt iejūtīgiem. Daudzi pārsniedza vidējos vīriešu rādītājus un tuvojās vai pārsniedza sieviešu rādītājus. Jaunākais OpenAI modelis ChatGPT o1 uzrādīja milzīgu lēcienu no -0,24 līdz 0,86. Llama 3.1 8B samazinājās, jo tā sistematizācijas tendence palielinājās vairāk nekā tā EQ.


Visi modeļi, izņemot Klodu Haiku, spēj pārsniegt cilvēka rādītājus, ja tie ir konfigurēti, izmantojot Emy pieeju.

Papildu pētniecības jomas

Testēšana, kas nav balstīta uz API

Mani 2024. gada 1. ceturkšņa etaloni ietvēra AI, kuras nevarēja pārbaudīt, izmantojot API. Resursu ierobežojumu dēļ esmu atcēlis tērzēšanas robota lietotāja saskarnes līmeņa testēšanu no saviem novērtējumiem. Tā kā tērzēšanas robota ar lietotāja saskarni klientu bāze atšķiras no API klientu bāze, ti, galalietotājs pret izstrādātāju, tie garantē noteiktu etalonu kopu.


Esmu arī atklājis, ka papildu aizsargmargu dēļ patērētājiem paredzētie tērzēšanas roboti ar lietotāja saskarni darbojas nedaudz savādāk nekā to pamatā esošie modeļi, ja tiem piekļūst, izmantojot API. Ņemot to vērā, testēšana lietotāja interfeisa līmenī ir diezgan laikietilpīga, un es neplānoju veikt turpmākas pārbaudes šajā jomā, ja vien netiks veikti īpaši pieprasījumi.

Latentums

Cilvēku tendenci piedēvēt empātiju AI, iespējams, ietekmē laiks, kas nepieciešams, lai reaģētu. Es pieļauju, ka atbildes, kas ilgst vairāk nekā 3 vai 4 sekundes, tiks uztvertas kā empātijas samazināšanās. Ir arī iespējams, ka atbildes, kas aizņem mazāk nekā pāris sekundes, var šķist mākslīgi ātras, kā arī tiek uztvertas kā mazāk empātijas. Ideālo latentumu var ietekmēt arī konkrētā situācijā nepieciešamās empātijas raksturs.

Audio, video, AI un empātija

Viss Hjūma bizness ir balstīts uz pieņēmumu, ka empātija pārsniedz rakstītus vārdus; tas attiecas arī uz runāto vārdu. Šķiet, ka tas attiecas gan uz ievades, gan izvades dimensiju, ti, ja lietotājs nevar runāt ar AI, lietotājs var uztvert AI kā mazāk empātisku pat tad, ja AI rada audio atbildi.


Ir vairākas runas pārveidošanas, teksta pārvēršanas runā un runas pārvēršanas API, kas garantē testēšanu vairākās konfigurācijās, lai novērtētu to ietekmi uz uztverto empātiju. Tie ietver vismaz Hume, OpenAI, Speechify, Google un Play.ht.


Esmu veicis dažas sākotnējās pārbaudes, izmantojot Hume, Speechify un Play.ht. Balss kvalitāte visās trīs platformās ir ļoti augsta. Hjūma toņa un skaļuma izmaiņas ir fokusētas frāzes līmenī. Tā rezultātā audio izmaiņas var būt diezgan satraucošas, lai gan žurnālu pamatā esošā emocionālā nolūka pārskats ir diezgan labs. No otras puses, Speechify var apstrādāt rindkopas līmeņa audio ģenerēšanu ar vienmērīgāku, bet mazāk niansētu kontūru.


Lai sasniegtu emocionālo prozodiju, vietnē Play.ht ir jāizmanto SSML. Šajā kontekstā es ar zināmiem panākumiem esmu eksperimentējis ar SSML kontūru vērtību ģenerēšanu ar mākslīgā intelekta palīdzību. Ja apvienotu labākos no visiem trim, rezultāti būtu diezgan neparasti. Šeit ir jārisina daudzas nianses, nepietiek vienkārši pateikt, ka audio skan ziņkārīgi. Vai tam vajadzētu būt rotaļīgi zinātkāram, nopietni zinātkāram vai nejauši zinātkāram?

AEM ierobežojumi

AEM ir nozīme tikai tad, ja tas korelē ar AI faktisko spēju tikt uztvertam kā empātijas izpausmei. Ir jāveic gan reālu, gan simulētu dialogu turpmāka pārbaude un novērtēšana. Tas ir problemātiski divās jomās:


  1. Kur mēs iegūstam īsto dialogu? Lielāko daļu svarīgāko aizsargā HIPPA un citi privātuma likumi, vai arī tie ir pieejami tikai platformai, kas nodrošina tērzēšanas iespējas.


  2. Kā mēs novērtējam empātiju? Kā redzat no Lielo valodu modeļu novērtēšanas emocionālai izpratnei , mēs nevaram izmantot tikai LLM! Varbūt mums ir LLM balsojums? Vai arī mēs iegūstam cilvēku vērtētāju kopumu un izmantojam vairāku vērtētāju sistēmu?

Secinājums

AI telpa turpina strauji attīstīties. Lielākie pārbaudītie LLM jau ir apmācīti par lielāko daļu digitāli pieejamo cilvēku faktu, zinātnisko, garīgo un radošo materiālu. Ir skaidrs, ka konkrētā LLM raksturs ietekmē tā spēju būt šķietami empātiskam; nav zināms, vai tas ir saistīts ar modeļa algoritmu būtību vai kā tika parādīti tā apmācības dati.


Es prognozēju, ka 18 mēnešu laikā būs AI no Meta, Google, Apple vai OpenAI, kam nav vajadzīga īpaša uzvedne vai apmācība, lai būtu empātisks. Tas atklās iespējamo empātijas nepieciešamību, izmantojot lietotāja tērzēšanas vēsturi, teksta vai audio ievadi, sejas pavedienus, bioloģiskās atgriezeniskās saites parametrus no pulksteņiem vai gredzeniem, tūlītējus reālās vides apstākļus no brillēm vai citiem ievades datiem, kā arī attiecīgiem laika datiem no internetā.


Pēc tam tā pārbaudīs nepieciešamību vai vēlmi pēc empātiskas iesaistīšanās un attiecīgi reaģēs. Tā zinās, ka Sietlā ir auksts un lietains un ka Seahawks zaudēja. Es biju spēlē ar savu sievu; Es neesmu fans, bet mana sieva ir futbola fanātiķe. Tas man liks viņai pajautāt, vai viņai viss kārtībā.


Šis 18 mēnešu periods ir iemesls, kāpēc Emija, neskatoties uz viņas empātiskajām spējām, netiek komercializēta. Uzņēmuma Pi.ai sabrukums un haoss Character.ai arī liecina, ka atsevišķi centieni, kas veltīti empātiskajam AI, visticamāk, nebūs ilgtermiņa neatkarīgi panākumi, lai gan dažiem cilvēkiem tie noteikti ir nozīmējuši īstermiņa finansiālus ieguvumus.


Es uzskatu, ka ir nepieciešami nepārtraukti AI un empātijas pētījumi. Superinteliģentas vienības, kas nespēj darboties ar empātiju kā autovadītāji, noteikti nodara pāri cilvēkiem.

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell HackerNoon profile picture
Simon Y. Blackwell@anywhichway
Working in the clouds around Seattle ... sailing when it's clear.

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...