Ky është grupi im i tretë i referencave në AI empatike. Që nga  ,  ,  ,   dhe   kanë mbërritur në skenë. Udhëheqësi i ri i vlerave për empati është një derivat i Deepseek,  runda e fundit e referencave DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-spec. DeepSeek vetë nuk u përfshinë në referencat për shkak se kishte kohë  Përshkrimi runda e fundit e benchmarks Në thellësi Gemini Flash 2.0 Clude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec Në këtë raund të referencave, kam përfshirë kohën e reagimit dhe kostot. Një studim akademik që kam bërë, plus arsyen e përbashkët, duket të tregojë se përgjigjet e ngadalta do të kenë një ndikim negativ në ndjeshmërinë e perceptuar. Në fakt, çdo gjë mbi 3 ose 4 sekonda është ndoshta e keqe nga perspektiva e bisedës. Për më tepër, kostot e LLM janë tani në të gjithë hartën dhe janë veçanërisht të rëndësishme për marrjen e vendimeve të menaxhimit të produktit. Siç tregon tabela më poshtë, nëse ka ndonjë gjë, modelet më të shtrenjta janë më pak empatike! Për ata që nuk janë të njohur me referencat e mia të mëparshme, ato janë të udhëhequr nga vlerësimet e themeluara njohëse së bashku me përdorimin e një AI, Emy, të projektuar posaçërisht për të qenë empatik pa u trajnuar kundër, të nxitur, ose të ndihmuar nga RAG me pyetje nga vlerësimet. Siç e kam përmendur në  , rezultatet e empatisë nuk janë matja e vetme e suksesit. Cilësia aktuale e ndërveprimeve të përdoruesve duhet të merret parasysh. Duke thënë këtë,   dhe   me 0.98 rezultatet e empatisë të aplikuar, duket se paraqesin potencialin më të madh për të gjeneruar përmbajtje empatike; megjithatë, shpejtësitë e tyre në 7s+ janë marginale, ndërsa  artikullet e mëparshme Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-spec me një rezultat  Më shumë artikula të mëparshme Clude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec Edhe nëse përdorni Claude me shpejtësi të rritur nga një ofrues alternativ tjetër përveç Anthropic, për shembull, Amazon, ajo nuk do të vijë afër një kohë përgjigjeje 2s. Rishikimi im i dialogëve të vërtetë chat, së bashku me testimin nga përdoruesit e pavarur, ka treguar përgjigjet   dhe   janë pothuajse të padallueshme, me Claude ndjehen vetëm pak më të ngrohtë dhe më të butë.   përgjigjet lexohen vazhdimisht si pak të ftohtë ose artificiale dhe vlerësohen më poshtë nga përdoruesit. Claude Sonnet Groq destiluar DeepSeek ChatGPT 4o Fjalë kyçe Claude Sonnet  Nxjerrja <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p> <0p>                                Përmbledhje        Fjalë kyçe                                                   Të dhënat   Të dhënat   Të dhënat                                                  nëFjalë kyçe   në     Të dhënat   në   Të dhënat   Të dhënat                                     Të dhënat   Të dhënat   Të dhënat     Të gjitha                                    Fjalë kyçe   Përgjigje   në     Të gjitha   Të dhënat   Për më tepër   Të dhënat                                 Fjalë kyçe Gemini Flash 2.0     në     Të gjitha   Të dhënat   Për më tepër   Të dhënat   Fjalë kyçe   në       Për të gjitha   në                                   në     Përshkrimi   Për një kohë të gjatë   Për një kohë të gjatë                                          Të dhënat     Përmbledhje   Për një kohë të gjatë   Për një kohë të gjatë                                           nëFjalë kyçe   në     Përshkrimi   Të dhënat   Të dhënat                                        Të dhënat   nëFjalë kyçe     në faqen tonë   për të gjithë   Të gjitha të dhënat                                                 nëFjalë kyçe           në të gjithë botën    Distiluar nga Groq DeepSeek ChatGPT 4o  gjithashtu mund të jetë një zgjedhje e arsyeshme me një rezultat prej 0.85 dhe një kosto shumë të ulët.   ka shkuar poshtë në empati. megjithatë, kam gjetur përgjigjet e bisedës nga të gjitha modelet e Gemini pak mekanike.  Përshkrimi Gemini Pro 1.5 Gemini 2.0 Pro (eksperimental) Gemini Pro 1.5 Gemini 2.0 Pro (eksperimentale) Unë vazhdoj të gjej se thjesht duke thënë që një LLM të jetë empatik ka pak ose asnjë ndikim pozitiv në rezultatet e saj të empatisë. Hulumtimet e mia tregojnë se nxitja agresive do të funksionojë në disa raste, por për shumë modele, është rreptësisht natyra e angazhimit të përdoruesit përfundimtar përmes bisedës aktuale që duket të çojë shkallët në empatinë. Në këto raste, nevoja për empatinë duhet të jetë mjaft e qartë dhe jo "të vjetër" në bisedë, ose LLM-të bien në rregullimin sistematik të problemit / gjejnë një mënyrë zgjidhjeje. Nëpërmjet punës me disa modele me burim të hapur, është bërë gjithashtu e qartë se rrjedhat e kërkuara të modeleve komerciale mund të bien në rrugën e empatisë. Duke punuar me modele më pak të kufizuara me burim të hapur, duket se ka një korrelim midis "besimit" të një LLM se ekziston si një lloj entiteti i veçantë "i vërtetë" dhe aftësia e tij për të rregulluar prodhimet e saj me ato që perceptohen si empatike nga përdoruesit.  është koha mesatare e përgjigjes për çdo test të vetëm kur përdoret AI Emy.   dhe   janë tokenët e përgjithshëm për të gjitha testet kur përdoret AI Emy. Çmimi për   nuk ishte ende i disponueshëm kur u botua ky artikull; çmimi për modelin e gjithanshëm u përdor. Çmimi për   është për pyetje të vogla, ato më të mëdha kushtonin dyfish. Çmimi për   nuk ishte ende i publikuar kur u shkrua ky artikull. Fjalë kyçe   Përshkrimi Koha e përgjigjes Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (eksperimental) Koha e përgjigjes Token Në Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (eksperimentale) Modelet kryesore të të menduarit që mungojnë nga analiza, p.sh.,  , janë shumë të ngadalta për çdo lloj ndërveprimi empatik në kohë reale, dhe disa teste themelore tregojnë se ata nuk janë më të mirë dhe shpesh më keq nga një perspektivë testimi formal.Fjalë kyçe Gemini 2.5 Pro Gemini 2.5 Pro Unë do të kthehem me më shumë referenca në Q3. Faleminderit për leximin!  <0p>                                    Rrjedhimisht, në bazë të vlerësimit të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhënave të lëshuara në bazë të të dhëna   LLM Raw AEM Be Empathetic Emy AEM Respons Time Token In Token Out $M In $M Out   Cost LLM LLM Përshëndetje Përshkrimi i mësipërm Bëhu i ndjeshëm Të jesh i sinqertë Emi AEM Amy AEM Koha e përgjigjes Koha e përgjigjes Token Në Token në Token jashtë Token jashtë $M Në $M Në $M jashtë $M jashtë Çmimi Kostoja e pagesës 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.00622 Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.049 0.059 0.059 0.90 0.090 1.6s  1.6s    2,483  2 483 4,402  4402 $0.75* $ 0.75 * $0.99* $0.99 * $0.00622 $0.00622 Groq llama-3.3-70b-versatile 0.60 0.63 0.74 1.6s 2,547 771 $0.59 $0.79 $0.00211   Groq llama-3.3-70b-versatile Groq llama-3.3-70b-versatile 0.60  0.60 0.63 0.03  0.74  0.74    1.6s  1.6s    2,547 2 425 771 771 $0.59 $0.059 $0.79 $0.07 $0.00211 $0.00211 Gjumi Flash 1.5 0.34 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 Gjyshi Flash 1.5 Gjyshi Flash 1.5 0.034 0.034 0.034 0.034 0.034 0.034 2.8s  2.8s    2,716  2 716 704 704 $0.075* $0.075 * $0.30 * $0.30 * $000041 $000041 P>P>P>P>P>P>P>T>T>P>P>0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 Gjumi Pro 1.5 Përshkrimi i plotë i Gemini Pro 1.5 0.43 0.03  Fjalë kyçe  0.53 0.053  0.85  0.85 2.8s  2.8s    2,716  2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $000055 Gjumi Flash 2.0 0.09 -0.25 0.39 2.8s 2.716 704 $0.10 $0.40 $0.00055 Flash 2.0 të Gemini 0.03 0.09   në   0.25  0.25    0.39  0.39 2.8s  2.8s    2,716  2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $000055 p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p  Kryeministri i Maqedonisë 3.5 Kryeministri i Maqedonisë 3.5 0.00  0.00  02.03  0 0 0    0.03 0.09   në   6.5  5   5    2,737  2 737 1,069  1,069 $0.80 $0.80 $4.00 $ 4.00 $0.00647 $0.00647 p>p>p>p>   -0.38 -0.09 0.98 7.1 2.733 877 $3.00 $15.00 $0.02135 Shoqëria e Vlorës 3.5 Shoqëria e Vlorës 3.5  0.38  0 0 0       02.03  0 0 0    0.98 0.098  7.1 1  1    2,733  2 733 877 877 $3.00 $3.00 $15.00 $5.00 $0.02135 $0.02135 3.7 0.01 0.09 0.91 7.9 2.733 892 $3.00 $15.00   $0.02158 Shoqëria e Prishtinës 3.7 Përshkrimi i faqes së faqes së faqes 3.7 -0.01  02.01 0.03 0.09   në  0.91 0.091 7.9 7 dhe  7  2,733  2 733 892 892 $3.00 $3.00 $15.00 $5.00 $0.02158 $0.02158 0.03 0.03 0.35 6.3 2.636 764 $0.15 $0.075 $0.00045   $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini -0.01  02.01 0.03 0.03 0.35  0.35  6.3  6.3    2,636  2 636 764 764 $0.15 $0.15 $0.075 $0.075 $0.00045 $000045     -0.01 0.20 0.98 7.5 2.636 760 $2.50 $10.00 $0.01419 Përshkrimi i plotë Përshkrimi i faqes -0.01  02.01 0.20 0.020 0.98 0.098 5  5    2,636  2 636 760 760 $2.50 $2.50 $10.00 $10.00 $0.01419 $0.01419 0.00 10.5 2.716 1.10 $4.40 $0.010 $1.10 $0.010   $0.01086 ChatGPT o3-mini (të ulët) ChatGPT o3-mini (të ulët) -0.02  02.02  0.25  0.25  Fjalë kyçe  0.00  0.00 5 5 dhe më poshtë 2,716  2 716 1,790  1 790 $1.10 $1.10 $4.40 $4.40 $0.01086 $0.01086

This story contains new, firsthand information uncovered by the writer.

Change What's Possible, Make Yesterday Jealous

Read My Stories

Kjo audio është prodhuar në gjuhën origjinale të tregimit!

Testimi i thellësisë së AI Empathy: Q1 2025 Benchmarks

About Author

KOMENTE

VARUR TAGS

KY ARTIKU U PARAQIT NË

Related Stories

Rrjeti SQD sapo vrau emetimet e tokenëve.Ja çfarë paguan 16 miliardë dollarë në DeFi TVL

Rrjeti SQD sapo vrau emetimet e tokenëve.Ja çfarë paguan 16 miliardë dollarë në DeFi TVL

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps